mimo小米公司研发的开源AI模型MIMO-V2-Flash,采用混合专家架构(MoE),推理速度达150 tokens/秒,成本仅为每百万token输入0.1美元、输出0.3美元。其创新点包括混合滑动窗口注意力机制(减少6倍KV缓存)、三层MTP并行预测及多教师在线策略蒸馏技术,编程能力在SWE-Bench测试中达73.4%成功率。该模型在开源平台第三方调用数据中全球排名第三,性能接近GPT-5等商用模型,但成本低一个量级。

mimo小米公司研发的开源AI模型MIMO-V2-Flash,采用混合专家架构(MoE),推理速度达150 tokens/秒,成本仅为每百万token输入0.1美元、输出0.3美元。其创新点包括混合滑动窗口注意力机制(减少6倍KV缓存)、三层MTP并行预测及多教师在线策略蒸馏技术,编程能力在SWE-Bench测试中达73.4%成功率。该模型在开源平台第三方调用数据中全球排名第三,性能接近GPT-5等商用模型,但成本低一个量级。
