
新京报贝壳财经讯(记者陈维城)6月8日晚,小米MiMo技艺团队致密上线Xiaomi MiMo-V2.5-Pro-UltraSpeed方式,在通用GPU上推理速率突破1000 tokens/s。
MiMo-V2.5-Pro-UltraSpeed通过对模子推理系统的全链路工程才智优化,在不裁减模子才智前提下,初度把推理速率擢升至1000 tokens/s,且无需定制芯片、只使用通用GPU即可实现。这一突破冲破了“快、强、通用 GPU无法兼得”的行业弗成能三角。
小米MiMo技艺团队示意,该突破是基于Xiaomi MiMo-V2.5 Pro的SWA架构,重复了FP4 Experts、DFlash解码以及TileRT团队的履行系统Co‑design,从模子到推理引擎再到GPU履行旅途进行了全链路优化。
斗鱼体育app中国官网下载即日起至6月23日,现金炸金花游戏软件MiMo-V2-Pro-UltraSpeed方式将接收恳求制限时怒放,通过恳求的用户可接入API 进行体验。
自4月底以来,小米AI在模子才智、推理本钱和推理后果三个维度接连取得突破:4月23日现金炸金花游戏软件, MiMo-V2.5-Pro在人人巨擘大模子测评平台Artificial Analysis上,获取玄虚智能指数与Agent指数人人开源模子并排第一;5月27日,Xiaomi MiMo-V2.5系列模子API因技艺优化秘书最高降价99%,并同方法整Token Plan计费体系。6月8日,MiMo-V2.5-Pro-UltraSpeed以1000 tokens/s创下万亿参数旗舰模子推理速率新记录。