沛讯网
沛讯网 > 商业 > 6.6万人排队!小米旗舰“超速”模型延长体验时间,官方:500强争着用

6.6万人排队!小米旗舰“超速”模型延长体验时间,官方:500强争着用

本站小编
187128 分享到

  智东西

  作者 | 陈佳

  编辑 | 云鹏

  智东西6月24日报道,昨日,小米MiMo开放平台发布公告,宣布延长旗下MiMo-V2.5-Pro-UltraSpeed模型的聊天体验与API接入体验期限。该模型于6月9日上线,原定体验窗口截至6月23日,但由于申请量远超预期,团队决定延长开放时间。

6.6万人排队!小米旗舰“超速”模型延长体验时间,官方:500强争着用

  ▲关于MiMo-V2.5-Pro-UltraSpeed限时体验延期的通知(图源:小米MiMo)

  官方数据显示,截至6月23日,MiMo-V2.5-Pro-UltraSpeed已收到超过6.6万个使用申请,申请者包含世界500强公司、行业头部企业与个人开发者,涵盖法律、金融、通信、物流、汽车制造、文化传媒、高校等多个领域。

  小米MiMo团队在公告中称,申请量“远超预期”,并强调“极致的推理速度将带来行业全新的使用场景与范式”。

  延期后,用户可继续申请内测,已审核通过的用户可继续使用,具体下线时间将根据资源情况另行安排。

  回顾此前的发布情况,MiMo-V2.5-Pro-UltraSpeed是小米MiMo团队与AI推理系统团队TileRT联合推出的极速推理模式,首次在万亿参数(1T)旗舰模型上突破1000 tokens/s的输出速度,峰值可达约1200 tokens/s。

  该模型基于MoE架构,总参数量1T,单次前向传播激活参数约420亿,支持100万token超长上下文。

6.6万人排队!小米旗舰“超速”模型延长体验时间,官方:500强争着用

  ▲雷军发文宣布MiMo-V2.5-Pro-UltraSpeed新进展(图源:新浪微博)

  小米称,UltraSpeed的实现路径不依赖Cerebras晶圆级芯片或Groq定制SRAM芯片等专用硬件方案,而是在一个标准8卡通用GPU节点上,通过模型侧和系统侧协同优化,让1T模型突破1000 tokens/s输出速度。

  模型侧,小米采用FP4混合量化,主要对MoE Expert进行FP4量化,其他模块保留较高精度,以降低模型体积和访存压力。同时,MiMo引入DFlash投机解码,用块级Masked并行预测替代传统Draft模型逐token自回归,让大模型一次验证更多候选token。

  系统侧,TileRT为FP4量化和DFlash流程定制编译引擎与计算核,并通过常驻内核引擎、异构流水线协作等方式减少算子启动和同步开销。小米在Hugging Face开源的MiMo-V2.5-Pro-FP4-DFlash模型卡称,该模型是UltraSpeed背后的底层模型,包含FP4量化backbone和BF16 DFlash drafter,许可证为MIT。

  在定价方面,UltraSpeed API采用限时体验价,定价为标准版MiMo-V2.5-Pro的3倍,同时提供约10倍的输出速度提升。以官方定价为参照,标准版MiMo-V2.5-Pro缓存命中输入0.025元/百万tokens,缓存未命中输入3元/百万tokens,输出6元/百万tokens,UltraSpeed输出定价约为18元/百万tokens(约合2.65美元/百万tokens)。

  作为参照,Anthropic最新旗舰模型Claude Opus的API公开定价为输入5美元/百万tokens(约合人民币34元),输出25美元/百万tokens(约合人民币170元)。

  1000 tokens/s的速度,放在行业坐标中也有冲击力:据AI基准测试平台Artificial Analysis的数据,GPT-5.5的输出速度约为62至68 tokens/s,Claude Opus约71 tokens/s,Gemini Flash约192至200 tokens/s。

  此前,UltraSpeed在海外开发者社区引发强烈反响。该话题在技术社区Hacker News上成为热帖,社交平台X上有开发者直言“8卡通用GPU节点跑出万亿MoE模型的1000 tokens/s,太疯狂了”,也有人对MoE架构下“万亿参数”的可比性提出质疑。

  申请入口:

  https://platform.xiaomimimo.com/ultraspeed

  Chat体验入口:

  https://ultraspeed.xiaomimimo.com

  Hugging Face地址:

  https://huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro-FP4-DFlash

最新文章
网站信息