1437 字
7 分钟
美团万亿模型LongCat-2.0:训练推理英伟达含量为零,意味着什么

美团万亿模型LongCat-2.0:训练推理英伟达含量为零,意味着什么#

引言#

2026年5月1日,美团 quietly 开启了一个内测:万亿参数大模型 LongCat-2.0-Preview,每天 1000 万免费 token。

如果只是又一个万亿模型,不值得写一篇文章。DeepSeek V4 上周刚发布,参数也是 1.6 万亿。真正值得关注的是另一件事:

LongCat-2.0-Preview 从训练到推理,全流程用的都是国产芯片。英伟达算力占比为零。

这不是”首发推理用国产卡,训练还用 A100”的折中方案,而是彻头彻尾的国产算力跑通。

关键数字#

  • 总参数量:约 1.6T(MoE架构)
  • 平均激活参数:约 48B
  • 上下文窗口:支持 1M(百万级)
  • 训练用卡规模:5万至6万张国产加速卡
  • 英伟达占比:0%

5-6 万张加速卡是什么概念?这是目前已知范围内,国产算力支撑超大模型训练的规模上限。

为什么说这是个里程碑?#

先看行业背景。

DeepSeek V4 发布时也用了国产芯片做首发推理,但训练环节仍然依赖英伟达。这不算奇怪——目前全球只有英伟达的 GPU 生态(CUDA、NCCL、cuDNN)能成熟支撑万亿级模型的训练。国产芯片单卡性能可能接近,但软件栈、通信库、算子优化、稳定性的差距才是真正的门槛。

参数越大,这个差距越明显。100B 模型可能在国产卡上跑得还行,到了 1.6T MoE,跨卡通信的延迟、显存的碎片化、训练过程中偶发的数值不稳定,都可能让训练崩溃。

所以 LongCat-2.0-Preview 的意义不在于”又一个万亿模型”,而在于它证明了:

国产算力在计算正确性、数值精度、长周期训练稳定性这些核心指标上,已经能支撑万亿级 MoE 模型的全流程训推。

技术细节:怎么跑通的?#

从已披露的信息看,LongCat 团队在几个关键地方做了针对性设计:

跨层流感知索引#

长上下文的主要瓶颈来自 Transformer 的 O(n²) 计算复杂度。LongCat 引入了轻量稀疏注意力机制,叠加”跨层流感知索引”——在不同层之间识别关键语义路径,减少重复的全量 attention 计算。

这个设计让模型能稳定支持百万级上下文,同时保持推理延迟和计算成本相对可控。

用软件工程弥补硬件差距#

有接近项目的人形容:这是”用软件工程的勤奋,弥补硬件生态的欠缺”。

国产芯片在显存等硬指标上仍有差距,但 LongCat 团队没有等硬件追上,而是在软件层面做了大量适配和优化工作——算子库重写、通信模式调整、容错机制加固。

这和当年 Android 在中国的发展路径很像:硬件不如 iPhone,但通过软件和本地化适配,最终做出了不一样的体验。

方法论的第一次万亿级验证#

LongCat-2.0-Preview 并非从零开始的全新架构。据了解,它在之前较小规模模型的训练方法论基础上,第一次把这套方法推到万亿参数级。很多技术报告里之前看不太懂的细节,放在万亿规模的语境下突然有了合理的解释。

和DeepSeek V4对比#

维度DeepSeek V4 ProLongCat-2.0-Preview
总参数1.6T~1.6T
激活参数49B~48B
上下文1M1M
训练芯片英伟达为主国产芯片
推理芯片首发国产国产芯片
开源是(MIT)未定
开放方式公开API+开源受邀内测

两者在参数规模上基本对齐,但路径完全不同:DeepSeek 选择开源开放,美团选择封闭验证。

行业意义#

1. 国产算力跨过”可替代”到”可承担顶级任务”的门槛#

之前的讨论集中在”能不能替代英伟达”。LongCat-2.0-Preview 的回答是:不只是替代,而是能承担行业里最吃算力的任务——万亿参数模型的完整训练。

2. 芯片自主不再只是政策目标#

在中美科技博弈的背景下,芯片自主一直是政策层面的重点。但 LongCat 证明,它也可以是一个工程问题——不是喊口号,而是真的用 5-6 万张国产卡把一个万亿模型跑出来了。

3. 开源路线可能跟进#

据消息人士称,LongCat-2.0-Preview 大概率会延续之前的开放路线。如果开源,那国内开发者和企业将第一次拥有”参数级别对标 DeepSeek V4 + 全栈国产算力”的可选方案。

值得关注的后续#

  • 是否会开源? 这决定了它的影响力范围
  • 实际性能如何? 内测阶段只有额度,没有 benchmark 数据
  • 国产芯片具体是哪家? 目前未公开,但这本身就是一个值得关注的信号
  • 美团是否会将 AI 能力整合到本地生活业务? 这才是商业上的核心问题

写在最后#

AI 行业的叙事总是围绕模型参数和 benchmark 展开。但 LongCat-2.0-Preview 提醒我们:谁跑模型很重要,用什么跑的同样重要

在算力受限的环境里,能跑出来就是能力。而能全靠自己跑出来,是另一种能力。

前者是算法问题,后者是产业问题。后者更难。


参考链接: