美团盯上原生多模态!路子还很野:把图像语音都当成Token来预测
“离散视觉没有天花板”
Token,这下真成了智能世界的基本单位。
不是被定义出来的“词元”,而是被一套全新的统一Token架构,直接压进了现实建模的最底层。
过去一年,几乎所有头部大模型玩家,都在忙着重写多模态的底层架构。
从谷歌、OpenAI到国内的字节、MiniMax,大家在实践中逐渐形成共识——不走原生多模态,已经不够、不行了。
但问题是,原生多模态到底该怎么走?到目前为止,业界并没有一个统一答案。
直到这一次,一直闷头搞AI的美团LongCat,歘的一下亮出新解法:
把图片、语音,统统当成Token来预测。
听起来有点离谱,但他们不仅这么做了,而且——
还做成了。
真原生、真统一
先回答一个基本问题:为什么要做原生多模态?
理由虽然很多,但核心只有一个:
目前业界主流的多模态大模型,本质上采用的是一套“拼凑式架构”——语言模型当底座,视觉、语音当外挂。
这种架构下,理解靠连续特征对齐(比如要理解图片就得把图片转成语言能看懂的信号)、生成靠扩散模型,两套系统各说各话,根本谈不上真正的统一。
结果就是,中间“传话人”一多,算力消耗飙升,信息也一路跑偏、流失。
而原生多模态,则从一开始就用一套统一的方式,把所有模态一起建模——不需要拼接、不需要传话翻译,所有模态共用同一套“语言”。
而这,正是美团LongCat做的事。
至于为什么说他们采用的方式很“离谱”,原因在于,他们把“离散自回归”直接搬到了图像和语音这种连续信号上。
众所周知,依赖离散自回归建模,“预测下一个Token”让大语言模型一战成名。
但当这套范式被搬到视觉上时,问题也随之出现:
图片是连续信号,不能像文本那样天然离散,一旦强行切成Token(类似把一张图分成几块),模型就会丢信息“变弱”。
因此,行业长期认为,离散视觉建模存在“性能天花板”。
但随着美团LongCat一篇新论文的出现,这一认知被打破了——
文本、图像、语音,可以被统一压进同一个离散Token空间,用一套自回归逻辑从头建模,而且模型效果可以媲美主流顶尖模型。
从论文中可以看到,为这套理念提供支撑的,正是美团LongCat首创的离散原生自回归架构——DiNA(Discrete Native Autoregressive )。
DiNA核心只做一件事——把文字、图像、语音都变成同一种东西,即离散Token。
这样一来,无论模型是读文字、看图片还是听声音,本质上都是在预测下一个Token。
听起来是不是仍有点抽象?不妨看看下面这张架构运行图。
简单来说,DiNA的一个完整“小周天”,大致会经历以下三个过程:
- 输入侧:文本、图像、语音各自经过自家Tokenizer,统一把原始信号转成离散Token;
- 中间:所有Token汇入一个不区分模态的学习器,它只处理Token序列,所有理解、推理、生成都在这里完成;
- 输出侧:处理完的Token再通过各自的De-Tokenizer还原成图像、音频、文本。
这种架构设计带来的好处显而易见:
以前都是各管各的(文字模型管文字、图片模型管图片),现在所有模态都共享同一个自回归骨干。
这意味着,甭管处理哪种模态,模型都用同一套参数、同一个注意力机制、同一个损失函数。
而这,无疑可以让模型在训练时更稳定,部署时更轻量。
训练时,多模态数据互相补充,梯度信号更稳,不容易跑偏;部署时,一个模型顶三个,显存省了,速度也快了。
空口无凭。
美团LongCat用LongCat-Flash-Lite MoE(总参数685亿,激活仅30亿)做基座,在这个框架上训练出LongCat-Next。
结果发现,DiNA的MoE路由在训练中逐渐学会了“分工”——不同专家开始偏好处理不同模态,激活的专家数量也比纯语言模型时更多,这说明模型正在用更大容量支撑能力扩展。
说白了就是,为了多干活,找了更多专家。
再一个,前面提到了理解和生成的割裂问题(需要两套系统)。
而在DiNA这里,它俩也变成了“预测下一个Token”这一件事——数学形式完全一样,只是输入输出互换。
看到图片,预测文字是“理解”;看到文字,预测图片是“生成”。理解和生成一个模型全搞定。
至于具体效果嘛?实验数据很能说明问题:
统一模型的理解损失仅比纯理解模型高0.006,而生成损失比纯生成模型低0.02。
这说明什么?理解不仅没拖累生成,反而表现出协同潜力。
以及最后还有很重要的一点,那就是真·原生。
以前的多模态模型,本质上天天干的是“对齐”的活儿——不同模态之间“对话”需要靠“翻译传话”。
而现在,美团LongCat发现:
把不同模态的Token丢进t-SNE可视化之后,它们不是各占一角,而是混在一起,自然交融,而且不同的专家模块开始自动偏好处理图像、文字或语音。
这说明,模型不是在“拼凑”多模态,而是在内部长出了一个统一的多模态世界。
说到这里,懂行的朋友可能就问了:
OK,现在我们已经知道DiNA架构长什么样、具体怎么运作的了,但这里还有一个关键问题没有被提到:
它是怎么把不同模态离散成Token的?文本不必多说,至少得说清图像和语音咋处理的。
而这,就要谈到美团LongCat的另一项自研了。
所以,怎么“离散”的?
一般来说,基于以下两点理由,离散建模一直被人说“不行”:
- 表征容量有限:离散Token就那么几个,怕装不下太多信息;
- 离散化损失:离散化过程会丢东西,比如一旦把连续信号切成块,细节就容易漏掉。
但美团LongCat就说了,这些还真不是关键。
真正决定上限的,是离散Token本身是否具备语义完备性(Semantic Completeness)。
换言之,问题不在“要不要离散”,而在离散后的Token本身到底够不够“有内容”——既懂大意,又抠细节。
所以现在问题就变成了:怎么构建合适的表征基础?
先说视觉。
对此,美团LongCat想了两招。
第一招:先把基础打好,让信息在被离散前尽可能丰富、准确。
他们拿出语义对齐编码器SAE(Semantic-and-Aligned Encoder),用来从图像中提炼高信息密度、多属性的特征。
不同于传统对比学习(如SigLIP那种“看文字和图片是否匹配”),SAE是通过大规模视觉-语言监督,像做阅读理解一样,把图像描述、视觉问答、视觉推理统统学一遍。
结果就是,它提取的特征既有“这是什么”的语义,又有“长什么样”的细节。
第二招:甩出自研视觉分词器dNaViT,把SAE提炼出来的特征,逐级量化成离散Token。
怎么个逐级量化?dNaViT这里采用的是8层残差向量量化(RVQ),通俗来讲就是“分层打包”。
既然细节很多,那就第一层打包轮廓、第二层打包颜色、第三层打包纹理……
每一层只负责上一层没包进去的“剩余信息”。
8层补下去之后,最后可以实现高达28倍的极致像素空间压缩。
光压缩还不算完,到了还原图像的时候,dNaViT还有一套双轨解码器来为还原质量“保驾护航”。
- 结构像素解码器:搭出低分辨率锚点图,保布局;
- 扩散像素细化器:注入高频纹理细节,让画面更完整清晰。
到这里,美团LongCat就完成了视觉离散的几个关键步骤——SAE“先看懂”、dNaViT再压缩和还原。
发现没,和语言模型的Tokenizer一样,dNaViT也把图像的理解和生成放在同一套Token序列里闭环流转了。
不过更关键的还在于,在LongCat-Next中:
视觉Token化这个过程完成的是图像到离散ID的映射,真正的特征是原生学习的。
意思是,视觉Token化这个过程只负责把图像转成ID编号,至于这个编号代表什么含义,是模型自己学出来的,不是别人硬塞给它的。
在美团LongCat看来,这种从“借用模态”到“内生模态”的转变,是原生多模态建模的核心。
还是举一个例子。
从dNaViT的架构图可以看到,虽然左边输入了三张尺寸完全不同的图像,但经过中间的离散和右下边的还原后,输出的尺寸和输入完全一致,细节也没丢。
这就是“原生分辨率”的含义——无需任何额外动作(缩放、裁剪、填充),dNaViT可以实现任意分辨率的图像编码与解码。
再说语音。
语音的离散思路和视觉基本一致——
先用OpenAI的Whisper编码器提取声音特征,然后用RVQ切成离散Token,最后用解码器还原声音。
唯一比较狠的一点是,在文本引导音频的统一建模下,LongCat-Next同时支持并行生成与串行生成两种策略,使得模型可以在生成速度与语音准确性之间灵活权衡。
- 想“快”(如实时语音对话):可以走并行生成,延迟更低;
- 想“准”(如后期配音):可以走串行生成,虽然过程慢一点,但文本对音频的指导作用更强。
至于什么情况选哪个,也都是模型自己来决定。
通过随机延迟对齐——训练时随机切换“一起出”和“先后出”,模型能自己学会平衡速度和准确度,实现又快又准。
至此,美团LongCat在LongCat-Next身上看到了:
离散表示并非信息的退化形式,而可以成为统一理解与生成的完备表达载体。
通过“离散”这种方式,文字、图像、语音可以变成“同一种Token”——原生多模态的底层统一,由此实现。
跑分和背后的发现
具体效果可以看LongCat-Next的跑分情况。
这个基于LongCat-Flash-Lite(MoE)训练的模型,没有像传统模型那样给不同任务设计不同的专家模块,而是采用“与模态无关”的MoE——由模型自行决定如何为各模态分配训练资源。
结果大家也都看到了,凭借这套离散原生框架,LongCat-Next在视觉理解、图像生成、音频、智能体等多个维度上,都展现出与多模专用模型相当甚至领先的性能。
老实说,虽然LongCat-Next的成绩不错,但我还是有点怀疑“离散”是否真能work。
于是立马让模型识别一下桌面上的小白盒(反光下比较模糊):
没想到LongCat-Next成功识别了耳机盒上的所有关键参数:
当然,如果细扒每一项成绩,你会发现背后还藏着这样几个关键点:
发现1:离散视觉没有天花板
前文也提到,行业长期认为离散模型在做细粒度文本识别时,天然就不如连续模型。
因为离散化本身就是一个信息压缩和丢失的过程,而细粒度文本识别恰恰对信息保真度要求极高。
但LongCat-Next这次用实力挑战了这一观点。
证据之一是,在OmniDocBench这个涵盖学术论文、财报、行政表格等各种复杂文档的多模态基准测试上,LongCat-Next的成绩不仅超越同类多模态模型,还超过了专门做视觉理解的模型。
更重要的是,美团LongCat通过对照实验发现,离散视觉的性能瓶颈并非来自“离散化本身”,而是来自数据规模。
在相同设置下对比离散模型(Discrete)和连续模型(Continuous)可以发现:
小数据下,离散模型确实弱于连续模型;但随着数据规模不断扩大,二者的性能差距会持续缩小。
继续扩大数据规模,离散模型甚至可以和连续模型性能接近一致(near-parity)。
照理说,如果离散化本身存在不可突破的性能上限,那么随着数据增加,这一差距理应在某个阶段停止收敛,但实验中并未观察到这一“收敛停滞”。
所以论文给出了一个判断——
离散建模并不存在内在性能天花板,其上限更多取决于数据规模与表征质量。
发现2:理解和生成可以协同
原理就不必多说了,咱直接亮成绩:
在考察长文本渲染能力的LongText-Bench上(侧重生成),LongCat-Next拿下93.15的高分。
与此同时,它还在考察数学推理能力的MathVista上(侧重理解),斩获83.1的领先成绩。
理解和生成齐高,这说明理解不仅没有损害生成,反而表现出协同潜力。
这也很好理解。以前它们分属两套系统,各有各的优化目标;现在却被拉到了一起,理解学到的东西直接服务生成,两者天然同向、越学越强。
发现3:经过原生多模态训练后,不会折损文本能力
以前多模态训练就像“端水”,要小心翼翼在各种模态的能力之间取得平衡。
但LongCat-Next就不一样了。
图像、音频能力配上后,文本能力也没被削弱——
在纯文本任务上,LongCat-Next在MMLU-Pro和C-Eval上分别斩获77.02和86.80的领先成绩。
而且工具调用、代码能力等个个不差。
还是那句话,当模型学会用同一种方式理解图像、声音和文字时,它对世界的理解无疑更上一层楼。
美团LongCat用实验初步证明:
当不同模态都用同一套离散Token体系后,模型不再需要为不同模态、不同任务分别设计机制,而是可以用一套可扩展的方式去建模整个世界。
在这个意义上,离散建模并非一种妥协,而是另一条可扩展路径。
这件事意味着什么?
不止于此。
把视角再往前推一步,你会发现一个有意思的“隔空呼应”:这项研究,几乎正对上了LeCun和谢赛宁等人的判断。
LeCun就不必多说了,谁都知道他一直批评“纯文本LLM无法实现AGI”;谢赛宁则在对谈张小珺时表示,语言本身是人类文明高度提炼的结构,相当于一种“捷径”或“拐杖”,过度依赖语言会限制AI对真实世界的学习。
而要突破语言模型的局限性,统一的多模态预训练,正是那条绕不开的路。
在近期公开的论文《Beyond Language Modeling: An Exploration of Multimodal Pretraining》中,LeCun等人决定不再把视觉当作辅助输入,而是推进统一的多模态预训练——
让视觉和语言一样,成为模型里的“first-class citizen”。
而美团LongCat这一步,正是把这条思路进一步推向工程化落地的体现——
在不推翻LLM、自回归这些成熟体系的前提下,他们直接把图像、语音、文字统统压进了Token序列,并且做到了工业级可用。
怎么个工业可用?答案是:开源。
没错,美团LongCat这次不仅公开了技术论文,而且还把LongCat-Next及其分词器开!源!了!
不过要想使用LongCat-Next,除了硬件上需要至少3张80GB显存的专业显卡(如英伟达A100/H100),软件配置要求如下:
到这一步,当一套方案不仅在论文里成立,而且已经以开源的形式跑通工程闭环时,它对业界的意义除了多了一个新框架外,更重要的其实还在于——验证了一条新路径。
细究之下,在通往“原生多模态”的这条路上:
有人在做融合,语言模型当底座,视觉、语音当外挂,一心想让不同模态更好协同;也有人更进一步做早期融合+MoE,不再依赖预训练编码器,从零开始联合训练,让模型内部自己长出视觉和听觉。
而美团LongCat更为直接——不走融合,不做对齐,直接把所有模态统统变成Token。
此时,模型面对的就不再是“多模态”,而是同一种可以被预测、被生成的序列。
某种程度上来说——
模态这个东西本身,也正在消失。
Paper: https://github.com/meituan-longcat/LongCat-Next/blob/main/tech_report.pdf
GitHub: https://github.com/meituan-longcat/LongCat-Next
HuggingFace: https://huggingface.co/meituan-longcat/LongCat-Next
blog: https://longcat.chat/longcat-next/intro
- 国产玩家亮剑世界模型!把全模态卷到顶后,天工AI不藏了2026-03-27
- 从Token到词元:全模态时代的基模与交互入口2026-03-27
- 刚刚,全球视频模型新王诞生了!2026-03-19
- Cursor自研模型反超Opus 4.6!价格脚踝斩,氛围编程沸腾了2026-03-20




