< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400">

老黄入局吃龙虾!英伟达发布最强开源Agent推理模型

260亿美元投向开源模型

克雷西 发自 凹非寺
量子位 | 公众号 QbitAI

英伟达正式杀进龙虾养殖场,带着“最强开源龙虾模型”走来了!

刚刚,英伟达发布并开源了120B参数的MoE模型Nemotron 3 Super。

在评估OpenClaw智能体控制能力的PinchBench测试中,这个模型一举拿下85.6%的高分,强势空降同类开源模型榜首。

图片

另外,在Artificial Intelligence Index中,Nemotron 3 Super也狂揽37分,直接甩开得分33分的GPT-OSS。

除了这个“龙虾搭档”,英伟达也开始在开源模型上全面发力了。

最新财务文件曝光,英伟达已经悄悄备好了260亿美元(约合1789亿人民币)巨资,将在未来五年内将这笔充足弹药全盘倾注于构建开源AI模型。

百万上下文,5倍吞吐量

作为主攻多智能体协同的模型,Nemotron 3 Super原生支持100万token的上下文窗口,为智能体在应对复杂多步流程时提供了不可或缺的长期记忆空间。

不仅文本处理容量庞大,它的运转效率也实现了大幅度跨越,吞吐量直接提升至上一代Nemotron Super的5倍以上。

同时,在处理代码和工具调用等结构化生成任务时,Nemotron 3 Super最高能实现3倍的实际推理提速。

在8k输入与64k输出的特定运行设置下,它的推理吞吐量达到了GPT-OSS-120B的2.2倍。

图片

落地到具体的实操基准测试,这台新模型在代码攻坚上给出了直观的数据对比。

在软件工程基准SWE-Bench中,它搭配OpenHands框架跑出了60.47%的准确率,而对标的GPT-OSS成绩为41.9%。

面对考验底层控制能力的终端操作环境,模型的发挥依然扎实,在Terminal Bench的困难子集测试里,它以25.78%的得分,略微超过了GPT-OSS的24.00%。

当然,模型的常识推理水准也经受住了考验。在MMLU-Pro测试中它拿下了83.73分,相比GPT-OSS的81.00分实现了进一步提升。

在模拟真实世界运作的复杂业务场景里,它的落地能力同样得到了验证,在包含航空以及零售和电信三大领域的TauBench V2测试中,它交出了61.15%的平均成绩。

图片

面向Blackwell架构优化

Nemotron 3 Super能够在实测中表现出色,主要归功于其对模型架构的针对性优化。

为了在处理百万级上下文时兼顾效率与精度,该模型采用了混合Mamba-Transformer架构。

这种设计交织使用了具备线性时间复杂度的Mamba-2层来处理长序列任务,并在关键深度插入了Transformer全局注意力层,以确保模型在处理海量信息时仍能实现精准的关联检索。

图片

在模型规模的扩展上,为了解决传统混合专家架构在通信和计算上的瓶颈,模型引入了Latent MoE架构。

这项技术在进行路由决策前,先将token投影到一个压缩的低秩潜空间中进行降维处理。

这种方式使得模型能够在维持同等推理成本的前提下,直接调用四倍数量的专家网络,从而实现了更精细的专业化分工。

图片

为了进一步提升生成速度,模型还原生应用了多token预测技术。

与逐个预测token的传统模式不同,Nemotron 3 Super通过共享权重设计,在单次前向传递中即可并行预测未来的多个token。

这种机制不仅强化了模型对长程逻辑结构的理解,还为其带来了内置的投机解码能力,显著缩短了代码编写和工具调用等复杂任务的生成耗时。

英伟达应用深度学习研究副总裁Bryan Catanzaro介绍,这正是模型响应速度快的原因之一。

图片

此外,模型还在硬件层面进行了深度适配,采用了原生NVFP4格式进行预训练。

相比先训练再量化的常规路径,这种在25万亿个token上进行的低精度预训练,让模型从起步阶段就完全适应了Blackwell架构的算力特性。

最终,模型在B200芯片上跑出了比H100快四倍的推理速度,在极大降低内存需求的同时,依然维持了稳健的准确率表现。

Agent能力针对性训练

为了让Nemotron 3 Super真正具备执行任务的智能体能力,英伟达在后训练阶段通过多层级的加固策略对其进行了全方位打磨。

在SFT阶段,研发团队采用了两阶段训练工艺,第一阶段通过标记级平均损失建立推理基础,第二阶段切换为样本级平均损失,有效解决了长输入场景下的性能降级问题,确保模型在处理海量信息时依然能给出精准的短输出。

图片

针对实际应用中的智能体命令行交互,英伟达构建了一个包含2万个初始查询的种子任务集,并利用模型作为裁判进行了精细过滤,最终沉淀出1.5万个核心合成任务。

通过从高性能模型中蒸馏操作轨迹,Nemotron 3 Super成功将复杂的终端交互知识内化为自身的原生技能。

图片

进入强化学习阶段后,模型被投入到NeMo Gym平台的21种真实环境配置中进行高强度“拉练”。

这里的考核标准不再是简单的对话满意度,深入到了工具调用的准确性、功能代码的可执行性以及复杂计划的完整性等核心维度。

针对门槛极高的软件工程任务,模型还经历了专门的SWE-RL阶段,在隔离的容器环境中通过不断的执行反馈来修正自身的逻辑漏洞。

此外,为了在追求效率的同时避免模型在陌生领域出现偏差,英伟达还引入了PivotRL技术。

这种方法在智能体编程和搜索等关键领域,通过重点强化专家轨迹中那些不确定性较高的决策点,提升了模型在多步工作流中的行为稳定性,有效遏制了长程任务中常见的推理漂移风险。

260亿美元投向开源模型

最新开源模型强势登场之际,英伟达更远大的开源计划也已曝光:在未来五年内全盘倾注260亿美元巨资用于构建开源AI模型,并借此在自家的超级计算机级数据中心里搞一场极限拉练。

这笔投入不仅是为模型研发准备的充足弹药,更是为了通过跑起这些自家优化的开源模型,对计算、存储和网络性能进行全方位的压力测试。

随后,这些从实战中压榨出的宝贵数据,将被直接拿来反哺并规划未来的硬件架构路线图,真正实现由软件实操来定义硬件进化的技术路径。

在资源输出端,英伟达这次也表现得毫无保留,对外全面开放了模型的全参数权重,以及训练、评估配方和详细的部署手册。

这种慷慨的行为背后,也有着英伟达更高维度的谋划——通过亲手推动整个开源生态的强健发育,引导全球开发者将创新的根基更加牢固地绑定在自家的技术底座之中。

GitHub:
https://github.com/NVIDIA-NeMo/Nemotron/tree/main/usage-cookbook/Nemotron-3-Super
技术报告:
https://research.nvidia.com/labs/nemotron/files/NVIDIA-Nemotron-3-Super-Technical-Report.pdf
参考链接:
[1]https://developer.nvidia.com/blog/introducing-nemotron-3-super-an-open-hybrid-mamba-transformer-moe-for-agentic-reasoning/
[2]https://www.wired.com/story/nvidia-investing-26-billion-open-source-models/

版权所有,未经授权不得以任何形式转载及使用,违者必究。