340B险胜70B，Kimi机器人贴脸“嘲讽”英伟达新开源模型

一水 2024-06-19 16:56:00 来源：量子位

允许免费生成合成数据

排名超过Llama-3-70B，英伟达Nemotron-4 340B问鼎竞技场最强开源模型！

前两天，英伟达突然开源了其通用大模型Nemotron的3400亿参数版本。

就在最近，竞技场更新了排名情况：

340B险胜70B，Kimi机器人贴脸“嘲讽”英伟达新开源模型

胜率热图显示，Nemotron-4 340B对阵Llama-3-70B的胜率为53%。

340B险胜70B，Kimi机器人贴脸“嘲讽”英伟达新开源模型

究竟Nemotron-4 340B表现如何？接下来一起看看。

新模型最新战绩

简单回顾一下，英伟达上周五突然宣布开源Nemotron-4 340B，该系列包括基础模型、指令模型和奖励模型，用于生成训练和改进LLM的合成数据。

Nemotron-4 340B一经发布便瞬时登顶Hugging Face RewardBench 榜一！

340B险胜70B，Kimi机器人贴脸“嘲讽”英伟达新开源模型

紧接着，竞技场新近公布了Nemotron-4 340B的一系列测评结果。

在长文本查询（长度>=500个token）中，Nemotron-4 340B排在第5位，超过Claude 3 Sonnet及Qwen 2-72B等主流开源模型。

340B险胜70B，Kimi机器人贴脸“嘲讽”英伟达新开源模型

在处理硬提示方面，Nemotron-4 340B超越了Claude 3 Sonnet和Llama3 70B-Instruct，显示出其在应对复杂和高难度查询时的卓越能力。

340B险胜70B，Kimi机器人贴脸“嘲讽”英伟达新开源模型

在整体性能评估中，Nemotron-4 340B的评分和稳定性均处于中上水平，超越了多款知名开源模型。

340B险胜70B，Kimi机器人贴脸“嘲讽”英伟达新开源模型

概括一下，Nemotron-4 340B已经取得了不错的战绩，直接超越了Mixtral 8x22B、Claude sonnet、Llama3 70B、Qwen 2，有时甚至可以和GPT-4一较高下。

其实，以前这个模型就曾登上大模型竞技场LMSys Chatbot Arena，当时它的别名是june-chatbot。

340B险胜70B，Kimi机器人贴脸“嘲讽”英伟达新开源模型

具体来说，这个模型支持4K上下文窗口、50多种自然语言和40多种编程语言，训练数据截止到2023年6月。

训练数据方面，英伟达采用了高达9万亿个token。其中，8万亿用于预训练，1万亿用于继续训练以提高质量。

在BF16精度下，模型的推理需要8块H200，或16块H100/A100 80GB。如果是在FP8精度下，则只需8块H100。

340B险胜70B，Kimi机器人贴脸“嘲讽”英伟达新开源模型

值得一提的是，指令模型的训练是在98%的合成数据上完成的。

而合成数据无疑是Nemotron-4 340B的最大亮点，它有可能彻底改变训练LLM的方式。

合成数据才是未来

面对最新排名，兴奋的网友们突然咂摸出一丝不对劲：

用340B对战70B，而且还是险胜，这事儿有点说不过去吧！

340B险胜70B，Kimi机器人贴脸“嘲讽”英伟达新开源模型

就连机器人Kimi也对此开启了“嘲讽”模式：

英伟达这波操作，参数大得像宇宙，性能却跟Llama-3-70B肩并肩，科技界的”大号小能”啊!

340B险胜70B，Kimi机器人贴脸“嘲讽”英伟达新开源模型

对此，在英伟达负责AI模型对齐和定制的Oleksii Kuchaiev拿出了关键法宝：

340B险胜70B，Kimi机器人贴脸“嘲讽”英伟达新开源模型

是的，Nemotron-4 340B商用友好，支持生成合成数据。

高级深度学习研究工程师Somshubra Majumdar对此表示大赞：

你可以用它（免费）生成你想要的所有数据

340B险胜70B，Kimi机器人贴脸“嘲讽”英伟达新开源模型

这一突破性进展，标志着AI行业的一个重要里程碑——

从此，各行各业都无需依赖大量昂贵的真实世界数据集了，用合成数据，就可以创建性能强大的特定领域LLM！

那么，英伟达具体是如何实现的呢？

一句话概括，这与它开源通常不发布的奖励模型有关。

340B险胜70B，Kimi机器人贴脸“嘲讽”英伟达新开源模型

生成高质量合成数据不仅需要优秀的指导模型，还需根据特定需求进行数据筛选。

通常，使用同一模型作为评分者（LLM-as-Judge）；但在特定情况下，采用专门的奖励模型（Reward-Model-as-Judge）进行评估更为合适。

而Nemotron-4 340B指令模型可以生成高质量的数据，然后奖励模型可以过滤掉多个属性的数据。

它会根据有用性、正确性、一致性、复杂性和冗长性这5个属性，对响应评分。

340B险胜70B，Kimi机器人贴脸“嘲讽”英伟达新开源模型

另外，研究者可以使用自己的专用数据，再结合HelpSteer2数据集，定制Nemotron-4 340B基础模型，以创建自己的指令或奖励模型。

回到一开头和Llama-3-70B的对战，Nemotron-4 340B拥有更宽松的许可，或许这才是它的真正价值所在。

毕竟数据短缺早已成为业内普遍痛点。

340B险胜70B，Kimi机器人贴脸“嘲讽”英伟达新开源模型

据Epoch研究所的AI研究员Pablo Villalobos预测，到2024年年中，对高质量数据的需求超过供给的可能性为50%，到2026年发生这种情况的可能性为90%。

新的预期显示，这种短缺风险将延迟至2028年。

合成数据才是未来正逐渐成为行业共识……

模型地址：
https://huggingface.co/nvidia/Nemotron-4-340B-Instruct

竞技场排名英伟达

一水

340B险胜70B，Kimi机器人贴脸“嘲讽”英伟达新开源模型

新模型最新战绩

合成数据才是未来

相关阅读

英伟达RTX 4070最新测评来了！光追效果更棒，但仅限于2k游戏

没有老黄不夸的中国公司了吧？？

首个国产全功能GPU的万卡集群来了！“中国英伟达”出品

谷歌TPU训练BERT只要23秒，华为AI芯片达国际领先水平，MLPerf v0.7出炉

黄仁勋子女成长路径曝光：一个学烘焙一个开酒吧，从基层做到英伟达高管

英伟达新卡皇3090Ti：功耗飙至450W换来性能涨11%

热门文章

Meta开年猛投算力，小扎亲征筹建数十GW

将登央视春晚，今年冲击IPO！江苏具身新贵魔法原子联创披露一堆新信息

微软发布医疗时序基座模型：4540亿数据预训练，解决不规则采样

李飞飞世界模型公司一年估值暴涨5倍！正洽谈新一轮5亿美元融资

“开源版贾维斯”一夜席卷硅谷！Mac mini因它卖爆