< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400">

全都不及格！斯坦福100页论文给大模型透明度排名，GPT-4仅排第三

十三 2023-10-19 13:18:14 来源：量子位

开源模型成绩领先

金磊发自凹非寺

量子位 | 公众号 QbitAI

试问百模大战的当下，谁家大模型的透明度最高？

（例如模型是如何构建的、如何工作、用户如何使用它们的相关信息。）

现在，这个问题终于有解了。

因为斯坦福大学HAI等研究机构最新共同发布了一项研究——

专门设计了一个名为基础模型透明度指标（The Foundation Model Transparency Index）的评分系统。

它从100个维度对国外10家主流的大模型做了排名，并在透明度这一层面上做了全面的评估。

结果可谓是大跌眼镜！

若是以60分作为及格线，那么“参赛”的大模型们可以说是全军覆没，没有一个及格的……

来感受下这个feel：

排名第一的Llama 2，分数仅为54；紧随其后的便是BLOOMZ，得分53。

而GPT-4分数仅仅为48，排名第三；来自亚马逊的Titan Text成绩垫底，仅取得12分。

不仅如此，在斯坦福HAI官方的博客中，负责人Rishi Bommasani直言不讳地把OpenAI单拎出来说道：

基础模型领域的公司变得越来越不透明。

例如名字带“open”的OpenAI曾明确表示，与GPT-4相关的大多数信息将不会公开。

总而言之，团队认为大模型发展到现阶段，它们的透明度是一个非常重要的关键点，直接与是否可信挂钩。

而且更深层次的，他们认为这也从侧面反映了人工智能行业从根本上缺乏透明度。

100多页论文研究模型透明度

那么这个排名到底是怎么来的？

在成绩公布的同时，团队也把一篇厚达100多页的论文晒了出来。

正如我们刚才提到的，这次排名一共涉及到了100个指标维度。

若是“归拢归拢”着来看，可以将这些指标大致分为三大类，分别是：

上游（Upstream）：指构建基础模型所涉及的成分和过程，例如计算资源、数据等；
模型（Model）：指基础模型的属性和功能，例如体系结构、能力和风险等；
下游（Downstream）：基础模型是如何分布和使用的，例如对用户的影响、更新内容、控制策略等。

将10大模型此次的成绩，按照上面的三大维度来看，得分细节如下：

从结果上来看，“上游”类指标的得分差异较为明显；例如BLOOMZ的“上游”类指标在整体得分中的占比较高。

而像Jurassic-2、Inflection-1和Titan Text，这三个模型的“上游”类指标得分直接为0。

如果将“上游”、“模型”和“下游”视为三个“顶级域”，那么团队在它们基础之上，还分了更精细、更深入的13个“子域”：

数据（Data）、劳动力（Labor）、计算（Compute）；
方法（Methods）、模型基础（Model Basicis）、模型访问（Model Access）、功能（Capabilities）；
风险（Risks）、缓解措施（Mitigations）、分布（Distributions）、使用策略（Usage Policy）、反馈（Feedback）、影响（Impact）。

13个“子域”划分下的细节得分情况如下：

至于完整的100个指标维度，可以参考下面这张图表：

当然，对于大模型领域最具热度话题之一的“开源闭源之争”，也在此次的研究中有所涉足。

团队将广泛可下载的模型标记为开源模型，“参赛选手”中有三位属于此列，分别是Llama 2、BLOOMZ和Stable Diffusion 2。

从排名结果中显而易见地可以看出，开源模型的得分普遍遥遥领先，唯有GPT-4的得分比Stable Diffusion 2高出了1分。

对此，研究人员也做出了解释：

这种差异很大程度上是由于闭源模型的开发人员在“上游”问题上缺乏透明度造成的，比如用于构建模型的数据、劳动力和计算。

此次模型透明度排名的更多细节内容，可参考文末的论文。

透明度为什么重要？

针对这个问题，斯坦福HAI在官方博客中也做出了相应说明。

例如在负责人Rishi Bommasani看来：

缺乏透明度，长期以来一直是数字技术消费者面临的一个问题。

在当下的互联网中充斥着诸多这样的问题，例如欺骗性的广告和定价、欺骗用户在不知情的情况下进行网购等等。

MIT博士Shayne Longpre认为，随着大模型越发的火热并且在各行各业中迅速落地，科学家们有必要了解它们是如何设计的，尤其是“上游”的那些指标。

对于产业界来说，亦是如此，决策者们在面对“用哪个大模型、怎么用”等问题时，都需要建立在模型透明度的基础之上。

那么你对于这次大模型的透明度排名有怎样的看法呢？欢迎在评论区留言交流~

论文地址：
https://crfm.stanford.edu/fmti/fmti.pdf

参考链接：
[1]https://hai.stanford.edu/news/introducing-foundation-model-transparency-index
[2]https://github.com/stanford-crfm/fmti
[3]https://www.theverge.com/2023/10/18/23922973/stanford-ai-foundation-model-transparency-index

大模型大语言模型斯坦福透明度

十三

豆包搜索，走出了豆包2026-07-28
北京说Agent已经能造世界，杭州却说它是刚发明的电灯泡2026-07-25
妙啊！无人机直连卫星传Token2026-07-18
1.5B开源通用VLA模型，冲进具身智能第一梯队2026-07-20

全都不及格！斯坦福100页论文给大模型透明度排名，GPT-4仅排第三

100多页论文研究模型透明度

透明度为什么重要？

相关阅读

比LoRA更高效！上交大&哈佛推出新微调框架，瞄准特定任务方向

用AI评估AI，上交大新款大模型部分任务超越GPT-4，模型数据都开源

王慧文再融16亿！大模型创业百天成独角兽，腾讯押注，快手创始人入股

给ChatGPT小费真的好使！10块或10万效果拔群，但给1毛不升反降

大模型们参加2023高考了，成绩单已出炉

GPT-4不服被Bard反超：最新模型已入场

热门文章

美国具身也没成熟！PI：中国公司何必总当“中国版XX”｜RSS 2026

半价干翻Fable 5？Opus 5实测炸场，网友：差点从椅子上摔下来

北京说Agent已经能造世界，杭州却说它是刚发明的电灯泡

具身智能的「ChatGPT时刻」还没到，科沃斯先把机器人拆开了

3万小时触觉数据补齐具身智能“手感”！新智具身&复旦报告三连发