Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复
选择题喜欢选D
梦晨 发自 凹非寺
量子位 | 公众号 QbitAI
谷歌Gemini实力到底如何?卡耐基梅隆大学来了场专业客观第三方比较。
为保证公平,所有模型使用相同的提示和生成参数,并且提供可重复的代码和完全透明的结果。
![Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复](/wp-content/uploads/replace/27d4af59160bf4b83c9c205294344970.png)
不会像谷歌官方发布会那样,用CoT@32对比5-shot了。
一句话结果:Gemini Pro版本接近但略逊于GPT-3.5 Turbo,GPT-4还是遥遥领先。
![Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复](/wp-content/uploads/replace/36c41959777a25097f95a0599042f858.png)
在深入分析中还发现Gemini一些奇怪特性,比如选择题喜欢选D……
![Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复](/wp-content/uploads/replace/fe1960e605b6150d33d5dab65c05b18b.jpeg)
不少研究者表示,太卷了,Gemini刚发布没几天就搞出这么详细的测试。
![Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复](/wp-content/uploads/replace/2078d38a551e1117b9a9ecefc5737178.png)
六大任务深入测试
这项测试具体比较了6大任务,分别选用相应的数据集:
- 知识问答:MMLU
- 推理:BIG-Bench Hard
- 数学:GSM8k、SVAMP、ASDIV、MAWPS
- 代码:HumanEval、ODEX
- 翻译:FLORES
- 上网冲浪:WebArena
知识问答:
喜欢选D
从结果可以看出,使用思维链提示在这类任务上不一定能带来提升。
![Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复](/wp-content/uploads/replace/c667e408373d8e6c3dc64e18fbc70607.png)
MMLU数据集里都是多选题,对结果进一步分析还发现奇怪现象:Gemini更喜欢选D。
GPT系列在4个选项上的分布就要平衡很多,团队提出这可能是Gemini没针对多选题做大量指令微调造成的。
![Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复](/wp-content/uploads/replace/dc632f810d3ea6dfe32d29374c87c317.png)
另外Gemini的安全过滤比较严重,涉及道德问题只回答了85%,到了人类性行为相关问题只回答了28%。
![Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复](/wp-content/uploads/replace/fcd1c731aedec3c0d83b3d91fd3fd5c5.png)
Gemini Pro表现超过GPT-3.5的两个科目是安全研究和高中微观经济学,但差距也不大,团队表示分析不出来什么特别的。
![Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复](/wp-content/uploads/replace/bef289a25d2639b3b167376b96c88ad8.png)
推理:长问题不擅长
![Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复](/wp-content/uploads/replace/412ab77fb79f291d64fbc530be028330.png)
Gemini Pro在更长、更复杂的问题上表现不佳,而GPT系列对此更稳健。
GPT-4 Turbo尤其如此,即使在较长的问题上也几乎没有性能下降,表明它具有理解复杂问题的强大能力。
![Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复](/wp-content/uploads/replace/920da5760c0ee6c84cd639d684853948.png)
如果按问题类型来分析,Gemini特别不擅长“tracking_shuffled_objects”这类问题,也就人们交换物品,最后让AI判断谁拥有哪些物品。
![Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复](/wp-content/uploads/replace/d23c98a6067145b6d15f882ca9d8cb30.png)
Gemini比较擅长的任务是,需要世界知识的体育运动理解、操作符号堆栈、按字母顺序排序单词,解析表格。
![Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复](/wp-content/uploads/replace/7f6a48d5042f0f0f3a8514d24d43dbf8.png)
数学:复杂任务反超
![Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复](/wp-content/uploads/replace/be95edb0a7ec35f0188340b91bad248f.png)
这一次问题本身太长Gemini Pro和GPT-3.5表现就一起下降,只有GPT-4还能保持一贯水准。
![Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复](/wp-content/uploads/replace/d77f7a69f7175280c348f96a5cbb4b39.png)
但使用的思维链提示长度最长时,Gemini反超GPT-3.5。
![Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复](/wp-content/uploads/replace/dd26fee9b295de9013fc1b1a149ea8d0.png)
代码:擅长matplotlib
对于代码问题,Gemini在参考答案长的问题上表现很差。
![Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复](/wp-content/uploads/replace/859f5c83b4932e6bef7be4b8c51a2083.png)
按调用的库来分类,GPT系列在大多数类型更强,但matplotlib就完全不行。
![Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复](/wp-content/uploads/replace/b0139d6811f7365dd2d7dda43b93d34b.png)
翻译:只要回答了,质量就很高
翻译任务上,有12种类型Gemini拒绝回答,但是只要回答了的翻译质量都很高,整体表现超过GPT-4。
![Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复](/wp-content/uploads/replace/de75b84561274474b1ff965215f002bc.png)
Gemini拒绝翻译的类型主要涉及拉丁语、阿拉伯语。
![Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复](/wp-content/uploads/replace/4d24ca582224b475e5440c4db69daca9.png)
网络导航:擅长跨站点冲浪
WebArena给AI模拟了一个互联网环境,包括电子商务、社交论坛、GitLab协作开发、内容管理系统和在线地图等,需要AI查找信息或跨站点完成任务。
Gemini在整体表现不如GPT-3.5 Turbo,但在跨多个站点的任务中表现稍好。
![Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复](/wp-content/uploads/replace/f2487271ae8a23498eaa3a33aa182f68.jpeg)
网友:但是它免费啊
最后,CMU副教授Graham Neubig承认了这项研究的一些局限性。
- 基于API的模型行为可能随时变化
- 只尝试了有限数量的提示,对不同模型来说适用的提示词可能不一样
- 无法控制测试集是否泄露
![Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复](/wp-content/uploads/replace/bda7e5aa065d1cd9fe0ad68adca442cf.png)
谷歌大模型推理团队负责人周登勇指出,对于推理任务把Gemini的温度设置为0可以提高5-10个百分点。
![Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复](/wp-content/uploads/replace/7a860adae075294fbd7b62c2929a3eda.png)
这项测试中除了Gemini与GPT系列,还搭上了最近很受关注的开源MoE模型Mixtral。
不过强化学习专家Noam Brown认为可以忽略其中Mixtral的结果,因为用的是第三方API而非官方实现。
![Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复](/wp-content/uploads/replace/e0fd6ec3b2e8fd821eb22ed47351b60c.png)
![Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复](/wp-content/uploads/replace/462b668556daa8ca1d86e31bff9cdc97.png)
Mistral AI创始人也来给团队提供了官方版调用权限,认为能得到一个更好的结果。
![Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复](/wp-content/uploads/replace/55eecb1272b1982de430049cba4814dd.png)
总得来,虽然Gemini Pro还是不如GPT-3.5,但是它胜在每分钟调用不超过60次就免费。
所以还是有不少个人开发者已经转换了阵营。
![Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复](/wp-content/uploads/replace/d4c8dd663e19b12858cffb282530cf47.png)
目前Gemini最高版本Ultra版尚未发布,到时CMU团队也有意继续这项研究。
你觉得Gemini Ultra能达到GPT-4水平么?
论文:
https://arxiv.org/abs/2312.11444
参考链接:
[1]https://twitter.com/gneubig/status/1737108977954251216
- Llama 3.1上线就被攻破:大骂小扎,危险配方张口就来!指令遵循能力强了更容易越狱2024-07-24
- 陶哲轩在IMO上给AI团队颁奖!他们要做AI数学的ImageNet2024-07-21
- 国内开店卷不动,换上AI出海试试2024-07-17
- OpenAI突发新模型,GPT-3.5退役,大模型成本2年骤降99%2024-07-19