数学能力超过ChatGPT!上海交大计算大模型登开源榜首
无需工具,无需RLHF
克雷西 发自 凹非寺
量子位 | 公众号 QbitAI
国产数学大模型,能力已经超过了ChatGPT!
最新榜单中,上海交大GAIR实验室出品的Abel专有大模型:
准确率高达83.6%,在开源模型中位列第一。
![数学能力超过ChatGPT!上海交大计算大模型登开源榜首](/wp-content/uploads/replace/0840b7ea15558618ccf1fc3cd5784cc2.png)
据团队介绍,该模型是用挪威数学家尼尔斯·阿贝尔(Niels Abel)的名字命名的,以此向阿贝尔在代数和分析方面的开创性工作致敬。
![数学能力超过ChatGPT!上海交大计算大模型登开源榜首](/wp-content/uploads/replace/f67852109ae5514f501381093f643287.jpeg)
在GSM8k数据集上,70B参数量的Abel碾压所有开源模型,还超过了ChatGPT。
甚至在新数据集TALSCQ-EN上,Abel的表现比GPT-4还要强。
![数学能力超过ChatGPT!上海交大计算大模型登开源榜首](/wp-content/uploads/replace/aef6fe48eed04ac2fe7a720cb4ff208b.png)
而实现这样效果的Abel,成分可以说是十分“单纯”:
- 没有使用工具
- 没有使用数学领域的大规模预训练数据
- 没有使用奖励模型
- 没有使用RLHF
- 仅使用有监督精调(Supervised Fine-tuning,SFT)
那么Abel的效果究竟怎么样呢?
成绩超越开源模型SOTA
这里我们选择同样是开源的Llama-2来和Abel对比。
首先来看下这个鸡兔同笼问题的变体:
Brown由牛和鸡一共60只,鸡的数量是牛的两倍,一共有多少条腿?
![数学能力超过ChatGPT!上海交大计算大模型登开源榜首](/wp-content/uploads/replace/1e7bda9d53c08db1048b78e74b31e315.png)
这道题Llama-2出师不利,而且不是计算错误,是逻辑上就有问题:
![数学能力超过ChatGPT!上海交大计算大模型登开源榜首](/wp-content/uploads/replace/5e2e75e9cba2123e4c690febd9924fe8.png)
Abel则成功地解决了这个问题。
![数学能力超过ChatGPT!上海交大计算大模型登开源榜首](/wp-content/uploads/replace/16f111f05c38dae7f36024dae9a5f635.png)
再来看下一个问题:
12,21,6,11和30的中位数与平均数的和是多少?
![数学能力超过ChatGPT!上海交大计算大模型登开源榜首](/wp-content/uploads/replace/418386c1ae65d311de2fee8bfcfdc5f9.png)
两个模型都正确理解了所涉及的概念,但Llama还是在计算和排序上出了错。
![数学能力超过ChatGPT!上海交大计算大模型登开源榜首](/wp-content/uploads/replace/5917e2aec549ec79e02e22f7e2844b06.png)
而Abel依旧是正确地做出了这道题:
![数学能力超过ChatGPT!上海交大计算大模型登开源榜首](/wp-content/uploads/replace/150f32d697ee6c8b76bb8533885fd48b.png)
再从测试数据上看看Abel的表现。
首先是OpenAI提出的GSM8k数据集(大概是美国高中难度),这份榜单的前十名,Abel占了三个(不同参数规模)。
开源模型当中,70B规模的Abel打败了曾经的SOTA——WizardMath。
如果把商业闭源模型算进来,Abel也仅次于GPT-4、Claude-2和PaLM-2-Flan这些最著名的模型。
甚至ChatGPT也不是Abel的对手。
![数学能力超过ChatGPT!上海交大计算大模型登开源榜首](/wp-content/uploads/replace/d128f8d949b183aa1478ae6eba900a24.png)
△地球代表开源模型,锁代表闭源模型
在难度更高的MATH(竞赛题目)数据集中,开源模型的前三名被三个规模的Abel包揽,加上闭源也仅次于Google和OpenAI的产品。
![数学能力超过ChatGPT!上海交大计算大模型登开源榜首](/wp-content/uploads/replace/43409d1ab7d04ae8906e031162de3c00.png)
研究团队还使用了新数据集TALSCQ-EN对Abel进行测试,结果超过了GPT-4。
那么,研究团队是怎么调教出这样一款高性能模型的呢?
“保姆级”微调训练策略
核心奥义就是高质量的训练数据。
Abel使用数据是经过精心策划的,不仅包含问题的答案,还要能告诉模型找到正确答案是的方法。
为此,研究团队提出了一种叫做家长监督(Parental Oversight)的“保姆级”微调训练策略。
在家长监督的原则之下,团队仅通过SFT方式就完成了Abel的训练。
为了评价Abel的鲁棒性,研究团队还用GPT4对GSM8k中的数字进行了修改,测试Abel是否依然能解出正确的答案。
结果显示,在调整版GSM8k数据集下,70B参数的Abel鲁棒性超过了同等规模的WizardMath。
![数学能力超过ChatGPT!上海交大计算大模型登开源榜首](/wp-content/uploads/replace/56f907e934ed2527f2241f69e616a6de.png)
在Abel的介绍的最后,研究团队还留下了一个彩蛋:
Abel的下一代,将进化成为Bernoulli(伯努利)
![数学能力超过ChatGPT!上海交大计算大模型登开源榜首](/wp-content/uploads/replace/cc262aaa2351e6f9cd11cd107775d9c6.jpeg)
不过团队并没有对其中的含义进行说明,我们不妨期待一番。
团队简介
Abel由上海交通大学GAIR(生成式人工智能研究组)团队打造。
该团队还曾推出过大模型高考Benchmark、AIGC事实核查工具Factool等成果。
该小组负责人、清源研究院刘鹏飞副教授同时也是Abel项目的负责人。
对这个数学模型感兴趣的读者,可以到GitHub页面详细了解。
GitHub页面:
https://github.com/GAIR-NLP/abel
- 几何朗兰兹猜想被解决!历时30年、证明论文达800余页,中国学者陈麟系主要作者2024-07-23
- 开源大模型杀疯了!Mistral新模型三分之一参数卷爆Llama 3.1,“新趋势已显而易见”2024-07-25
- GPT-4o mini登顶大模型竞技场,奥特曼:两个月内微调免费2024-07-24
- 英特尔CPU疯狂崩溃,测评大佬揭露工艺缺陷,官方回应:修复补丁下月上线2024-07-23