最好的7B模型易主,免费开源可商用,来自“欧洲的OpenAI”
羊驼都不香了
梦晨 发自 凹非寺
量子位 | 公众号 QbitAI
一个神秘磁力链接,成了开源大模型社区的新宠。
里面是来自法国的开源大模型Mistral-7B,大家试用下来,觉得Llama 2都不香了。
![最好的7B模型易主,免费开源可商用,来自“欧洲的OpenAI”](/wp-content/uploads/replace/801f184a7c452a0116582b907e03fd43.png)
有开发者建议,代码之外的数据微调,34B以下规模先试试它就对了。
![最好的7B模型易主,免费开源可商用,来自“欧洲的OpenAI”](/wp-content/uploads/replace/fd48cd839a8e34dc68777bf3af638904.png)
也有公司开始把它用在简历自动解析和评估业务上。
![最好的7B模型易主,免费开源可商用,来自“欧洲的OpenAI”](/wp-content/uploads/replace/48942ba62b9e493ec20970b242586cff.png)
想基于Mistral创业的更是大有人在。
![最好的7B模型易主,免费开源可商用,来自“欧洲的OpenAI”](/wp-content/uploads/replace/a40212b0612990be90c9afd76369b6b4.png)
发布不到2周,配套生态也迅速发展起来,如何在单卡上微调的教程有了。
![最好的7B模型易主,免费开源可商用,来自“欧洲的OpenAI”](/wp-content/uploads/replace/28c80cd07e65cfb454898efd0aa543eb.png)
各种基础设施和工具链也添加了对Mistral-7B的支持。
![最好的7B模型易主,免费开源可商用,来自“欧洲的OpenAI”](/wp-content/uploads/replace/99c940bffedd49b4d2f2d5dcff5528bd.png)
专用于代码补全的微调版本也有人搞出来了。
![最好的7B模型易主,免费开源可商用,来自“欧洲的OpenAI”](/wp-content/uploads/replace/dfa67dc06b11ec4cfcedfb90b91ffa41.png)
甚至有人基于它微调了一个神秘学玄学大模型,也很受欢迎。
![最好的7B模型易主,免费开源可商用,来自“欧洲的OpenAI”](/wp-content/uploads/replace/f1213beacae5ed87fc8b015a477966c8.png)
与Meta刚刚发布Llama的时候,迅速出现各种其他驼和神兽,发展成大模型动物园的场景太像了。
Mistral这个单词在法语里代表冬季的一种强风。
羊驼们,准备好过冬了吗?
Mistral为什么火了?
先上总结,综合官方公告和社区反馈,主要有5个方面:
性能更强,硬件需求更少,有2023年的知识,安全对齐没那么离谱,开源协议更宽松,
目前最好的7B模型
根据官方发布公告,Mistral 7B在所有尝试过的评测基准中超过Llama 2 13B。
并在代码、数学和推理评测中超过Llama 1 34B。
![最好的7B模型易主,免费开源可商用,来自“欧洲的OpenAI”](/wp-content/uploads/replace/9daa06457c46867750f3b87a2ec1bb6d.png)
另外代码任务上的表现接近专门的CodeLlama 7B,同时保留了自然语言能力。
上下文窗口也达到了8k。
更详细的测评数据如下。
![最好的7B模型易主,免费开源可商用,来自“欧洲的OpenAI”](/wp-content/uploads/replace/7b7846d13c1c5ddd6e8b51ddff0d6d98.png)
笔记本轻松跑
以小胜大,意味着取得相似的效果硬件需求更少。
官方也特别说明用了各种优化手段,FlashAttention,Grouped-Query Attention,Sliding Window Attention一起上。
现在已经看到很多开发者晒自己在苹果笔记本跑起来的经验。
![最好的7B模型易主,免费开源可商用,来自“欧洲的OpenAI”](/wp-content/uploads/replace/f1e6a718b4698a466bca1ef1100b7d8b.png)
量化后只需要6G显存。
![最好的7B模型易主,免费开源可商用,来自“欧洲的OpenAI”](/wp-content/uploads/replace/fd25610eba8fb8440056aecfda372336.png)
训练数据更新
官方没有具体说明训练数据截止日期。
但经网友测试,2023年3月OpenAI发布GPT-4的事它也知道。
![最好的7B模型易主,免费开源可商用,来自“欧洲的OpenAI”](/wp-content/uploads/replace/282e2746d6fb9494e9ef7e83d6c21cdb.png)
相比之下Llama 2的预训练数据截止到2022年9月,只有部分微调数据最多到2023年6月。
实用性更强
Llama 2的安全对齐措施非常充分严格,甚至损失了一部分实用性。
比如拒绝回答如何“杀死”一个Linux线程,只能说过于礼貌也是一种不礼貌了。
![最好的7B模型易主,免费开源可商用,来自“欧洲的OpenAI”](/wp-content/uploads/replace/a5c2c93c328604a2aab8f4bc9df1a5b1.png)
还有创业者根据自己经历总结了3点是Mistral-7B能做但Llama 2做不好的。
他做的是检索复杂SQL语句,对比测试发现Llama 2 13B有几个缺点:
- 即使提供少样本示例,也会在结构化输出中插入评论
- 会在时间字段上出错
- 在数据结构定义DDL中如果有多个表,总是漏掉至少一个表
而Mistral-7B具体效果还在测试中,至少这些问题都不存在。
![最好的7B模型易主,免费开源可商用,来自“欧洲的OpenAI”](/wp-content/uploads/replace/1ddbcfb19114c6ca9135685d49ac097e.png)
另外Mistral-7B还非常适合用来微调,官方也出了经过指令微调的聊天版本作为补充。
![最好的7B模型易主,免费开源可商用,来自“欧洲的OpenAI”](/wp-content/uploads/replace/7b4362257a0f3a9ae27a72cdb2375ae8.png)
开源协议更宽松
Mistral基于非常宽松的Apache2.0协议开源,免费,允许商业使用、修改和分发。
相比之下Meta为Llama 2准备的协议,甚至被开源界批评为严格来讲不算真正的开源。
![最好的7B模型易主,免费开源可商用,来自“欧洲的OpenAI”](/wp-content/uploads/replace/00bc5c9527a2741a18a3ba7e0c20654c.png)
比如有附加商业条款,月活超过7亿的产品或服务需要单独申请许可,这条主要针对大公司。
针对个人和小公司的也有不能使用Llama生成的结果来改进其他模型等。
欧洲的OpenAI
Mistral AI成立于今年5月,总部法国巴黎,3位创始人是DeepMind和Meta前员工,
外界将这家公司看成是欧洲的OpenAI。
当初刚成立4周还没有产品时,就靠6个员工7页PPT拿到超过1亿美元融资,当时还引起一番争议,被当成是AI泡沫的代表。
Mistral AI最初计划在2024年发布首个大模型,没想到刚到9月底就已拿出成果,团队也扩大了不少。
![最好的7B模型易主,免费开源可商用,来自“欧洲的OpenAI”](/wp-content/uploads/replace/99fb11bf9af541fcef5a72a8756b8d87.png)
三位联合创始人中,CEO Arthur Mensch此前在DeepMind巴黎工作。
CTO Timothée Lacroix和首席科学家Guillaume Lample则在Meta共同参与过Llama系列的研发,Lample是通讯作者之一。
![最好的7B模型易主,免费开源可商用,来自“欧洲的OpenAI”](/wp-content/uploads/replace/43f45f085d9b1216a9c92636b949aa34.png)
事实上Llama初始团队中已有过半离职,其中Marie-Anne Lachaux后来也加入了Mistral AI。
有点子当年OpenAI部分员工出走成立Anthropic的意思了,历史总是惊人的相似。
Mistral AI接下来也会继续推出规模更大的模型,增强推理能力以及多语言能力。
![最好的7B模型易主,免费开源可商用,来自“欧洲的OpenAI”](/wp-content/uploads/replace/d94a01492b3a87d15c74d34029181774.png)
如果你对Mistral-7B感兴趣,可以在Perplexity或HuggingChat试玩。
labs.perplexity.ai
https://huggingface.co/chat
还有一个与Llama 2同台竞技的小游戏可玩。
https://llmboxing.com
![最好的7B模型易主,免费开源可商用,来自“欧洲的OpenAI”](/wp-content/uploads/replace/ac2928f3644bade014fcc25ab5791e25.png)
下载模型也可以去Hugging Face。
https://huggingface.co/mistralai
参考链接:
[1]https://mistral.ai/news/announcing-mistral-7b
[2]https://predibase.com/blog/fine-tuning-mistral-7b-on-a-single-gpu-with-ludwig
[3]https://x.com/hrishioa/status/1710702855491879027
[4]https://twitter.com/Teknium1/status/1710505270043189523
- Llama 3.1上线就被攻破:大骂小扎,危险配方张口就来!指令遵循能力强了更容易越狱2024-07-24
- 陶哲轩在IMO上给AI团队颁奖!他们要做AI数学的ImageNet2024-07-21
- 国内开店卷不动,换上AI出海试试2024-07-17
- OpenAI突发新模型,GPT-3.5退役,大模型成本2年骤降99%2024-07-19