媲美GPT-4的开源模型泄露!Mistral老板刚刚证实:正式版本会更强
“早期客户的员工过于热情”
白交 发自 凹非寺
量子位 | 公众号 QbitAI
Mistral-Medium竟然意外泄露?此前仅能通过API获得,性能直逼GPT-4。
CEO最新发声:确有其事,系早期客户员工泄露。但仍表示敬请期待。
![媲美GPT-4的开源模型泄露!Mistral老板刚刚证实:正式版本会更强](/wp-content/uploads/replace/848d5e40d3546a0e7a35f4ec771e475c.png)
换句话说,这个版本尚且还是旧的,实际版本性能还会更好。
![媲美GPT-4的开源模型泄露!Mistral老板刚刚证实:正式版本会更强](/wp-content/uploads/replace/b0934b0cce69d4617b9db99490b87ebe.jpeg)
这两天,这个名叫“Miqu”的神秘模型在大模型社区里炸了锅,不少人还怀疑这是LIama的微调版本。
![媲美GPT-4的开源模型泄露!Mistral老板刚刚证实:正式版本会更强](/wp-content/uploads/replace/04c872808c229aefb72364d750ac1700.jpeg)
对此Mistral CEO也做出了解释, Mistral Medium是在Llama 2基础上重新训练的,因为需尽快向早期客户提供更接近GPT-4性能的API, 预训练在Mistral 7B发布当天完成。
如今真相大白,CEO还卖关子,不少网友在底下戳戳手期待。
![媲美GPT-4的开源模型泄露!Mistral老板刚刚证实:正式版本会更强](/wp-content/uploads/replace/458399bb4ba6e7280d86cca2c9de15d5.png)
![媲美GPT-4的开源模型泄露!Mistral老板刚刚证实:正式版本会更强](/wp-content/uploads/replace/0ab9035322d438e668f7ad6b3487439b.png)
Mistral-Medium意外泄露
我们还是重新来回顾一下整个事件。1月28日,一个名叫Miqu Dev的神秘用户在HuggingFace上发布一组文件“miqu-1-70b”。
![媲美GPT-4的开源模型泄露!Mistral老板刚刚证实:正式版本会更强](/wp-content/uploads/replace/03e6e74bd85446f8eab957dcf08a4a37.png)
文件指出新LLM的“提示格式”以及用户交互方式同Mistral相同。
同一天,4chan上一个匿名用户发布了关于miqu-1-70b文件的链接。
于是乎一些网友注意到了这个神秘的模型,并且开始进行一些基准测试。
结果惊人发现,它在EQ-Bench 上获得83.5 分(本地评估),超过世界上除GPT-4之外的所有其他大模型。
一时间,网友们强烈呼吁将这个大模型添加到排行榜中,并且找出背后的真实模型。
大致怀疑方向主要有三个:
- 与Mistral-Medium是同一个模型。
有网友晒出了对比效果:它知道标准答案还说得过去,但不可能连俄语措辞也跟Mistral-Medium完全相同吧。
![媲美GPT-4的开源模型泄露!Mistral老板刚刚证实:正式版本会更强](/wp-content/uploads/replace/dccf71cffa7d5e3e2c9c5f29347c547c.png)
- Miqu应该是LIama 2的微调版本。
但另外的网友发现,它并不是MoE模型,并且同LIama 2架构相同、参数相同、层数相同,。
![媲美GPT-4的开源模型泄露!Mistral老板刚刚证实:正式版本会更强](/wp-content/uploads/replace/7493dcc100ed4caf5ca731194786dcf1.png)
不过马上就受到其他网友的质疑,Mistral 7b也具有与 llama 7B 相同的参数和层数。
相反,这更像是Mistral早期非MoE版本模型。
![媲美GPT-4的开源模型泄露!Mistral老板刚刚证实:正式版本会更强](/wp-content/uploads/replace/f6bffbb6782b6b99917db83058d3d9c2.png)
不过讨论来讨论去,不可否认的是在不少人心中,这已经是最接近GPT-4的模型了。
![媲美GPT-4的开源模型泄露!Mistral老板刚刚证实:正式版本会更强](/wp-content/uploads/replace/937cd5a71cb585df1c4d0bfe3525d536.png)
如今,Mistral 联合创始人兼首席执行官 Arthur Mensch承认泄露,是他们一位早期客户员工过于热情,泄露了他们训练并公开发布的一个旧模型量化版本。
至于Perplexity这边CEO也澄清说,他们从未获得过Mistral Medium的权重。
![媲美GPT-4的开源模型泄露!Mistral老板刚刚证实:正式版本会更强](/wp-content/uploads/replace/7133b9fb17ba426236e858c1de3e3074.png)
网友担心是否会撤下这个版本。
![媲美GPT-4的开源模型泄露!Mistral老板刚刚证实:正式版本会更强](/wp-content/uploads/replace/9ad58b7737c930571a8e4318f87a9034.png)
有趣的是,Mensch并没有要求删除HuggingFace上的帖子。
![媲美GPT-4的开源模型泄露!Mistral老板刚刚证实:正式版本会更强](/wp-content/uploads/replace/5a565772248e961cb761e2e12d52eac6.png)
而是留下评论说:可能会考虑归属问题。
参考链接:
[1]https://www.reddit.com/r/LocalLLaMA/comments/1af4fbg/llm_comparisontest_miqu170b/
[2]https://twitter.com/teortaxesTex/status/1752427812466593975
[3]https://twitter.com/N8Programs/status/1752441060133892503
[4]https://twitter.com/AravSrinivas/status/1752803571035504858
- 开源=最强大模型!Llama3.1发布,405B超越闭源GPT-4o,扎克伯格:分水岭时刻2024-07-24
- 国内首批丨腾讯云上架 Llama 3.1模型,支持在 TI 平台精调和推理2024-07-24
- AI视频修复速度10倍提升,过曝变色也能逐帧搞定|美图国科大新算法2024-07-21
- 李飞飞创业:3个月估值破10亿美元2024-07-17