代码能力超越GPT-4,这个模型登顶Big Code排行榜,YC创始人点赞
实测在此
克雷西 发自 凹非寺
量子位 | 公众号 QbitAI
一款号称代码能力超越GPT-4的模型,引发了不少网友的关注。
准确率比GPT-4高出超过10%,速度却接近GPT-3.5,而且窗口长度也更长。
据开发者描述,他们的模型取得了74.7%的Pass@1通过率,超过了原始GPT-4的67%,登上了Big Code榜首。
![代码能力超越GPT-4,这个模型登顶Big Code排行榜,YC创始人点赞](/wp-content/uploads/replace/c515d7d235f60ef99d95cdb96b0bf312.png)
![代码能力超越GPT-4,这个模型登顶Big Code排行榜,YC创始人点赞](/wp-content/uploads/replace/93a71ef924a55839f1fc3f04cee4be4a.png)
这个模型名叫Phind,和以其为基础的面向开发者的AI搜索工具同名。
它是由开发团队在CodeLlama-34B的基础之上微调得到的。
Phind利用TensorRT-LLM在H100上可以跑出每秒100个token的速度,是GPT-4的5倍。
此外,Phind的上下文长度达到了16k,其中12k可供用户输入,另外4k保留给检索结果中的文本。
![代码能力超越GPT-4,这个模型登顶Big Code排行榜,YC创始人点赞](/wp-content/uploads/replace/7dcf7920abc14dd200813542e852b66d.png)
针对这个产品,网友们议论纷纷,结果是喜忧参半:
支持的人,如著名创业投资公司YCombinator创始人Paul Graham表示,Phind可以让人们用更少的资源和大厂抗衡。
![代码能力超越GPT-4,这个模型登顶Big Code排行榜,YC创始人点赞](/wp-content/uploads/replace/f8ea592f7c8191896303879b01375279.png)
也有网友具体列出了Phind的优点:
![代码能力超越GPT-4,这个模型登顶Big Code排行榜,YC创始人点赞](/wp-content/uploads/replace/0e88ab4618377cf74f0105e85e2b9b81.png)
不认可Phind的网友则说,自己之前用GPT-4写的代码,Phind写不出来:
![代码能力超越GPT-4,这个模型登顶Big Code排行榜,YC创始人点赞](/wp-content/uploads/replace/96d517ced7adeb3dad915581b9341f10.png)
更是有人吐槽说,GPT“每天都在被打败”,但是从来没被超越过。
![代码能力超越GPT-4,这个模型登顶Big Code排行榜,YC创始人点赞](/wp-content/uploads/replace/0ab651798957e84187e0b85de913bfae.png)
有意思的是,在Phind应用当中,自研模型又被称作“fast model”,而“best model”仍然是GPT-4。
(虽然没明说,但是GPT-4和best model的剩余可用次数是同步变化的)
![代码能力超越GPT-4,这个模型登顶Big Code排行榜,YC创始人点赞](/wp-content/uploads/replace/ee92e5ab804723b28a9478e8ecd60fc5.png)
所以,这个号称“击败了GPT-4”的模型到底是不是真的那么好用,我们进行了一番实测。
Phind vs GPT-4
正式开始之前,先来说说对Phind的第一印象。
它的界面十分简洁,主要就是一个搜索框,而且不需要登录就能无限量使用。
左下角有一个Pair Programmer的开关,直观上的区别就是开启之后回答界面更侧重对话,不开启的话则更像搜索引擎。
此外,还可以从自研模型和GPT-4中选择,GPT-4则需要登录,而且每天只能用10次。
![代码能力超越GPT-4,这个模型登顶Big Code排行榜,YC创始人点赞](/wp-content/uploads/replace/8b1d4e0ec4ca31bf757f87b42e24b231.png)
接下来就是和GPT-4进行的对比测试,GPT-4没有开启代码解释器。
首先还是从LeetCode题目开始测起,Prompt就是是原问题加上下面这段话:
请用Python写一段代码解决这个问题,给出通用的解法,不需要设定参数值,代码需要以如下内容开头:
(LeetCode页面中给出的起始片段)
为了防止Phind通过检索来“作弊”,我们还在Phind的Prompt结尾加入了这句话:
不要检索任何信息,靠你自己的能力创建代码
第一题在LeetCode中被归为组合数学问题,难度为困难,通过率67.1%。
![代码能力超越GPT-4,这个模型登顶Big Code排行榜,YC创始人点赞](/wp-content/uploads/replace/e8d00bfd923c077cd9c8c629696916b3.png)
Phind给出了这样的代码和解释,经过测试,20条测试数据中有19项正确。
![代码能力超越GPT-4,这个模型登顶Big Code排行榜,YC创始人点赞](/wp-content/uploads/replace/f08a404aac52d8a40f8cd5c9d144dc25.png)
出错的是这一条,这里的输出结果应该是3,但Phind给出的程序运行结果是4。
![代码能力超越GPT-4,这个模型登顶Big Code排行榜,YC创始人点赞](/wp-content/uploads/replace/67a8e5b4fb020230c2136dbb39dba268.png)
我们试着反馈给Phind,看它能不能找出错误的原因,结果分析一番之后给出了新的代码,并通过了测试。
![代码能力超越GPT-4,这个模型登顶Big Code排行榜,YC创始人点赞](/wp-content/uploads/replace/337aa56aa9ee1e878eaa8432b5e46105.png)
而GPT-4这边,则是一次性通过。
![代码能力超越GPT-4,这个模型登顶Big Code排行榜,YC创始人点赞](/wp-content/uploads/replace/2840913766052a3b12b1ccea03b8e983.png)
进入下一题,这道题目涉及到了动态规划,通过率为53.9%。
![代码能力超越GPT-4,这个模型登顶Big Code排行榜,YC创始人点赞](/wp-content/uploads/replace/a63f2ec791613a9c01486397aaf03f32.png)
这次Phind和GPT-4都是以一次通过。
![代码能力超越GPT-4,这个模型登顶Big Code排行榜,YC创始人点赞](/wp-content/uploads/replace/df0825b8499ad152b5aa3dd760bba530.png)
![代码能力超越GPT-4,这个模型登顶Big Code排行榜,YC创始人点赞](/wp-content/uploads/replace/a21a2fa97c8a9d3437caa9a9432835a2.png)
第三道题目的通过率只有约30%,但它的难度可能在于用来判题的测试数据太庞大了。
Phind给出的这段代码就在通过前12组测试数据之后出现了运行时间超限的现象。
![代码能力超越GPT-4,这个模型登顶Big Code排行榜,YC创始人点赞](/wp-content/uploads/replace/dff9aaa962f41f5fe605155626ff05b3.png)
我们让它试着进行优化,结果这次直接是算不对了。
![代码能力超越GPT-4,这个模型登顶Big Code排行榜,YC创始人点赞](/wp-content/uploads/replace/6eb28863948a514b822f05db2c6cce59.png)
![代码能力超越GPT-4,这个模型登顶Big Code排行榜,YC创始人点赞](/wp-content/uploads/replace/d83f602619a2efc677dc43c361b3f362.png)
而GPT-4则轻松解决,不过在解释说明部分有些错误,因为超级回文数的概念中的描述是“回文数的平方”而不是“平方是回文数”。
![代码能力超越GPT-4,这个模型登顶Big Code排行榜,YC创始人点赞](/wp-content/uploads/replace/e2925114f659540bd5d47dac71a3c19a.png)
三道LeetCode题目测试下来,Phind以一平两负的成绩输给了GPT-4。
但需要说明的是,这里我们为了测试模型本身表现,通过提示词关闭了Phind的检索功能,但从实用角度出发,如果保留搜索,Phind还是能很好地解决这些问题的。
接着,我们又测试了一下他们的实际开发能力,这次的题目是扫雷游戏。
Phind会问我们有没有什么特殊要求,这里我们直接点跳过。
![代码能力超越GPT-4,这个模型登顶Big Code排行榜,YC创始人点赞](/wp-content/uploads/replace/a7937f1f4ff063ebdf86e885dc7c6059.png)
然后Phind会对任务进行拆解,对每个子任务又分别进行检索。
![代码能力超越GPT-4,这个模型登顶Big Code排行榜,YC创始人点赞](/wp-content/uploads/replace/0f2017dd3e77426f4ac232bef79bf0ff.png)
这时的代码也是分段给出的,有趣的是,在生成过程中,Phind会使用不同来源中的代码。
![代码能力超越GPT-4,这个模型登顶Big Code排行榜,YC创始人点赞](/wp-content/uploads/replace/bebbcb5015b0c08e805c090e92b01d92.png)
然后我们让Phind给出完整代码,并通过链接的第三方平台直接运行。
结果呢,我们一进去就看到程序已经非常“贴心”地把雷的位置清楚地标注好了。
![代码能力超越GPT-4,这个模型登顶Big Code排行榜,YC创始人点赞](/wp-content/uploads/replace/eff68e78a4d218391cc7aa10b222ce37.gif)
不过这次,GPT-4的代码更加离谱一些,运行出来是这样的:
![代码能力超越GPT-4,这个模型登顶Big Code排行榜,YC创始人点赞](/wp-content/uploads/replace/40a3703a9150af276dfa6258b7353f29.png)
虽然都没做对,但硬要比较的话,这一轮,Phind略胜一筹。
一路测试下来,很难判断它们孰优孰劣,但考虑到搜索能力,以及免费免登录的特性,Phind还是可圈可点的。
参考链接:
https://www.phind.com/blog/phind-model-beats-gpt4-fast
- 几何朗兰兹猜想被解决!历时30年、证明论文达800余页,中国学者陈麟系主要作者2024-07-23
- 开源大模型杀疯了!Mistral新模型三分之一参数卷爆Llama 3.1,“新趋势已显而易见”2024-07-25
- GPT-4o mini登顶大模型竞技场,奥特曼:两个月内微调免费2024-07-24
- 英特尔CPU疯狂崩溃,测评大佬揭露工艺缺陷,官方回应:修复补丁下月上线2024-07-23