讯飞版ChatGPT突然开始内测!我们连夜一手实测
它是懂安徽笑话的
明敏 萧箫 发自 凹非寺
量子位 | 公众号 QbitAI
科大讯飞版ChatGPT产品,提前交卷了!
就在昨夜,讯飞骤然向开发者提供了内测通道,取名为讯飞星火认知大模型对外开启内测。
![讯飞版ChatGPT突然开始内测!我们连夜一手实测](/wp-content/uploads/replace/a2e044cd4c140cd0658fc2bdb94f23d1.png)
还有个神奇的英文名字Spark Desk,据说有“火花桌面智能助手”的意思。
![讯飞版ChatGPT突然开始内测!我们连夜一手实测](/wp-content/uploads/replace/3fe4f5def7adfa47b81d83ad1e78ea14.png)
讯飞这波操作,多少有点“反向跳票”的意思,因为早在今年2月初,科大讯飞就被曝加紧开发中国版ChatGPT。随后国内大模型关注度陡增后,科大讯飞率先给出了deadline:5月6日上线产品。
万万没想到,距离正式发布还有10天,他们毫无征兆地开启了内测邀请。
从目前已经获得内测的网友评价来看,有一些人认为效果“超出预期”,但也有人反馈只是“中规中矩”。整体来看,表达效果不错的反馈占多数。
获得内测资格的方式也有点意思,是AI打电话给确认的:
![讯飞版ChatGPT突然开始内测!我们连夜一手实测](/wp-content/uploads/replace/0ca4fb84854fbe071a35a6643feb6677.png)
当然,科大讯飞大模型能力究竟如何,最好还是能实测后再说。
所以第一时间拿到内测邀请的我们,也连夜完成了测试。详情如下:
浅测讯飞大模型
登录进去后,首先看到的是讯飞星火认知大模型的自我介绍:
我能学习和理解人类的语言,进行多轮对话、回答问题和高效地帮助人们获取知识和灵感。
![讯飞版ChatGPT突然开始内测!我们连夜一手实测](/wp-content/uploads/replace/17b18a0ac9947616e6b1c4aeeaf05890.png)
老样子,还是从语文、数学、代码和逻辑几方面,测测讯飞星火认知大模型的综合能力。
那么我们就先从语文能力测起。
考虑到现在弱智吧已经成为ChatGPT时代下的Benchmark了,所以先测试大家想看的环节。
结合下科大讯飞的特点,我们抛给讯飞星火了一个地狱地域笑话。
没想到,它是懂安徽人的。
△我们去了图片ID水印,可能导致截图文字不清楚(还望大家理解)
再来一个脑筋急转弯试试。
讯飞星火的回答非常一本正经:首先表示“玉皇大帝是否存在这个事情不是我AI可以下结论的”,这个问题驴唇不对马嘴,玉皇大帝住哪的设定和现代科学没有关系。
但你要非要我说点啥,我只能说或许玉皇大帝可能在地球上空吧。
![讯飞版ChatGPT突然开始内测!我们连夜一手实测](/wp-content/uploads/replace/c4609bc1a1a03d63df8b395765f0e622.png)
不过这段回答里也有个小bug,即在东亚宗教信仰里天界包括天堂和神界(?)
实际上,在一些弱智吧问题里,讯飞星火的表现往往是懂了但没完全懂。
比如它知道焚书坑儒的事,但是又解释不清楚衍生出来的地狱笑话。
![讯飞版ChatGPT突然开始内测!我们连夜一手实测](/wp-content/uploads/replace/322c06647d06d60e01f3eb7d134d9aec.png)
不过在基本语文能力上,讯飞星火的表现还是值得关注的。
比如给出第一句,补充写一首鲁迅风格的诗歌:
![讯飞版ChatGPT突然开始内测!我们连夜一手实测](/wp-content/uploads/replace/d5fd9c3c44ccdace45f192ce0dbd02c4.png)
提的要求它都基本满足了,不过紫菜汤为啥曾是渔民的希望?是我理解不了AI的深意了。
换成周杰伦的风格呢?
表现也还不错,马上替换了后三句的内容。怀念童年也是周董歌里经常出现的主题了。
![讯飞版ChatGPT突然开始内测!我们连夜一手实测](/wp-content/uploads/replace/0faa74c17b70fc9c64e8722dab66f02f.png)
古文中的对对子,它也能对仗比较工整,表达意思上也没出什么问题。
我们给的上联是:福慧双修须及物。
![讯飞版ChatGPT突然开始内测!我们连夜一手实测](/wp-content/uploads/replace/a8f01502ad0983dbbf33f7c7c1f11f87.png)
再试试成语接龙:
![讯飞版ChatGPT突然开始内测!我们连夜一手实测](/wp-content/uploads/replace/c16c19fa5b3c20871c79e66ed04fb7d6.png)
如果它接错了,提醒下能改正回来,也表现出了一定的多轮对话能力:
![讯飞版ChatGPT突然开始内测!我们连夜一手实测](/wp-content/uploads/replace/1d4755ac68f59e7f8b10fa2ed11cfc5e.png)
创作的洋葱新闻,也确实有那感觉了~
![讯飞版ChatGPT突然开始内测!我们连夜一手实测](/wp-content/uploads/replace/7f1652ebf21fb9b4915229008d4ccfca.png)
续写的恐怖故事也有点水平:
![讯飞版ChatGPT突然开始内测!我们连夜一手实测](/wp-content/uploads/replace/47d3151c4ddb91e802423b58481ca73d.png)
那么再看看数学能力?
基本的加减法、鸡兔同笼应对起来都很轻松了。
![讯飞版ChatGPT突然开始内测!我们连夜一手实测](/wp-content/uploads/replace/c7b03c2dc2e9e5588ea6b9a386c6d1a8.png)
![讯飞版ChatGPT突然开始内测!我们连夜一手实测](/wp-content/uploads/replace/5c96d350fd11a0124027026e482e0bdb.png)
不过在高数方面还是有点困难,让它求解:f(x)=x(x-1)(x-2)(x-3),f’(0)=?
即便在我们提醒它算错了情况下,修正起来也比较困难(正确答案为-6)。
![讯飞版ChatGPT突然开始内测!我们连夜一手实测](/wp-content/uploads/replace/87d663b51041c6f01ad1282818f20d92.png)
OK,接下来就轮到代码能力了。
我们给的要求是:帮我写一个计算器程序。
确实完成了一个四则运算的简单计算器,甚至还有命令行操作界面:
![讯飞版ChatGPT突然开始内测!我们连夜一手实测](/wp-content/uploads/replace/80832051340e1805ec141f5cb98e66df.png)
除了有一个小bug(函数外不能return)外,简单修改后可以运行。
![讯飞版ChatGPT突然开始内测!我们连夜一手实测](/wp-content/uploads/replace/eda82fd79c706cafb4332139b3008832.png)
另外对于Python缩进的空格与tab之争,这只AI是个空格党。
这里贴上代码块,大伙儿可以试试:
#coding=utf-8
#量子位注:AI没生成这句,根据不同运行环境可能需要加一下
# 定义函数,实现加法运算
def add(x, y):
return x + y
# 定义函数,实现减法运算
def subtract(x, y):
return x - y
# 定义函数,实现乘法运算
def multiply(x, y):
return x * y
# 定义函数,实现除法运算
def divide(x, y):
if y == 0:
print("除数不能为零!")
return
else:
return x / y
# 主程序
print("欢迎使用计算器!请选择需要进行的操作:")
print("1. 加法")
print("2. 减法")
print("3. 乘法")
print("4. 除法")
choice = input("请输入操作编号(1/2/3/4):")
num1 = float(input("请输入第一个数字:"))
num2 = float(input("请输入第二个数字:"))
if choice == '1':
print(num1, "+", num2, "=", add(num1, num2))
elif choice == '2':
print(num1, "-", num2, "=", subtract(num1, num2))
elif choice == '3':
print(num1, "*", num2, "=", multiply(num1, num2))
elif choice == '4':
if num2 == 0:
print("除数不能为零!")
# return (量子位注:这里有bug,注释掉就可)
else:
print(num1, "/", num2, "=", divide(num1, num2))
else:
print("非法输入!")
生成表格能力也是有的,同时可以按照要求修改表格:
![讯飞版ChatGPT突然开始内测!我们连夜一手实测](/wp-content/uploads/replace/e53696e1fc9b9917e5005580ee8eab87.png)
![讯飞版ChatGPT突然开始内测!我们连夜一手实测](/wp-content/uploads/replace/2fb7db3d6b0b52b391405691ad8d1ff3.png)
分析基本逻辑问题也OK:
![讯飞版ChatGPT突然开始内测!我们连夜一手实测](/wp-content/uploads/replace/02ed6cff5c80ef87a102facc2ad7c4db.png)
而且我们感觉讯飞星火的回答,总是很正经,对于脑洞大开的问题也是淡定的“总分总式”回答。
![讯飞版ChatGPT突然开始内测!我们连夜一手实测](/wp-content/uploads/replace/d23f524e43e5ba75697e2f29a23e8916.png)
当然也被绕到过沟里,回答出了“贾母找人搬机器”的瞎话:
![讯飞版ChatGPT突然开始内测!我们连夜一手实测](/wp-content/uploads/replace/b189046eeeedf4b81a444832b49d54a1.png)
以上就是我们对讯飞星火的一个浅浅测试。
能力水平已经看到了,而大模型本身让人好奇的,还有它的技术细节~
提前扒扒它的“模型底细”
毕竟讯飞大模型还没正式发布,所以我们试着先从它自己这里“探探口风”。
看看能不能通过问相关问题,提前摸出一些关于它的资料来。
先是名字由来。讯飞星火认知大模型给出了技术向、公司向和文化向三个方面的回答,有议论文内味了:
![讯飞版ChatGPT突然开始内测!我们连夜一手实测](/wp-content/uploads/replace/e8884f8b4070005a427219c7667aacab.png)
再仔细追问一下为什么“星火”和“心宿”有关,好家伙,话题逐渐占星学了起来:
![讯飞版ChatGPT突然开始内测!我们连夜一手实测](/wp-content/uploads/replace/1b348eb209b5dc1bc1d30b56acc8ca2f.png)
这里我们调戏一下大模型,问问科大讯飞CEO是否喜欢占星学
![讯飞版ChatGPT突然开始内测!我们连夜一手实测](/wp-content/uploads/replace/57f8dff9d1ba8e32770ee945c6924163.png)
回到正题。那么,讯飞星火认知大模型的训练数据来源、模型参数量、联网状态如何?
首先是关于模型训练数据的来源。看起来资料还比较丰富,目前也还在不断更新中:
![讯飞版ChatGPT突然开始内测!我们连夜一手实测](/wp-content/uploads/replace/27e700b59c484d9e92e79e0b9585cf30.png)
所以,讯飞大模型是否和ChatGPT一样,用了RLHF呢?它自己的回答竟然是没有:
![讯飞版ChatGPT突然开始内测!我们连夜一手实测](/wp-content/uploads/replace/39f7a9769bad03229d98f69c2d1de5de.png)
那么接下来,是关于模型参数量的问题,这里讯飞大模型回答得也比较模糊。
而且,给出的模型参数量竟然只有数亿个?(要知道,GPT-2模型参数量都有15亿)
![讯飞版ChatGPT突然开始内测!我们连夜一手实测](/wp-content/uploads/replace/9c87c0462f4875a448f3919c5ec0ecef.png)
最后,是关于模型能否联网的问题。
看起来,它还不会实时联网,关于网易和暴雪的新闻只能追溯到几年前的消息:
![讯飞版ChatGPT突然开始内测!我们连夜一手实测](/wp-content/uploads/replace/a6824bb95e809b300e78364f4708f35a.png)
用户也不能通过指令直接让它访问某个网站,查询特定信息,应该是加了某些限制:
![讯飞版ChatGPT突然开始内测!我们连夜一手实测](/wp-content/uploads/replace/4e2ec142e67b8b4fb2a0b8f9403fb8d3.png)
不过有意思的是,它还是声称自己需要联网工作,以访问特定信息数据:
![讯飞版ChatGPT突然开始内测!我们连夜一手实测](/wp-content/uploads/replace/ef2c1187c3ce29c88da6b0c318c7fae0.png)
据讯飞星火认知大模型介绍,目前它的训练数据还在继续更新。
![讯飞版ChatGPT突然开始内测!我们连夜一手实测](/wp-content/uploads/replace/8ea830942830443fd9c13ad363e15e5a.png)
换而言之,就是还在继续迭代,估计在正式发布前还会更新一版模型。
目前来看,科大讯飞的这个讯飞星火认知大模型,表现已算不错。
而且要知道,讯飞原计划给出的交卷时间是5月6日,现在突然发布内测,相当于不仅没跳票,还“反向跳票”了一波。
这样来看,除了科大讯飞在这NLP和认知智能方面确实有很深的技术积累以外,也说明,讯飞的技术和工程团队实战能力值得关注一波——不仅能打硬仗,而且“说到做到”。
现在距离正式发布还有10天,你期待讯飞的大模型迭代出什么新效果?
- 12h订单破万,卖爆了的国产AR眼镜公司什么来头?2024-07-26
- 联想CTO换帅!芮勇转任新集团总裁,瞄准新兴技术2024-07-26
- ICML最佳论文曾被ICLR拒稿,Pika联创参与,一作已入职OpenAI2024-07-25
- 北大刘若川教授获拉马努金奖,中国学者4次获此殊荣2024-07-24