讯飞星火4.0霸榜八个榜单,大秀语音识别遭有预谋干扰
主打懂你的AI助手
游鱼 发自 凹非寺
量子位 | 公众号 QbitAI
很炸裂!讯飞星火大秀语音识别能力,现场掌声雷动——
三个人同时说话,再加上背景音乐,如此强干扰的场景,大模型却表示都能听懂听清,还瞬间转化为文字,语音识别的“鸡尾酒会”难题不在话下~
好,就只听到了最后的北京烤鸭,谁懂……
不得不承认,几个月一度的科大讯飞发布会每次都干货满满,此次也同样带来了惊喜。
讯飞星火4.0版本来袭,此次7大底座能力提升,八大榜单第一,全面对标GPT-4 Turbo。
除此之外,讯飞星火APP/Desk、语音大模型也迎来了一众升级。
快来看看此次有什么样的新发布~
讯飞星火4.0有多强?八个榜单第一
首先来看看底座大模型讯飞星火4.0的全新升级,主要在这几个方面:
- 基础能力上:文本生成、语言理解、知识问答、逻辑推理、数学代码以及多模态能力都全面升级,并且全面对标GPT-4 Turbo;
- 图文识别能力上也在持续升级之中,尤其像关于版面的复杂理解、融合篇章语义的文字识别、专业领域的符号识别等方面,在科研、金融、医疗、司法等行业领域都比GPT-4o更强。
- 复杂指令、复杂逻辑推理、空间推理、数学、基于逻辑关系的多模理解等复杂能力上皆也有所提升。比如,能根据几张图来梳理出图中内容的逻辑关系,这些能力的提升可以加速大模型实际应用的脚步。
- 在国内外中英文12项主流测试集中,星火V4.0实现了8项第一,包括理解推理、综合考试、数学等维度的中英文测试。
不过刘庆峰坦言,此次在代码和多模态能力还有所差距。
值得一提的是,此次星火长文本通用能力也进行了全新升级,并首发了内容溯源功能。
讯飞研究院院长刘聪也进行了现场演示,扔了一本中文版西游记和英文版哈利波特给它,问:
孙悟空的金箍棒和哈利波特的魔杖有什么不同?
除了按部就班的回答之外,在回答之中文字上面有小旗帜标识,一点开就会发现来源在哪。
这样一来,大模型的幻觉能够极大的降低,相当于星火在回答你的问题时,还告诉你为什么会这么回答,是参考了哪一段内容,省去你去全文核对的时间,只需核实它的的溯源即可。
而且注意到,这里面不局限于中文,英文溯源同样也能实现。星火大模型并非将英文翻译成中文,而是直接找对应关系,是真正基于英文自动训练出来的英文溯源能力。
当然,这个内容来源也不局限于文本,包括像语音、视频也都不在话下。
好了,底座能力基本已经了解,现在网页版和App端也都已全面升级,这就来浅测一番。
首先来看看前段时间难倒一波大模型的高考数学,讯飞星火4.0如何应对,直接拿直接拿高考一卷的前4个客观选择题试试手:
查看题目,给出这道题的答案。
结果四道题全对,解析也都完全正确,该说不说,是有点东西的啊~
再来看看它的多模理解能力,能否从几个图中找到对应的逻辑关系。
对于一则漫画,它也能清晰的判断出里面的内容,成功回答了给出的问题:一年后,小孩是否有长高?
此外,强干扰场景下的语音识别能力也实现了突破,两个人混叠场景准确率已经到了91%;三人混叠说话场景也能实现86%的语音识别准确率;在-5dB的高噪场景,噪音已经比人讲话还要高不少的情况下,依然能做到90%以上的准确率—— 也就出现了最开始「即使七嘴八舌,也能精准识别」的场景。
语言识别的能力也越来越强,此次升级的星火语音大模型可支持74种语言免切换自由对话,包括37种语种、37种方言,不用切换,可以自由交流。
其中,37个语种识别效果领先OpenAI whisper-V3,37个方言识别效果平均提升30%
也就在前几天,科大讯飞作为第一完成单位的《多语种智能语音关键技术及产业化》项目获得国家科学技术进步奖一等奖。
这是深度学习引发全球人工智能浪潮以来,过去十年人工智能领域的首个国家科学技术进步奖一等奖。
在这基础之上,语音领域的应用也正在被重构。星火汽车智能座舱全新升级,已经具备了多语种多方言的“自由交互”,还具备多情感多模态的超拟人交互。目前,讯飞语音交互产品国内市占率稳居第一,同时广泛出口到世界各地。星火大模型为一汽、奇瑞、广汽、江淮、长城等车企的众多车型,赋予了高度智能的交互体验。
主打个性化的AI助手
随着底座大模型能力的升级,星火在各行业各场景中的应用体验也进一步升维。
用科大讯飞自己话说:懂你的AI助手。
与此前「通用AI助手」定位相比,刘庆峰表示主要实现了三个能力层面的替身。
- 基于用户画像的个性化表达;
- 基于使用历史的记忆学习;
- 基于个人资料来进行增强学习;
具体而言,在构建用户个人画像时,人设风格可以自己选定,也可以根据对话和使用历史动态完善,进而形成个性化的表达风格;AI助手再结合个人资料,就可以生成个性化和针对性内容。
而现在每个人都可以通过讯飞星火APP,或者Desk界面,拥有属于自己的个性化助手。
此次升级了「个人空间」,它能够对你上传的各种资料进行收集管理,构建你一个人的专属知识库。而大模型也可以基于你的个人资料进行增强学习。
在现场,刘聪就上传了女儿写作文,并选取符合女儿AI人设标签后,后续文案生成风格都带有他女儿人设风格。
在讯飞星火APP上,还有一个智能体功能,它将各种各样的AI助手集成于此,包括医疗助手、英语听说助手、数学答题助手、录音助手、文稿写作助手、代码助手等等各种实用功能,你可以随时调用。
目前首批已上线14个智能体。
而更聚焦于在具体行业应用中,星火作为「懂你的AI助手」正在不断深入,持续创造价值。
比如医疗。当前讯飞星火医疗大模型也再次升级,医疗核心能力全面超过GPT-4 Turbo,包括医学相关的知识问答、复杂的语义理解、专业文书生成、诊断治疗以及多轮对话等各项指标。
而主打个人健康助手的讯飞晓医APP,已经覆盖1600种常见疾病、2800种常见药品、6000种常见检查检验,满足用户在看病前、用药时、检查后的核心场景健康需求。目前已累积1200万下载量。用户好评率98.8%,近一半来自用户口碑推荐。
你可以直接询问它一些通用问题,比如,要是失眠怎么办?痛风患者能喝豆汁儿吗?
讯飞晓医APP上线了“个人数字健康空间”,可以链接到你自己以及家人的健康档案,包括电子病历、检查报告、体检报告等资料。当出现一些小病症的情况,为你剖析原因;用药时给出药物禁忌的个性判断,还可以对比此前报告给出数据变化。
再有就是教育领域。AI正在成为老师的教学助理、学生的学习助手。
此次底层星火大模型,在语文数学英语能力以及OCR识别能力都有了很大的提升。
在老师端,科大讯飞此次发布星火智能批阅机,他能自动批改,即扫即批,并在现场大秀操作。
批完之后,它还能对整个班级学习情况分析出来,辅助老师给出每个学生学习路径规划。
原本90分钟作业批改时间,可以变成5分钟;60分钟的学情统计时间编程一分钟,大大解放了老师的生产力。
而在学生端,由星火大模型搭载的AI学习机,基于底层能力提升,进一步实现了超拟人的答疑辅导。
从已有试点数据来看,孩子独立学习完成率从67%到90%,错题解决率从以往依靠视频学习的72%到现在达到了93%。
除此之外,企业应用领域,还发布了企业智能体平台、以及商机、评标、代码等企业智能助手的亮相。
与此同时,讯飞星火的开发者生态影响还在不断扩大——
自今年1月30日讯飞星火V3.5发布以来,短短5个月,星火开发者生态加速增长,开发者数从598万增长到702万,新增超104万;海外开发者数超40万;大模型开发者达57万。
让大模型更好用更实用
整个发布会看下来,科大讯飞释放出这样一个发力信号;
让大模型更好用、更实用。
而要将其进一步具象化,那就是AI智能助理。
可以是一家老小的健康都被AI守护;也可以是每个人孩子一对一个性化教学中培养出主动思考的终身学习能力;还有像深入企业中经营服务场景,每个打工人都可以轻松管理自己的知识库。
而如果贯穿整个人类文明,每一次进步背后都有一个了不起的助手,每一代助手都有它的使命。
科大讯飞的使命就是解放生产力,释放生产力。
刘庆峰表示,希望通过我们的能力,成就每一个了不起的企业,帮助每一个人都成为了不起的自己。
而作为AI助手的“载体”——讯飞星火APP其实正在持续赋能,早已在我们身边改变着我们的生产生活。
会上刘庆峰提供了这几组关键的数字。
在安卓端,所有下载大模型相关APP中,讯飞星火APP下载量在工具类排名第一,已累计下载1.31亿次。
意味着,星火APP各类助手,包括写作、编程、工作、学习、生活、亲子、翻译等助手都在被我们日常使用,部分调用次数甚至达到了几百万甚至千万级别。
不过从整个行业来看,其实这也不是什么新鲜概念,早在不少科幻电视剧、电影里面出现,直至现在大模型时代带来,科幻场面照进现实。
诚如此前爆火的ChatGPT男友DAN、还有带来全新人机交互热议的GPT-4o,更多兼具功能和情感属性的通用AI助手出现,让人直呼:《Her》真的来了。
但能打造作为AI助手,其实并非易事。
相信很多朋友都注意到,GPT Builder即将在7月份终止服务。这个因为「每个人都能创建自己的GPT」而被寄予厚望,然而现在发布不到半年即将面临关停。
还记得当时刚出来时,就被不少人诟病,有些定制出来的GPTs跟ChatGPT本来对话没有什么区别,无法解决复杂指令……
当大模型产品直面用户时,人们对它的期望和要求要远比以往更为严苛。当产品现有能力无法满足用户需求时,很快就会被用户淘汰,被市场淘汰……
只有不断打磨产品能力、直击用户痛点,并且始终保持开放的生态,才能在这样一个浪潮中生生不息。
至少现在来看,目前尚且还留存、持续不断给用户带来服务的大模型产品,经历住了考验。科大讯飞就是其中一个。
而最近ChatGPT的一个决定,再次让大模型自主可控这个命题变得尤为重要。
OpenAI的大模型,不会成为中国AI应用的基座,自然也更不会成为中国AI助手的基座。而像科大讯飞这样的玩家,从一开始就主打自主可控——
直至现在,讯飞星火4.0还是官方认证的唯一全民开放大模型。
什么概念呢?
就是在全国产算力平台上训练的大模型,所有算法、每一行码、每一个数据都是我们自主可控的大模型。
此次讯飞星火大模型的发布,是基于全国首个国产万卡算力集群“飞星一号”。
刘庆峰表示:大模型底座能力决定发展高度,而中国需要建立自主可控的通用大模型底座。
要科学地认识大模型能力边界,如今随着大模型能力升级,让每个人AI智能助理成为可能。
星火代表着一种趋势,也正在引领着这种趋势的发展。
- 清华新VLA框架加速破解具身智能止步实验室“魔咒”,LLM内存开销平均降低4-6倍。2024-11-30
- 智源发布心脏模型!超实时仿真人体生理功能,速度提升180倍2024-11-29
- 乌镇最火AI议题,原来答案藏在这份报告里2024-11-25
- Scaling Law百度最早提出!OpenAI/Claude受它启发,致谢中有Ilya2024-11-28