< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400">

实测拿215项SOTA的Qwen3.5-Omni:摄像头一开,AI给我现场讲论文、撸代码

能看能听能唠嗑,还能现场vibe coding

Qwen3.5-Omni来了!

实测下来最大的感受是——AI终于可以和我开着视频会议正经讨论工作了

能vibe coding,能给我讲论文,还能帮我拉片。

这不活脱脱一个工作好手!

官方介绍,Qwen3.5-Omni做到了真正的“全模态”原生,无缝理解文本、图片、音频及音视频输入,能够生成支持细粒度、带时间戳的音视频脚本。

它提供了Plus、Flash、Light三种尺寸,支持256K上下文与113种语言识别,可处理10小时音频或1小时视频。

在benchmark上的表现也相当强势,Qwen3.5-Omni拿下了215项SOTA,整体成绩跟Gemini 3.1 Pro打得有来有回。

其中,通用音频理解、推理、识别、翻译、对话全面超越了Gemini-3.1 Pro,音视频理解能力总体达到Gemini-3.1 Pro水平。

视觉和文本能力则与同尺寸Qwen3.5模型持平。

Qwen3.5-Omni还有一大亮点:自然涌现的vibe coding能力。它可以在实时视频通话中,根据画面逻辑生成Python代码或前端原型。

消息一出,X上也沸腾了。有网友评价:

这是一次巨大的飞跃!完全改变了用户与AI的交互方式。

老规矩,一波实测走起~

一手实测Qwen3.5-Omni

音视频拆解和分析

先来考考Qwen3.5-Omni引以为傲的视频拆解能力。

我给它上传了无字幕版的《疯狂动物城2》的预告片,让它分析视频,并生成详细的视频的脚本。

【此处无法插入视频,遗憾……可到量子位公众号查看~】

要知道,预告片在视频理解领域并不好处理。它节奏紧凑、镜头密集,画面之间没有明确的逻辑关系,出场人物还非常多。

但这对Qwen3.5-Omni来说不在话下,大概几秒左右,它就给我生成了一个带时间戳的详细脚本。

可以看到,不仅拆解了分镜和画面,还分析了字幕、特效、音乐、蒙太奇手法等等,每一个出场的人物也都没落下。

接下来进一步增加难度,继续追问:

37秒左右出场的人物是谁?他们在干什么?

这也难不倒它,几秒钟就给出了答案,并且完全正确。答案就是尼克、朱迪和蓝蛇盖瑞,它还附带分析了音效和氛围。

不过,我还想让它进一步评价一下这支预告片,分析其节奏和手法,以及传递了怎样的思想感情。

这回它也是很快给出了答案,不仅详细分析了“快—慢—爆—收”的波浪式结构,而且还在没有对话和字幕的情况下,解读出了预告片中的种种隐喻。

这…这不就是活脱脱一个拉片小能手吗!

看视频做网页

接下来,我迫不及待要试一下Qwen3.5-Omni最大的亮点——边打视频边vibe coding。

在Qwen Chat里打开视频通话功能,它可以看到你摄像头呈现的画面,还能一边跟你对话,就像跟真人开视频会议一样。

我让它根据我画的前端草图,做一个关于Geoffery Hinton的网页:

【此处无法插入视频,遗憾……可到量子位公众号查看~】

不知道有没有uu体会出来,对面的AI小姐姐说话也是很有感情的,语气、停顿、轻笑等等,都和真人很相似。

它领了任务之后,很快就帮我生成了HTML+CSS代码,并给出了网页预览,前后不过十多秒钟。

【此处无法插入视频,遗憾……可到量子位公众号查看~】

一起来看看它给出的结果吧~

嗯……整体效果还是可以的,确实按照我画的草图来设计了前端界面。

由于模型原生支持WebSearch复杂FunctionCall的调用能力,这里它也是调用了WebSearch来帮我填充内容。

美中不足的是没有填充图片,以及内容还是比较简单了。不过视频通话加上vibe coding这一连串下来,给人感觉还是挺惊艳的。

实时对话解读论文

不止如此,Qwen3.5-Omni还可以一边跟你打视频,一边解读论文。

不知道有没有uu跟我一样,觉得AI领域的论文实在太难读了!!

不仅全英文,各类图表、公式也很多,艰深术语满天飞,真的很难在没有AI辅助的情况下啃明白。

现在有了Qwen3.5-Omni,也不需要把文章内容复制给AI了,直接打开摄像头让它“看”,它就能给我讲明白。

我们打开Yann LeCun团队发的世界模型新论文——LeWorldModel,让它来试一试:

【此处无法插入视频,遗憾……可到量子位公众号查看~】

可以看到,Qwen3.5-Omni根据实时看到的画面,直接用大白话告诉我LeWorldModel是个啥东西,跟以往的方法有何不同,创新之处在哪里。

中间我直接打断了它的讲述,问它其中一张图讲了什么,它也会立刻切换节奏回答我。

这也是Qwen3.5-Omni这次的一大更新:支持语义打断

但它非常智能的一点是,不会被附和或无意义的背景音打断。可以听到我中间是有一些开门关门的杂音的,它也没有受干扰,仍然在解读论文。

咱就是说,以后读学术论文更友好了有木有!

不用再对着满屏冷冰冰的术语头疼了,有了AI视频通话给你讲论文,可以随时打断或切换重点,情绪价值也能拉满~

215项SOTA,打平Gemini 3.1-Pro

接下来详细唠唠Qwen3.5-Omni在benchmark上的表现。

可以说相当亮眼,Qwen3.5-Omni-Plus足足拿下了215项SOTA,跟Gemini 3.1-Pro那是打得有来有回。

在通用音频理解、推理、识别、翻译、对话等指标上,都全面超越了Gemini 3.1-Pro,音视频理解能力整体达到Gemini 3.1-Pro的水平。

视觉和文本能力方面,则与同尺寸Qwen3.5模型持平。

官方介绍,与上一代Qwen3-Omni相比,Qwen3.5-Omni在长上下文、多语言、音视频理解能力上都有明显提升。

同时新增了语义打断、音色克隆、语音控制等实时交互能力,让对话体验更接近真人。

配合ARIA(自适应速率交错对齐)技术,语音输出的稳定性和自然度也进一步改善。

模型架构:会思考+会说话

那么,Qwen3.5-Omni是怎么做到“边看边想边输出”的呢?

答案在模型架构上。Qwen3.5-Omni延续了Thinker-Talker架构,可以理解成一个“会思考+会说话”的双系统结构:

Thinker(大脑):负责理解一切输入;

Talker(嘴巴):负责把结果说出来。

并且这一次,两者都升级为Hybrid-Attention MoE,效率和性能均有显著提升。

Thinker可以同时处理图像、声音、文本这些不同类型的信息。

模型会把音频和视频“混在一起”输入(就像一边看一边听),再用一种特殊的位置编码方式去理解它们之间的时间关系。

最终,Thinker把所有多模态信息“想明白”,并输出成文本。

Talker更像一个“AI配音演员”,它会根据Thinker给出的内容,把文本变成自然的语音。

这里有几个关键升级:第一,语音生成更轻量、更高效。这一代没有再用计算量很大的生成方式,而是换成了一种类似“语音压缩编码”的方法(RVQ)

可以理解为不再是现场“逐帧渲染声音”,而是用更高效的“拼装声音单元”的方式生成语音。好处就是更快、更省算力。

第二,解决“AI说话不稳定”的老问题

以前模型在说话时,经常出现漏读、读错、数字发音奇怪等问题,原因在于文本和语音的编码节奏不一样,可以理解为一个说得快,一个说得慢。

Qwen3.5-Omni引入了一个机制——ARIA(自适应速率交错对齐技术),本质就是动态对齐文本和语音的节奏,再交错组合输出。

可以做到说话更稳、更清晰,基本不会“嘴瓢”。

第三,真正做到“实时对话”

Qwen3.5-Omni通过一套“边输入、边处理、边生成”的流式设计:你还没说完,模型已经在理解;它还没想完,就已经开始说。

这样就可以做到像真人一样实时对话,而不是“说一句等三秒”。

这也是为啥有时跟Qwen3.5-Omni对话,会感觉它在抢话,或者你刚说几个字,它就迫不及待接话了。

目前,新模型在Qwen Chat上就可以体验,你也可以通过阿里云百炼搜索Qwen3.5-Omni调用API。注意如果想体验视频通话,需要在手机网页端的Qwen Chat上使用~

地址已经附在下方,uu们快去试试吧~

Qwen Chat:
chat.qwen.ai/
API 离线:
help.aliyun.com/zh/mode
API 实时:
help.aliyun.com/zh/mode

版权所有,未经授权不得以任何形式转载及使用,违者必究。