实测拿215项SOTA的Qwen3.5-Omni:摄像头一开,AI给我现场讲论文、撸代码
能看能听能唠嗑,还能现场vibe coding
Qwen3.5-Omni来了!
实测下来最大的感受是——AI终于可以和我开着视频会议正经讨论工作了。
能vibe coding,能给我讲论文,还能帮我拉片。
这不活脱脱一个工作好手!

官方介绍,Qwen3.5-Omni做到了真正的“全模态”原生,无缝理解文本、图片、音频及音视频输入,能够生成支持细粒度、带时间戳的音视频脚本。
它提供了Plus、Flash、Light三种尺寸,支持256K上下文与113种语言识别,可处理10小时音频或1小时视频。
在benchmark上的表现也相当强势,Qwen3.5-Omni拿下了215项SOTA,整体成绩跟Gemini 3.1 Pro打得有来有回。

其中,通用音频理解、推理、识别、翻译、对话全面超越了Gemini-3.1 Pro,音视频理解能力总体达到Gemini-3.1 Pro水平。
视觉和文本能力则与同尺寸Qwen3.5模型持平。
Qwen3.5-Omni还有一大亮点:自然涌现的vibe coding能力。它可以在实时视频通话中,根据画面逻辑生成Python代码或前端原型。
消息一出,X上也沸腾了。有网友评价:
这是一次巨大的飞跃!完全改变了用户与AI的交互方式。

老规矩,一波实测走起~
一手实测Qwen3.5-Omni
音视频拆解和分析
先来考考Qwen3.5-Omni引以为傲的视频拆解能力。
我给它上传了无字幕版的《疯狂动物城2》的预告片,让它分析视频,并生成详细的视频的脚本。
要知道,预告片在视频理解领域并不好处理。它节奏紧凑、镜头密集,画面之间没有明确的逻辑关系,出场人物还非常多。
但这对Qwen3.5-Omni来说不在话下,大概几秒左右,它就给我生成了一个带时间戳的详细脚本。
可以看到,不仅拆解了分镜和画面,还分析了字幕、特效、音乐、蒙太奇手法等等,每一个出场的人物也都没落下。
接下来进一步增加难度,继续追问:
37秒左右出场的人物是谁?他们在干什么?
这也难不倒它,几秒钟就给出了答案,并且完全正确。答案就是尼克、朱迪和蓝蛇盖瑞,它还附带分析了音效和氛围。
不过,我还想让它进一步评价一下这支预告片,分析其节奏和手法,以及传递了怎样的思想感情。
这回它也是很快给出了答案,不仅详细分析了“快—慢—爆—收”的波浪式结构,而且还在没有对话和字幕的情况下,解读出了预告片中的种种隐喻。
这…这不就是活脱脱一个拉片小能手吗!
看视频做网页
接下来,我迫不及待要试一下Qwen3.5-Omni最大的亮点——边打视频边vibe coding。
在Qwen Chat里打开视频通话功能,它可以看到你摄像头呈现的画面,还能一边跟你对话,就像跟真人开视频会议一样。
我让它根据我画的前端草图,做一个关于Geoffery Hinton的网页:
不知道有没有uu体会出来,对面的AI小姐姐说话也是很有感情的,语气、停顿、轻笑等等,都和真人很相似。
它领了任务之后,很快就帮我生成了HTML+CSS代码,并给出了网页预览,前后不过十多秒钟。
一起来看看它给出的结果吧~
嗯……整体效果还是可以的,确实按照我画的草图来设计了前端界面。
由于模型原生支持WebSearch和复杂FunctionCall的调用能力,这里它也是调用了WebSearch来帮我填充内容。
美中不足的是没有填充图片,以及内容还是比较简单了。不过视频通话加上vibe coding这一连串下来,给人感觉还是挺惊艳的。
实时对话解读论文
不止如此,Qwen3.5-Omni还可以一边跟你打视频,一边解读论文。
不知道有没有uu跟我一样,觉得AI领域的论文实在太难读了!!
不仅全英文,各类图表、公式也很多,艰深术语满天飞,真的很难在没有AI辅助的情况下啃明白。
现在有了Qwen3.5-Omni,也不需要把文章内容复制给AI了,直接打开摄像头让它“看”,它就能给我讲明白。
我们打开Yann LeCun团队发的世界模型新论文——LeWorldModel,让它来试一试:
可以看到,Qwen3.5-Omni根据实时看到的画面,直接用大白话告诉我LeWorldModel是个啥东西,跟以往的方法有何不同,创新之处在哪里。
中间我直接打断了它的讲述,问它其中一张图讲了什么,它也会立刻切换节奏回答我。
这也是Qwen3.5-Omni这次的一大更新:支持语义打断。
但它非常智能的一点是,不会被附和或无意义的背景音打断。可以听到我中间是有一些开门关门的杂音的,它也没有受干扰,仍然在解读论文。
咱就是说,以后读学术论文更友好了有木有!
不用再对着满屏冷冰冰的术语头疼了,有了AI视频通话给你讲论文,可以随时打断或切换重点,情绪价值也能拉满~
215项SOTA,打平Gemini 3.1-Pro
接下来详细唠唠Qwen3.5-Omni在benchmark上的表现。
可以说相当亮眼,Qwen3.5-Omni-Plus足足拿下了215项SOTA,跟Gemini 3.1-Pro那是打得有来有回。
在通用音频理解、推理、识别、翻译、对话等指标上,都全面超越了Gemini 3.1-Pro,音视频理解能力整体达到Gemini 3.1-Pro的水平。


视觉和文本能力方面,则与同尺寸Qwen3.5模型持平。


官方介绍,与上一代Qwen3-Omni相比,Qwen3.5-Omni在长上下文、多语言、音视频理解能力上都有明显提升。
同时新增了语义打断、音色克隆、语音控制等实时交互能力,让对话体验更接近真人。
配合ARIA(自适应速率交错对齐)技术,语音输出的稳定性和自然度也进一步改善。
模型架构:会思考+会说话
那么,Qwen3.5-Omni是怎么做到“边看边想边输出”的呢?
答案在模型架构上。Qwen3.5-Omni延续了Thinker-Talker架构,可以理解成一个“会思考+会说话”的双系统结构:
Thinker(大脑):负责理解一切输入;
Talker(嘴巴):负责把结果说出来。

并且这一次,两者都升级为Hybrid-Attention MoE,效率和性能均有显著提升。
Thinker可以同时处理图像、声音、文本这些不同类型的信息。
模型会把音频和视频“混在一起”输入(就像一边看一边听),再用一种特殊的位置编码方式去理解它们之间的时间关系。
最终,Thinker把所有多模态信息“想明白”,并输出成文本。
Talker更像一个“AI配音演员”,它会根据Thinker给出的内容,把文本变成自然的语音。
这里有几个关键升级:第一,语音生成更轻量、更高效。这一代没有再用计算量很大的生成方式,而是换成了一种类似“语音压缩编码”的方法(RVQ)。
可以理解为不再是现场“逐帧渲染声音”,而是用更高效的“拼装声音单元”的方式生成语音。好处就是更快、更省算力。
第二,解决“AI说话不稳定”的老问题。
以前模型在说话时,经常出现漏读、读错、数字发音奇怪等问题,原因在于文本和语音的编码节奏不一样,可以理解为一个说得快,一个说得慢。
Qwen3.5-Omni引入了一个机制——ARIA(自适应速率交错对齐技术),本质就是动态对齐文本和语音的节奏,再交错组合输出。
可以做到说话更稳、更清晰,基本不会“嘴瓢”。
第三,真正做到“实时对话”。
Qwen3.5-Omni通过一套“边输入、边处理、边生成”的流式设计:你还没说完,模型已经在理解;它还没想完,就已经开始说。
这样就可以做到像真人一样实时对话,而不是“说一句等三秒”。
这也是为啥有时跟Qwen3.5-Omni对话,会感觉它在抢话,或者你刚说几个字,它就迫不及待接话了。

目前,新模型在Qwen Chat上就可以体验,你也可以通过阿里云百炼搜索Qwen3.5-Omni调用API。注意如果想体验视频通话,需要在手机网页端的Qwen Chat上使用~
地址已经附在下方,uu们快去试试吧~
Qwen Chat:
https://chat.qwen.ai/
API 离线:
https://help.aliyun.com/zh/model-studio/qwen-omni
API 实时:
https://help.aliyun.com/zh/mode
- “杭州六小龙”第一股来了!浙大校友创业,年入8亿冲刺IPO2026-03-30
- 美国开源AI最后的旗帜,也倒了2026-03-30
- 杨植麟当主持人的大模型圆桌:张鹏罗福莉夏立雪都放开说了2026-03-27
- LeCun的世界模型单GPU就能跑了2026-03-24




