开卷视觉编程!GLM-5V-Turbo上线,一张草图搞定前端
以后改用Vision Coding
听雨 发自 凹非寺
量子位 | 公众号 QbitAI
国产大模型,开卷视觉编程,主打一个AI看着草图就能vibe coding。
前脚千问刚发完Qwen3.5-Omni,后脚智谱就上新了多模态Coding基座模型——GLM-5V-Turbo。
给它一个链接,它能直接复刻整个网页前端,还是能理解页面结构和背后交互逻辑的内种:

或者给它一个草图、设计稿或者网站截图,它也能立刻生成完整可运行的前端工程,还准确还原版式和配色:

这波产品经理狂喜,完全可以自己零门槛做出demo,再拿去跟开发讨论。
要不Vibe Coding换个词,以后改叫Vision Coding?(doge)
GLM-5V-Turbo还让龙虾长出了眼睛,可以解读复杂图表。
配合AutoClaw已上线的“股票分析师”Skill,龙虾能直接看懂K线走势、估值区间图和券商研报图表,还能生成图文并茂的报告。
跑分上,GLM-5V-Turbo也是表现突出,在多模态Coding、Agentic任务以及纯文本Coding上都实现了对Claude Opus 4.6的超越。

在设计稿还原、视觉代码生成、多模态检索与问答、视觉探查等基准上,GLM-5V-Turbo都相当领先。
而在衡量真实GUI环境操控能力的AndroidWorld、WebVoyager等基准上,同样表现突出。

在纯文本Coding能力方面,GLM-5V-Turbo的表现同样保持稳定。这说明视觉能力引入后,纯文本编程与推理能力保持了同等水准。
重点是,价格也很可观。

也难怪有网友锐评:Claude Code的时代结束了。

一张草图画出前端
话不多说,上一手实测。
先来考考GLM-5V-Turbo的Vision Coding能力:给它一张草图,让它画出产品前端。

图,是真的随手画的,非常简单。不过看不懂没关系,我们再加上提示词:
根据草图设计一个音乐播放器的前端界面,左侧是音乐播放页面,右侧是好歌推荐和音乐播放列表,深色背景,古典风格。

GLM-5V-Turbo的反应很快,大概十几秒的时间,它已经给我写出了HTML和CSS代码。
在vision coding的过程中,你也可以不断与它交互,让它按你的要求修改。比如一开始它做出的效果我不太满意,又让它修改了两三次。

最后得到了这样一个前端页面:

左侧是音乐播放器,点击“播放”键会有唱片播放或停止的效果,左右也可以切歌。
右侧上方是好歌推荐,下方是播放列表,和我画的草图基本一致。
点击播放列表的每一首歌,左侧的播放页面也会相应切换,基本的交互功能已经有了,页面色调和风格也比较符合提示词要求。
美中不足的是,左下角不起眼的“顺序/随机”播放按钮,点击后不会真的按照逻辑切歌,还处于摆设的状态。
接下来如果想优化,可以进一步给模型提需求。
我们再来看看另一个case——让GLM-5V-Turbo解读论文。

这是一篇来自马萨诸塞大学的经济学实证研究论文,里面复杂的公式和图表很多。
但是GLM-5V-Turbo的优势就在于——可视化。
它直接帮我们拆解了整篇论文的结构,把核心发现、主要结论和相应图表都提炼了出来,还生成了一个图文并茂的报告。

这对于外行来说太友好了,扫一眼就能大概看懂这篇研究在做什么,每个图表对应的含义是怎样的。
转念一想,这其实也相当于另一个形式的ppt?学生党做论文pre都可以直接拿来用了。
给龙虾安上“眼睛”
智谱这次还特别拓展了龙虾的任务边界,给自家澳龙安上了“眼睛”。
在AutoClaw中选择GLM-5V-Turbo模型,你就可以让它浏览网页和文档,做报告和PPT,还可以解读复杂图表。
澳龙已经上线了“股票分析师”skill,完美适配GLM-5V-Turbo解读复杂图表的能力。
我在飞书上给它截图了一张英伟达股票图,让它帮我分析一下。

没过多久,它就给我生成了一份图文并茂的分析报告:
整体内容还是挺详细的,还给出了基本面分析和操作建议,简单作为一个参考是足够了的。
这么强,咋做到的?
据官方介绍,GLM-5V-Turbo在模型架构、训练方法、数据构造、工具链四个层面都做了升级:
第一,原生多模态融合。
GLM-5V-Turbo从预训练阶段就把文本和图像能力一起训练,后面再通过进一步优化,让两者配合更默契。
同时,他们做了一个新的视觉编码器(CogViT),在识别物体、理解细节、空间关系这些能力上都更强。
再加上一个更适合多模态推理的结构(MTP),整体推理效率也更高。
第二,30+ 任务协同强化学习。
在强化学习阶段,模型同时训练了30多个任务,覆盖STEM推理、图像定位(grounding)、视频理解、GUI操作等多个方向。
这样带来的好处是:模型不只是某一项能力强,而是感知、推理、执行整体更均衡,也更稳定,避免了只在单一领域“偏科”。
第三,专门为Agent能力设计数据。
Agent最大的难点是:数据少、而且很难验证对不对。
智谱的做法是:
- 搭了一套从“看懂元素”到“预测一连串动作”的训练体系;
- 用合成环境大规模生成可控、可验证的数据;
- 甚至在预训练阶段就提前加入Agent相关能力(比如GUI操作数据),减少模型幻觉。
另外,还用了类似“以评估反推能力”的方法,用多模态任务去倒逼模型变得更像一个能干活的Agent。
第四,把工具链从“纯文本”升级到“能看能操作”。
除了原有的文本工具,GLM-5V-Turbo新增支持多模态搜索、画框、截图、读网页等多模态tools。
这意味着模型能真正做到一整套闭环:看懂环境 → 规划步骤 → 动手执行。
而且它和Claude Code、AutoClaw这些工具的配合也更好了,整体更接近一个能实际完成任务的智能体。
目前,新模型在Z.ai和AutoClaw上都可以体验,也支持API调用,感兴趣的朋友快去试试吧~
体验地址:
AutoClaw(澳龙):https://autoglm.zhipuai.cn/autoclaw/
Z.ai:https://chat.z.ai
API接入:https://docs.bigmodel.cn/cn/guide/models/vlm/glm-5v-turbo
- 再融20亿!星海图把具身智能头部门槛抬到了200亿2026-04-02
- 实测拿215项SOTA的Qwen3.5-Omni:摄像头一开,AI给我现场讲论文、撸代码2026-03-31
- “杭州六小龙”第一股来了!浙大校友创业,年入8亿冲刺IPO2026-03-30
- 美国开源AI最后的旗帜,也倒了2026-03-30





