< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400">

开卷视觉编程！GLM-5V-Turbo上线，一张草图搞定前端

听雨 2026-04-02 14:28:33 来源：量子位

以后改用Vision Coding

听雨发自凹非寺

量子位 | 公众号 QbitAI

国产大模型，开卷视觉编程，主打一个AI看着草图就能vibe coding。

前脚千问刚发完Qwen3.5-Omni，后脚智谱就上新了多模态Coding基座模型——GLM-5V-Turbo。

给它一个链接，它能直接复刻整个网页前端，还是能理解页面结构和背后交互逻辑的内种：

或者给它一个草图、设计稿或者网站截图，它也能立刻生成完整可运行的前端工程，还准确还原版式和配色：

这波产品经理狂喜，完全可以自己零门槛做出demo，再拿去跟开发讨论。

要不Vibe Coding换个词，以后改叫Vision Coding？（doge）

GLM-5V-Turbo还让龙虾长出了眼睛，可以解读复杂图表。

配合AutoClaw已上线的“股票分析师”Skill，龙虾能直接看懂K线走势、估值区间图和券商研报图表，还能生成图文并茂的报告。

跑分上，GLM-5V-Turbo也是表现突出，在多模态Coding、Agentic任务以及纯文本Coding上都实现了对Claude Opus 4.6的超越。

在设计稿还原、视觉代码生成、多模态检索与问答、视觉探查等基准上，GLM-5V-Turbo都相当领先。

而在衡量真实GUI环境操控能力的AndroidWorld、WebVoyager等基准上，同样表现突出。

在纯文本Coding能力方面，GLM-5V-Turbo的表现同样保持稳定。这说明视觉能力引入后，纯文本编程与推理能力保持了同等水准。

重点是，价格也很可观。

也难怪有网友锐评：Claude Code的时代结束了。

一张草图画出前端

话不多说，上一手实测。

先来考考GLM-5V-Turbo的Vision Coding能力：给它一张草图，让它画出产品前端。

图，是真的随手画的，非常简单。不过看不懂没关系，我们再加上提示词：

根据草图设计一个音乐播放器的前端界面，左侧是音乐播放页面，右侧是好歌推荐和音乐播放列表，深色背景，古典风格。

GLM-5V-Turbo的反应很快，大概十几秒的时间，它已经给我写出了HTML和CSS代码。

在vision coding的过程中，你也可以不断与它交互，让它按你的要求修改。比如一开始它做出的效果我不太满意，又让它修改了两三次。

最后得到了这样一个前端页面：

左侧是音乐播放器，点击“播放”键会有唱片播放或停止的效果，左右也可以切歌。

右侧上方是好歌推荐，下方是播放列表，和我画的草图基本一致。

点击播放列表的每一首歌，左侧的播放页面也会相应切换，基本的交互功能已经有了，页面色调和风格也比较符合提示词要求。

美中不足的是，左下角不起眼的“顺序/随机”播放按钮，点击后不会真的按照逻辑切歌，还处于摆设的状态。

接下来如果想优化，可以进一步给模型提需求。

我们再来看看另一个case——让GLM-5V-Turbo解读论文。

这是一篇来自马萨诸塞大学的经济学实证研究论文，里面复杂的公式和图表很多。

但是GLM-5V-Turbo的优势就在于——可视化。

它直接帮我们拆解了整篇论文的结构，把核心发现、主要结论和相应图表都提炼了出来，还生成了一个图文并茂的报告。

这对于外行来说太友好了，扫一眼就能大概看懂这篇研究在做什么，每个图表对应的含义是怎样的。

转念一想，这其实也相当于另一个形式的ppt？学生党做论文pre都可以直接拿来用了。

给龙虾安上“眼睛”

智谱这次还特别拓展了龙虾的任务边界，给自家澳龙安上了“眼睛”。

在AutoClaw中选择GLM-5V-Turbo模型，你就可以让它浏览网页和文档，做报告和PPT，还可以解读复杂图表。

澳龙已经上线了“股票分析师”skill，完美适配GLM-5V-Turbo解读复杂图表的能力。

我在飞书上给它截图了一张英伟达股票图，让它帮我分析一下。

没过多久，它就给我生成了一份图文并茂的分析报告：

整体内容还是挺详细的，还给出了基本面分析和操作建议，简单作为一个参考是足够了的。

这么强，咋做到的？

据官方介绍，GLM-5V-Turbo在模型架构、训练方法、数据构造、工具链四个层面都做了升级：

第一，原生多模态融合。

GLM-5V-Turbo从预训练阶段就把文本和图像能力一起训练，后面再通过进一步优化，让两者配合更默契。

同时，他们做了一个新的视觉编码器（CogViT），在识别物体、理解细节、空间关系这些能力上都更强。

再加上一个更适合多模态推理的结构（MTP），整体推理效率也更高。

第二，30+ 任务协同强化学习。

在强化学习阶段，模型同时训练了30多个任务，覆盖STEM推理、图像定位（grounding）、视频理解、GUI操作等多个方向。

这样带来的好处是：模型不只是某一项能力强，而是感知、推理、执行整体更均衡，也更稳定，避免了只在单一领域“偏科”。

第三，专门为Agent能力设计数据。

Agent最大的难点是：数据少、而且很难验证对不对。

智谱的做法是：

搭了一套从“看懂元素”到“预测一连串动作”的训练体系；
用合成环境大规模生成可控、可验证的数据；
甚至在预训练阶段就提前加入Agent相关能力（比如GUI操作数据），减少模型幻觉。

另外，还用了类似“以评估反推能力”的方法，用多模态任务去倒逼模型变得更像一个能干活的Agent。

第四，把工具链从“纯文本”升级到“能看能操作”。

除了原有的文本工具，GLM-5V-Turbo新增支持多模态搜索、画框、截图、读网页等多模态tools。

这意味着模型能真正做到一整套闭环：看懂环境 → 规划步骤 → 动手执行。

而且它和Claude Code、AutoClaw这些工具的配合也更好了，整体更接近一个能实际完成任务的智能体。

目前，新模型在Z.ai和AutoClaw上都可以体验，也支持API调用，感兴趣的朋友快去试试吧~

体验地址：
AutoClaw（澳龙）：https://autoglm.zhipuai.cn/autoclaw/
Z.ai：https://chat.z.ai
API接入：https://docs.bigmodel.cn/cn/guide/models/vlm/glm-5v-turbo

AI AIGC 人工智能多模态大模型智谱

听雨

开卷视觉编程！GLM-5V-Turbo上线，一张草图搞定前端

一张草图画出前端

给龙虾安上“眼睛”

这么强，咋做到的？

相关阅读

全国首个金融大模型成绩单：服务超2亿用户8大应用场景

Diffusion Model一发力，GAN就过时了？？？

刷屏的SBTI，底层算法有点东西…

UCLA知名教授朱松纯被曝回国任教清华：加盟自动化系，是AI视觉领域泰斗级学者

Linux内核维护者崩溃了！AI每天狂塞10份漏洞报告，想摸会鱼都难

都在卷大模型底座，云计算一哥决定给底座造底座

热门文章

做AI漫剧的、搞Agent的、投硅谷的，5.20这些赛道顶流碰头了｜最新嘉宾阵容

AI步入“自我进化”时代，李彦宏首提AI时代度量衡“DAA”｜Create2026百度AI开发者⼤会速览

硅谷刷屏的AI护城河新论：代码能抄，产品能抄，但有一样东西，谁都抄不走

华为云创想者大会主题论坛议程公布：释放Agentic AI新布局

商汤善惠烧卖购机器人小店上海“开业”，让机器人真正落地线下零售