智谱发布GLM-5V-Turbo：从“看图”到“写代码”的多模态视觉编程基座模型

4月2日，智谱（02513.HK）正式发布面向视觉编程场景的多模态 Coding 基座模型——GLM-5V-Turbo，为开发者带来了一种全新的“看图写代码”工作方式。

与传统只依赖文本输入的编程模式不同，GLM-5V-Turbo从预训练阶段起，就将视觉与文本能力深度融合在一起。这意味着，模型不仅能理解自然语言描述，还能“读懂”设计稿、产品原型截图、网页界面等各类视觉素材，并在此基础上自动生成完整、可运行的代码。

在具体使用中，开发者可以将一张网页设计稿、一段后台管理界面的截图，甚至是一整套交互原型图导入给GLM-5V-Turbo。模型会先对页面结构进行“拆解”：识别出导航栏、按钮、输入框、列表、图表等组件所在位置和层级关系，再结合开发者用文字补充的需求说明（如技术栈、适配终端、风格偏好），生成对应的前端或后端代码。例如：

前端工程师上传电商首页的UI设计稿，并补充说明“使用React和TypeScript，实现响应式布局，兼容移动端”，模型即可输出包含组件拆分、路由结构和基础样式的项目代码骨架；
后端工程师提交一张订单管理后台页面的截图，要求“使用Python和FastAPI，实现列表分页与筛选功能”，模型会根据页面字段自动推断数据结构，并生成相应的接口与示例数据。

这些流程过去需要设计师、前端、后端多轮沟通和手工实现，如今通过GLM-5V-Turbo可以在一个模型中打通，大幅缩短从设计到落地的周期。

在处理复杂场景时，GLM-5V-Turbo也展现出对细节的把握能力。例如，当设计稿中存在多种状态按钮（禁用、悬停、高亮）时，模型不仅能识别不同状态在视觉上的细微差异，还能自动生成对应的样式代码和交互逻辑；面对数据密集的管理页面，它能根据表格字段推断可能的筛选条件和排序规则，提前在代码中预留接口和参数，减少后期反复修改。

得益于多模态预训练，GLM-5V-Turbo更加贴近真实研发流程：它可以像一位既懂设计又懂编码的“全栈助手”，在阅读视觉稿的同时理解产品意图，将界面布局、交互节奏和技术实现统一考虑，让“看得懂画面、写得出代码”不再停留在概念层面，而成为开发团队可以日常依赖的基础能力。