4月2日,智谱(02513.HK)正式发布面向视觉编程场景的多模态 Coding 基座模型——GLM-5V-Turbo,为开发者带来了一种全新的“看图写代码”工作方式。
与传统只依赖文本输入的编程模式不同,GLM-5V-Turbo从预训练阶段起,就将视觉与文本能力深度融合在一起。这意味着,模型不仅能理解自然语言描述,还能“读懂”设计稿、产品原型截图、网页界面等各类视觉素材,并在此基础上自动生成完整、可运行的代码。
在具体使用中,开发者可以将一张网页设计稿、一段后台管理界面的截图,甚至是一整套交互原型图导入给GLM-5V-Turbo。模型会先对页面结构进行“拆解”:识别出导航栏、按钮、输入框、列表、图表等组件所在位置和层级关系,再结合开发者用文字补充的需求说明(如技术栈、适配终端、风格偏好),生成对应的前端或后端代码。例如:
- 前端工程师上传电商首页的UI设计稿,并补充说明“使用React和TypeScript,实现响应式布局,兼容移动端”,模型即可输出包含组件拆分、路由结构和基础样式的项目代码骨架;
- 后端工程师提交一张订单管理后台页面的截图,要求“使用Python和FastAPI,实现列表分页与筛选功能”,模型会根据页面字段自动推断数据结构,并生成相应的接口与示例数据。
这些流程过去需要设计师、前端、后端多轮沟通和手工实现,如今通过GLM-5V-Turbo可以在一个模型中打通,大幅缩短从设计到落地的周期。
在处理复杂场景时,GLM-5V-Turbo也展现出对细节的把握能力。例如,当设计稿中存在多种状态按钮(禁用、悬停、高亮)时,模型不仅能识别不同状态在视觉上的细微差异,还能自动生成对应的样式代码和交互逻辑;面对数据密集的管理页面,它能根据表格字段推断可能的筛选条件和排序规则,提前在代码中预留接口和参数,减少后期反复修改。
得益于多模态预训练,GLM-5V-Turbo更加贴近真实研发流程:它可以像一位既懂设计又懂编码的“全栈助手”,在阅读视觉稿的同时理解产品意图,将界面布局、交互节奏和技术实现统一考虑,让“看得懂画面、写得出代码”不再停留在概念层面,而成为开发团队可以日常依赖的基础能力。