2026年6月23日,社交平台流传的一段内部测试视频显示,OpenAI 正在试验一款尚未公开发布的双向语音模型,代号为“Bidi 1”。
“Bidi”来自 bidirectional,意即“双向”。与现有语音交互的“回合制”模式不同,Bidi 1 的目标不是单纯让声音更自然,而是让 ChatGPT 真正做到边听、边说、边理解,甚至边执行任务——把语音助手从像对讲机一样的半双工通信,升级为能同时感知和响应的全双工智能对话者。
当前大多数语音助手的工作流程像一台对讲机:用户按键或发话,系统在你说完后才开始处理并回答。中途插话往往导致系统要么听不见、要么被打断后重新开始,交互显得僵硬。Bidi 1 要解决的,正是这一根本性限制。
在内部测试现场,工程师们把这套系统拆成多个实时流式模块来打磨:持续的语音活动检测(VAD)首先确定说话片段,实时语音识别(ASR)把语音流增量转成文字,增量语义解析器不断更新当前意图,动作管理器根据中间结果决定是否执行或等待确认,而并行的 TTS 则可在局部确认上立即合成语音输出。为避免“你说完它不听”或“它抢着说”的尴尬,团队实现了回退与优先级机制——当检测到用户带有紧急指令或中断词时,系统会瞬时提升“听”的优先级,暂停正在播放的语音并把焦点回归到用户输入上。
测试流程很实际也很严苛:QA 团队会模拟打断场景、多人重叠讲话、嘈杂环境、回声与延迟网络,甚至故意在模型说话时插入修正命令,观察模型是否能正确停下、重评并执行新指令。每次失败都会进入问题追踪板,工程师以“最小可复现场景”为原则逐项排除。为了量化效果,团队建立了实时监控仪表盘,追踪关键指标:音频缓冲占用、ASR 增量延迟、决策调度时间和中断识别准确率等。
领导层在此过程中起到了关键作用。OpenAI 的研发负责人在指挥线上演示时显示出强烈的专业判断和冷静的决策力:当一个压力测试中模型在用户喊“停”时仍继续播报路线指示,负责人立即召集跨部门联动,要求短期内上线一个“听中断”配置开关;同时安排语音团队调整 VAD 灵敏度、对话策略组更新中断优先矩阵,并指示安全团队评估该变更对误触的影响。几轮小步迭代后,系统在同类场景中从“经常误响应”变为“几乎无缝中断并确认”,这既展示了领导的指挥力,也体现出团队对复杂系统微调的掌控能力。
团队还用具体实例来验证 Bidi 1 的实战价值。一次用于客户服务的模拟中,用户在下订单时插入一句“等一下,改成加急”,模型即时暂停合成的确认语,重新解析新意图,调整订单参数并用一句简短确认结束;在另一次机器人配送演示里,测试者在机器人行进口喊“别拐,向右”,Bidi 1 在接收中断命令的瞬间向下游动作管理器发出停止并重规划的命令,机器人当即刹停并改向,整个过程体现了从听到指令到执行动作的闭环速度与可靠性。
为进一步优化流程,团队建立了“中断类型→系统行为”映射表,把常见的打断(纠正、取消、紧急停止、补充说明)和对应的系统策略(立即停止并确认、缓存并延后、提升优先级重评等)标准化,并用仿真器反复验证。工程师们还专门搭建了带有回声与网络抖动的测试床,用来调优回声消除与延迟补偿算法,使得在现实环境下系统也能保持连贯交互。
Bidi 1 的想象空间,不只是更自然的声音,而是让语音交互变得更接近人类对话:你可以在半句里打断、补充或修改指令,系统能马上听见、重新理解并采取行动。这看起来简单,背后却是大量关于实时流处理、优先级调度、安全策略与工程协同的细致工作。Bidi 1 的内部测试呈现出这一转变的第一步:把“对讲机式”的回合交流,逐渐变成可以并行听说、即时响应的流式对话系统。
Bidi 1 想解决的,正是这个问题。