2026年6月24日星期三

OpenAI 内测“双向语音”Bidi 1:让 ChatGPT 边听边说边做,挑战回合制交互

2026年6月23日,关于 OpenAI 为 ChatGPT 语音模式带来关键升级的传闻再起。社交平台流传的一段内部测试视频显示,OpenAI 正在试验一款尚未发布的双向语音模型,代号为 “Bidi 1”。 “Bidi”即 bidirectional(双向)。与传统语音助手像“对讲机”一样的单向回合交互不同,视频里展示...

2026年6月23日,关于 OpenAI 为 ChatGPT 语音模式带来关键升级的传闻再起。社交平台流传的一段内部测试视频显示,OpenAI 正在试验一款尚未发布的双向语音模型,代号为 “Bidi 1”。

“Bidi”即 bidirectional(双向)。与传统语音助手像“对讲机”一样的单向回合交互不同,视频里展示的 Bidi 1 试图在“听、说、理解、执行”之间实现真正的并发。画面中,工程师发出一连串重叠指令:一边让系统朗读新闻摘要,一边插入日程变更请求,模型在不中断朗读的情况下给出简短反馈并同时开始执行后台任务——这正是团队希望实现的全双工对话体验。

在实验室的测试流程被摄入镜头。测试负责人站在控制台前,手势利落,语气既坚定又细致。他指挥团队按照预设脚本逐项验证延迟、误识率与中断恢复能力:先通过标准语料进行基线测量,再故意加入杂音、重叠讲话和突发插话,记录模型在不同场景下的响应时间和置信度。每完成一轮,团队便围成圈,用标签化日志回溯错误链,现场快速调整阈值或模型模块参数。

为了让读者更直观地感受调度与并发处理的复杂性,测试团队把检验步骤标准化为明确工序:

  • 场景构建:设计新闻朗读、日程管理、即时问答等多任务并发脚本。
  • 低延迟链路测试:测量从麦克风输入到生成语音的端到端延时,目标在百毫秒级。
  • 干扰注入:加入背景噪声、多个说话者、回声等,检验语音活动检测(VAD)与回声消除的鲁棒性。
  • 优先级策略:定义“中断优先级”,让紧急指令能够中止或插入正在进行的输出。
  • 人工回溯与标注:错误样本被立刻打回标注组,用于下一轮微调。

视频还展示了几次紧急应对的模拟演练:一次模拟电话中途传入“取消会议并发送紧急邮件”的指令,Bidi 1 在不中断原有语音流的情况下,先用一句短促的语音确认接收,然后在后台调用邮件发送接口执行任务,并在任务完成后汇报结果。另一次场景中,当多人同时插话产生语音冲突,系统通过置信度打分和优先级策略选出主流指令并提示其他说话者稍候,减小误操作风险。

领导人物的描写在现场尤其鲜明。测试负责人在一次关键缺陷复现失败后,没有急躁,而是带着“拆解问题”的专业冷静,将团队分为两组:一组回溯音频前端链路,检查麦克风、回声消除与采样同步;另一组追踪模型内部的对齐与意图判定模块。经过两小时的逐步排查,团队通过调整语音活动检测阈值与补偿延迟策略使系统在重叠讲话场景下恢复稳定。负责人在汇报时简短却有感染力地总结:“我们需要的是容错,而不是完美的瞬间表现。”

作为对传统“对讲机式”交互的技术对比,Bidi 1 更像是把全双工无线电与智能助手结合:它不仅要保证同时收发语音的物理链路稳健,还要在语义层面实现并行任务管理。工程师们在测试白板上列出关键技术点:低延迟流式 ASR、可中断的流式 TTS、动态优先级队列、实时意图识别与回溯日志系统。面对复杂场景,团队采用 A/B 测试与人类在环(human-in-the-loop)评估,逐步找到既不打断用户表达又能及时响应指令的平衡点。

目前这些画面仅来自流传的视频,Bidi 1 仍处于内部试验阶段。OpenAI 是否以及何时将把这类双向语音能力推向公众产品,还没有官方时间表。无论如何,这一方向预示着语音交互从“回合制”走向“并发协作”的可能路径,带来对实时处理、优先级调度与鲁棒性的新挑战。