字节跳动推出原生全双工语音大模型Seeduplex，豆包终于学会“边听边说”了！

大家好，我是企小脉。

今天要给大家讲一个关于“闭嘴”和“抢话”的故事。别误会，不是在说办公室开会——虽然字节跳动的老板张一鸣当年确实在游戏群里抓过摸鱼员工，那句“一大早到现在就在群里聊天的同学是今天工作很闲吗”至今仍是互联网名场面。那个群里据说沉默了整整十分钟，气氛一度十分尴尬。

而今天，字节跳动旗下AI研究团队Seed发布的新语音模型，完美解决了“不知道什么时候该闭嘴”的问题——只不过这次的主角不是程序员，是豆包。

字节跳动推出原生全双工语音大模型Seeduplex，豆包终于学会“边听边说”了！

2026年4月9日，字节跳动正式推出原生全双工语音大模型Seeduplex，并同步在豆包App全量上线。注意，是全量上线，不是内测，不是灰度，不是“敬请期待”。上亿豆包用户打开App的那一秒，就能直接体验到一种前所未有的感觉——AI不再是那个等你按一下、说一句、再回一句的乖学生了。它变成了一个会边听边说、会等你思考、会被你打断、还能听懂你咖啡馆里在聊什么的“对话搭子”。

一、先聊点人间真实：你被AI“抢过话”吗？

来，做个心灵拷问——

你有没有遇到过这种场景：深夜emo，想跟AI语音助手倾诉一下人生的意义，刚说到“我最近觉得有点……”话音未落，AI热情洋溢地插嘴：“有点什么？我可以帮您规划一下日程哦！”瞬间破防。

或者，你在练英语口语，磕磕绊绊说了句“I think the most important thing is… um… let me see… actually…”，AI在你每一个“um”和“uh”后面都迫不及待地想接话，搞得你跟一个语速过快的外教在玩抢答游戏。

更经典的是你在开车，车里导航在播报“前方500米右转”，广播里主持人在聊八卦，你随口问AI“这条路堵不堵”，结果它被导航播报带跑，开始跟你播报路况信息——“您已偏航，正在重新规划路线”。

这不是AI智障，这是半双工的锅。

什么叫半双工？对讲机你用过吧——同一时刻只能一个人说话，你按住按钮说，说完松开按钮对方才能开口。豆包以前的语音模型就是这个逻辑。判断你“说完了”的那个模块叫VAD（语音活动检测），它只看你有没有发出声音，完全不懂你在说什么。你停两秒想词，它判定你说完了；旁边有人咳嗽，它判定你开口了。结果就是各种抢话、误判停、误触发、打断无响应——四个词，字字戳心。

二、从“对讲机”到“打电话”：Seeduplex到底牛在哪？

Seeduplex的突破可以用一句话概括：把AI语音从半双工（对讲机模式）升级为全双工（打电话模式）。

怎么理解？打电话的时候，你跟对方可以同时说话、同时听。对方说到一半你“嗯”一声表示在听，你思考的时候对方不会抢话，你说“等一下”对方立刻闭嘴。这套交互逻辑——字节把它做进了AI里。

Seeduplex采用原生音频全双工架构，使模型在输出语音的同时持续处理麦克风输入，实时区分用户语音、背景噪声与思考停顿，不再依赖独立VAD模块进行机械式音频分割。声学特征和语义上下文统一交由同一个LLM决策。简单说，它不再是“你先说，我听完再想”，而是“我一边听你说话，一边就在准备回复，同时还能判断你是真的说完了还是在思考”。

技术指标不会骗人。相比半双工方案，判停延迟降低约250ms，复杂场景下AI抢话比例减少40%，用户想打断时的响应延迟缩短约300ms，复杂声学干扰场景下误回复率和误打断率降低一半。判停MOS分提高了8%，对话流畅度MOS分提升了12%。大规模A/B测试显示，搭载Seeduplex后，用户整体通话满意度绝对值提升了8.34%，通话时长、用户留存等核心指标同步改善。

更让人惊喜的是，在真人对话测试中，Seeduplex在判停准确率上优于半双工方案，在响应打断能力上甚至略超人人对话的平均水平——因为真实对话里，人也会偶尔反应慢。

三、几个场景告诉你，Seeduplex有多“会做人”

技术指标堆多了容易让人打瞌睡，咱们上点实景体验。

场景一：咖啡馆里聊行程

假设你走进一家嘈杂的咖啡馆，打算跟豆包讨论周末去哪玩。背景里邻桌大叔在讲电话、服务员的报单声此起彼伏、咖啡机嗡嗡作响。聊到一半，你转头对前台说：“你好，我要一杯拿铁，不加糖。”在过去，任何一个语音助手听到这句，大概率会当场卡壳，或者把这句话当成新指令一本正经地执行。

Seeduplex的豆包呢？它只是安静地停了一下，等你点完咖啡，然后顺着刚才的话题继续往下接，仿佛中间那段嘈杂从未发生过。它不是在单纯“降噪”，而是在持续聆听的同时，判断谁在对它说话、哪句话是主线交互、哪句话只是环境声。这是声学降噪和“交互意图识别”之间的本质区别。

场景二：英文面试模拟，我故意卡壳了5秒

让豆包扮演外企面试官，问“Why do you apply for this position”。你回答到一半开始卡壳：“I'm a great fit because… um… Let me think… actually…”这要是换做以前的语音模型，早在每一次“um/uh”之后火急火燎地跳出来接话。但Seeduplex学会了——真正的人类面试官知道，你不是说完了，你只是在想。它等你把完整的意思说出来，再给反馈。

场景三：开车时，广播、导航、人声混在一起

你在车里，广播在播新闻，导航在说“前方300米右转”，你顺口问AI“这条路堵不堵”。Seeduplex能从混杂的声音里分辨出哪句是你说的，直接回答，而不是被导航播报带跑。朋友敲门打招呼，快递员敲门，AI也能判断出这些话不是对它说的，不会插进来乱回。

这几个场景有一个共同点：你不再需要专门腾出时间、找安静角落、说完整句子。对话嵌进了日常活动，而不是日常活动为对话让路。

还有一个特别有意思的突破：Seeduplex首次实现了AI在用户说话间隙给出“嗯”“好的”等即时反馈信号，以及对“等一下”等打断意图的语义级理解与即时中止。这意味着，你的AI不再是一个闷头说完一整段话的“复读机”，它开始有了人类对话里那种自然的互动节奏感。

四、落地才是硬道理：Seeduplex凭什么是“全双工之王”？

说实话，全双工语音技术不是字节首创。法国Kyutai的Moshi、NVIDIA的PersonaPlex都属于这个方向。但关键区别在于——这些模型大多还停留在学术实验室里，而Seeduplex是当前唯一在亿级用户产品中稳定落地的全双工语音模型。

从实验室到亿级用户，这中间的鸿沟大到你难以想象。字节跳动在落地过程中需要解决高并发下的延迟抖动、音频输入输出卡顿及服务稳定性等工程难题，这些问题在学术环境中压根不会被覆盖。

目前，用户只需将豆包App更新至最新版本，在对话框内选择“打电话”，进入语音通话界面即可体验。注意，需要选择“桃子音色”——虽然不知道是不是因为桃子比较会聊天。

字节方面也坦诚地承认，Seeduplex尚未解决多方对话、视觉-语音协同、边听边搜索等更深层的交互挑战。它的定位是“全双工语音演进路径中的关键节点，而非终点”。未来，团队计划在“边听边说”的基础上引入模型主动能力，探索“边听边想”“边听边搜”，并引入视觉模态实现更深度的多模态融合——让Seeduplex“在感知、交互与行动的闭环中，真正实现听、看、想、说、做的协同”。