字节跳动推出原生全双工语音大模型Seeduplex,豆包终于学会“边听边说”了!

脉讯2小时前更新 微小脉
3 00

大家好,我是企小脉。

今天要给大家讲一个关于“闭嘴”和“抢话”的故事。别误会,不是在说办公室开会——虽然字节跳动的老板张一鸣当年确实在游戏群里抓过摸鱼员工,那句“一大早到现在就在群里聊天的同学是今天工作很闲吗”至今仍是互联网名场面。那个群里据说沉默了整整十分钟,气氛一度十分尴尬。

而今天,字节跳动旗下AI研究团队Seed发布的新语音模型,完美解决了“不知道什么时候该闭嘴”的问题——只不过这次的主角不是程序员,是豆包

字节跳动推出原生全双工语音大模型Seeduplex,豆包终于学会“边听边说”了!

2026年4月9日,字节跳动正式推出原生全双工语音大模型Seeduplex,并同步在豆包App全量上线。注意,是全量上线,不是内测,不是灰度,不是“敬请期待”。上亿豆包用户打开App的那一秒,就能直接体验到一种前所未有的感觉——AI不再是那个等你按一下、说一句、再回一句的乖学生了。它变成了一个会边听边说、会等你思考、会被你打断、还能听懂你咖啡馆里在聊什么的“对话搭子”。

一、先聊点人间真实:你被AI“抢过话”吗?

来,做个心灵拷问——

你有没有遇到过这种场景:深夜emo,想跟AI语音助手倾诉一下人生的意义,刚说到“我最近觉得有点……”话音未落,AI热情洋溢地插嘴:“有点什么?我可以帮您规划一下日程哦!”瞬间破防。

或者,你在练英语口语,磕磕绊绊说了句“I think the most important thing is… um… let me see… actually…”,AI在你每一个“um”和“uh”后面都迫不及待地想接话,搞得你跟一个语速过快的外教在玩抢答游戏。

更经典的是你在开车,车里导航在播报“前方500米右转”,广播里主持人在聊八卦,你随口问AI“这条路堵不堵”,结果它被导航播报带跑,开始跟你播报路况信息——“您已偏航,正在重新规划路线”。

这不是AI智障,这是半双工的锅。

什么叫半双工?对讲机你用过吧——同一时刻只能一个人说话,你按住按钮说,说完松开按钮对方才能开口。豆包以前的语音模型就是这个逻辑。判断你“说完了”的那个模块叫VAD(语音活动检测),它只看你有没有发出声音,完全不懂你在说什么。你停两秒想词,它判定你说完了;旁边有人咳嗽,它判定你开口了。结果就是各种抢话、误判停、误触发、打断无响应——四个词,字字戳心。

二、从“对讲机”到“打电话”:Seeduplex到底牛在哪?

Seeduplex的突破可以用一句话概括:把AI语音从半双工(对讲机模式)升级为全双工(打电话模式)

怎么理解?打电话的时候,你跟对方可以同时说话、同时听。对方说到一半你“嗯”一声表示在听,你思考的时候对方不会抢话,你说“等一下”对方立刻闭嘴。这套交互逻辑——字节把它做进了AI里。

Seeduplex采用原生音频全双工架构,使模型在输出语音的同时持续处理麦克风输入,实时区分用户语音、背景噪声与思考停顿,不再依赖独立VAD模块进行机械式音频分割。声学特征和语义上下文统一交由同一个LLM决策。简单说,它不再是“你先说,我听完再想”,而是“我一边听你说话,一边就在准备回复,同时还能判断你是真的说完了还是在思考”。

技术指标不会骗人。相比半双工方案,判停延迟降低约250ms,复杂场景下AI抢话比例减少40%,用户想打断时的响应延迟缩短约300ms,复杂声学干扰场景下误回复率和误打断率降低一半。判停MOS分提高了8%,对话流畅度MOS分提升了12%。大规模A/B测试显示,搭载Seeduplex后,用户整体通话满意度绝对值提升了8.34%,通话时长、用户留存等核心指标同步改善。

更让人惊喜的是,在真人对话测试中,Seeduplex在判停准确率上优于半双工方案,在响应打断能力上甚至略超人人对话的平均水平——因为真实对话里,人也会偶尔反应慢。

三、几个场景告诉你,Seeduplex有多“会做人”

字节跳动推出原生全双工语音大模型Seeduplex,豆包终于学会“边听边说”了!

技术指标堆多了容易让人打瞌睡,咱们上点实景体验。

场景一:咖啡馆里聊行程

假设你走进一家嘈杂的咖啡馆,打算跟豆包讨论周末去哪玩。背景里邻桌大叔在讲电话、服务员的报单声此起彼伏、咖啡机嗡嗡作响。聊到一半,你转头对前台说:“你好,我要一杯拿铁,不加糖。”在过去,任何一个语音助手听到这句,大概率会当场卡壳,或者把这句话当成新指令一本正经地执行。

Seeduplex的豆包呢?它只是安静地停了一下,等你点完咖啡,然后顺着刚才的话题继续往下接,仿佛中间那段嘈杂从未发生过。它不是在单纯“降噪”,而是在持续聆听的同时,判断谁在对它说话、哪句话是主线交互、哪句话只是环境声。这是声学降噪和“交互意图识别”之间的本质区别。

场景二:英文面试模拟,我故意卡壳了5秒

让豆包扮演外企面试官,问“Why do you apply for this position”。你回答到一半开始卡壳:“I'm a great fit because… um… Let me think… actually…”这要是换做以前的语音模型,早在每一次“um/uh”之后火急火燎地跳出来接话。但Seeduplex学会了——真正的人类面试官知道,你不是说完了,你只是在想。它等你把完整的意思说出来,再给反馈。

场景三:开车时,广播、导航、人声混在一起

你在车里,广播在播新闻,导航在说“前方300米右转”,你顺口问AI“这条路堵不堵”。Seeduplex能从混杂的声音里分辨出哪句是你说的,直接回答,而不是被导航播报带跑。朋友敲门打招呼,快递员敲门,AI也能判断出这些话不是对它说的,不会插进来乱回。

这几个场景有一个共同点:你不再需要专门腾出时间、找安静角落、说完整句子。对话嵌进了日常活动,而不是日常活动为对话让路。

还有一个特别有意思的突破:Seeduplex首次实现了AI在用户说话间隙给出“嗯”“好的”等即时反馈信号,以及对“等一下”等打断意图的语义级理解与即时中止。这意味着,你的AI不再是一个闷头说完一整段话的“复读机”,它开始有了人类对话里那种自然的互动节奏感。

四、落地才是硬道理:Seeduplex凭什么是“全双工之王”?

说实话,全双工语音技术不是字节首创。法国Kyutai的Moshi、NVIDIA的PersonaPlex都属于这个方向。但关键区别在于——这些模型大多还停留在学术实验室里,而Seeduplex是当前唯一在亿级用户产品中稳定落地的全双工语音模型

从实验室到亿级用户,这中间的鸿沟大到你难以想象。字节跳动在落地过程中需要解决高并发下的延迟抖动、音频输入输出卡顿及服务稳定性等工程难题,这些问题在学术环境中压根不会被覆盖。

目前,用户只需将豆包App更新至最新版本,在对话框内选择“打电话”,进入语音通话界面即可体验。注意,需要选择“桃子音色”——虽然不知道是不是因为桃子比较会聊天。

字节方面也坦诚地承认,Seeduplex尚未解决多方对话、视觉-语音协同、边听边搜索等更深层的交互挑战。它的定位是“全双工语音演进路径中的关键节点,而非终点”。未来,团队计划在“边听边说”的基础上引入模型主动能力,探索“边听边想”“边听边搜”,并引入视觉模态实现更深度的多模态融合——让Seeduplex“在感知、交互与行动的闭环中,真正实现听、看、想、说、做的协同”。

五、尾声:字节跳动的“人间清醒”

回看字节跳动的发家史,从今日头条到抖音,从TikTok到豆包,这家公司做产品的底层逻辑始终清晰——“用户是懒的,但需求是真的”。

张一鸣曾在年会上痛批互联网黑话,“打通底层逻辑”“对齐颗粒度”这些词被他当众朗读,毫不留情地讽刺了互联网“不讲人话”的风气。而今天,字节跳动用Seeduplex做了一件相反的事——让AI学会讲人话,更重要的是,学会“听”人话

字节跳动推出原生全双工语音大模型Seeduplex,豆包终于学会“边听边说”了!

不是每个AI都能学会闭嘴。但Seeduplex不仅学会了闭嘴,还学会了什么时候该说、什么时候该“嗯”、什么时候该等你。

在这个AI每天忙着“赋能”“颠覆”“重构”的时代,能有一个模型学会安安静静听你把话说完——这本身就是一种“人间清醒”。

快去更新你的豆包App,点开“打电话”,选桃子音色,跟它聊五块钱的。(Seeduplex 项目地址如下:https://seed.bytedance.com/seeduplex)

你会回来感谢我的。

——企小脉,一个每天都在跟AI吵架并终于可以不吵架了的那个最靓仔

© 版权声明

相关文章

秒哒,0代码一句话做应用

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...