VibeVoice是微软开源的一系列语音合成(TTS) 与语音识别(ASR) 模型,核心创新在于使用7.5Hz超低帧率的连续语音分词器,结合大语言模型(LLM)与扩散头,兼顾高保真音质与长序列处理效率。旨在推动语音合成与识别领域的研究协作。其核心创新在于采用连续语音分词器(声学与语义),以7.5 Hz的超低帧率运行,在保留高保真音频的同时,大幅提升长序列处理效率。整体采用“下一词元扩散”框架,结合大语言模型(LLM)理解上下文与对话流程,并通过扩散头生成细腻的声学细节。
项目包含三大模型:
| 模型 | 核心能力 | 适用场景 |
|---|---|---|
| VibeVoice-ASR | 统一语音转文本,单次处理最长 60分钟 音频,输出“谁、何时、说什么”的结构化转录,支持自定义热词,原生支持50+种语言 | 长会议记录、访谈转录、多说话人场景 |
| VibeVoice-TTS | 长文本转语音,单次生成最长 90分钟 对话,支持最多 4个不同说话人 的自然对话合成,支持中英文及跨语种 | 有声书、播客、多角色对话生成 |
| VibeVoice-Realtime | 轻量实时TTS(0.5B参数),首包延迟约 300毫秒,支持流式文本输入与长文本(约10分钟)稳定合成 | 实时语音助手、低延迟交互应用 |
重要提示:项目官网提及,由于发现VibeVoice-TTS曾被以不符合初衷的方式使用,其部分代码已从仓库移除。目前代码库主要聚焦于ASR与Realtime模型,TTS权重仍可通过Hugging Face获取,但官方示例页面已禁用。
二、使用教程(快速上手)
1. 环境准备
Python 3.10+,建议创建虚拟环境。
安装依赖(以ASR为例):
pip install transformers torch torchaudio若需使用vLLM加速推理,参考仓库中
vllm_plugin目录。
2. 使用 VibeVoice-ASR(长音频转录)
通过 Hugging Face Transformers 调用(需 transformers >= 4.51.3):
from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor model = AutoModelForSpeechSeq2Seq.from_pretrained("microsoft/VibeVoice-ASR-7B") processor = AutoProcessor.from_pretrained("microsoft/VibeVoice-ASR-7B") # 加载长音频(例如 55 分钟) audio = ... # 使用 librosa 或 torchaudio 加载 inputs = processor(audio, return_tensors="pt", sampling_rate=16000) transcription = model.generate(**inputs) print(processor.decode(transcription[0]))
特色功能:
自定义热词:在生成时通过
hotwords参数传入专业术语,提升特定词汇识别率。输出结构:返回包含说话人ID、时间戳、文本的JSON,便于下游处理。
3. 使用 VibeVoice-Realtime(流式TTS)
模型约0.5B,适合部署。官方提供Colab笔记本,可直接运行体验:
支持流式文本输入(如逐句发送)。
支持多语言语音(目前实验性支持9种语言及11种英语风格)。
可通过
speaker_id选择不同音色。
简单调用示例(参考仓库 vibevoice/streaming 目录):
from vibevoice.streaming import VibeVoiceRealtime tts = VibeVoiceRealtime.from_pretrained("microsoft/VibeVoice-Realtime-0.5B") # 流式合成 for chunk in tts.stream("你好,欢迎使用微软实时语音合成。", speaker="zh_female"): play_audio(chunk) # 实时播放
4. 模型微调
ASR微调代码已公开,位于
finetuning-asr/目录,支持在自定义数据集上调整模型以适应特定领域。需准备符合格式的长音频转录数据,可参考文档中的数据组织说明。
三、使用建议与注意事项
✅ 适合场景
学术研究:模型开源且提供技术报告,可深入分析长音频建模、流式TTS架构。
长格式语音处理:ASR对会议、讲座等长时间录音的处理效率高,TTS适合制作长篇有声内容。
多语言/多说话人项目:ASR原生支持多语言,TTS可合成多角色对话,适合播客或配音原型。
⚠️ 风险与局限
滥用风险:官方明确警示,高质量合成语音可能被用于伪造或误导,使用时应披露AI生成内容,并遵守当地法律。
非商业建议:模型目前以研究目的发布,未针对生产环境优化,若需商用需自行评估与加固。
TTS代码缺失:原TTS模型的部分代码已从仓库移除,如需完整TTS功能需结合Hugging Face权重自行实现调用逻辑。
资源要求:ASR-7B模型需较高显存(建议24GB+),Realtime-0.5B较为轻量(适合CPU或边缘设备)。
💡 最佳实践
结合社区生态:VibeVoice-ASR已被Hugging Face Transformers库收录,推荐通过该库集成以简化版本管理。
尝试新工具:官方已推出基于VibeVoice-ASR的语音输入法 “Vibing”(支持macOS/Windows),可作为模型能力的直观体验。
关注更新:项目仍在活跃维护(最近提交2026年3月),可关注GitHub的News部分获取最新模型与工具。
如需更深入的技术细节或查看演示示例,可直接访问:
微软VibeVoice为语音社区带来了长音频处理的新范式,尤其ASR模型在“小时级”音频的一次性识别、说话人区分和热词定制上表现出色,且已集成主流工具库。若你从事语音研究、长内容转录或实时交互系统开发,值得在非生产环境中深入试用。使用时请务必遵循开源协议,并注意其风险提示。
希望这份介绍能帮助你快速了解和使用VibeVoice。如果你想深入了解某个AI语音工具模型(如ASR的微调方法或Realtime模型的部署细节),我可以提供更详细的说明。
数据统计
数据评估
关于微软VibeVoice开源AI文本转语音模型特别声明
本站微企脉提供的微软VibeVoice开源AI文本转语音模型都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由微企脉实际控制,在2026年3月30日 下午1:09收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,微企脉不承担任何责任。
相关导航
专业的AI语音处理平台。提供免费文本转语音(TTS)、语音转文字、AI声音克隆服务。支持100+语言,500+AI音色。
LocalAI本地化人工智能平台
LocalAI是一个免费、开源的(MIT 许可证)平台,其核心目标是让你完全在本地硬件上运行强大的AI模型,从而成为OpenAI、Anthropic等云端API的本地替代品。它的核心理念是“无需云端,没有限制,无需妥协”,强调数据隐私、低成本和高可控性 。
网易天音
网易天音AI创作平台,词曲编唱样样精通,海量风格全部免费使用,还不快来点亮你的音乐天赋!
TTSMaker马克配音
TTSMaker(马克配音) 是一款提供免费文本转语音服务的在线工具,支持100多种语言和300多种语音风格,由AI算法实时生成自然语音。
讯飞智作
讯飞智作是科大讯飞旗下明星配音产品品牌,提供合成配音软件、真人配音、童声配音、广告宣传片、短视频配音、AI虚拟主播、虚拟数字人等一站式配音服务。
MotionSound在线AI文本转语音工具
MotionSound基于业界领先的深度神经网络技术,提供流畅自然的语音合成服务,让人机沟通更自然,便捷
RealDubbing AI语音生成
RealDubbing是一个完全免费的在线AI文本转语音(TTS)生成器,致力于让每个人都能轻松、无门槛地将文字转化为自然流畅的高质量语音。
ACE-Step(音跃)开源音乐生成大模型
ACE-Step是一个开源的音乐生成基础模型,核心目标是通过文本描述,高效地生成包含人声和乐器的完整歌曲。该项目由 ACE Studio与 StepFun联合开发,旨在打造音乐生成领域的“Stable Diffusion时刻”。
暂无评论...





