微软做的超强语音AITTS 模型单次能生成 90 分钟的多人对话音频，ASR 模型单次处理 60 分钟音频无需切片，如果你需要长音频转录或实时语音合成，目前开源领域没有比它更强的～ | 全网优质资源汇总✨

Skip to main content

全网优质资源汇总✨

14:34 · 2026年4月5日 · 周日

微软做的超强语音AI

TTS 模型单次能生成 90 分钟的多人对话音频，ASR 模型单次处理 60 分钟音频无需切片，如果你需要长音频转录或实时语音合成，目前开源领域没有比它更强的～

https://github.com/microsoft/VibeVoice

📖频道 | 📥投稿 | 商务

#Github #AI