Skip to main content
全网优质资源汇总✨

Search: #语音合成

  1. VoxCPM |基于连续表征的多语言语音合成、创意音色设计与高保真声音克隆

    一个无离散音频分词器(Tokenizer-Free)的语音合成系统,通过端到端的扩散自回归架构直接生成连续语音表征,绕过对音频的离散编码步骤,实现高度自然且富有表现力的语音合成。
    🌍 30种语言语音合成 — 直接输入原始文本即可合成(支持语言详见下文),无需额外语言标签
    🎨 音色设计 — 用自然语言描述(性别、年龄、音色、情绪、语速……)凭空创建全新音色,无需参考音频
    🎛 可控声音克隆 — 从参考音频片段克隆任意声音,可叠加风格指令控制情绪、语速和表现力,同时保持原始音色
    🎙 极致克隆 — 提供参考音频及其文本内容,模型接着参考音频进行无缝续写,从而精准还原声音细节特征(与 VoxCPM1.5 一致)
    🔊 48kHz 高质量音频 — 输入 16kHz 参考音频,通过 AudioVAE V2 的非对称编解码设计直接输出 48kHz 高质量音频,内置超分能力
    🧠 语境感知合成 — 根据文本内容自动推断合适的韵律和表现力
    ⚡️ 实时流式合成 — 在 NVIDIA RTX 4090 上 RTF 低至 ~0.3,通过 Nano-vLLM 或 vLLM-Omni(官方 vLLM 全模态服务,原生支持 VoxCPM2,提供 PagedAttention 与 OpenAI 兼容 API)加速后可达 ~0.13
    📜 完全开源,商用就绪 — 权重和代码基于 Apache-2.0 协议发布,免费商用


    项目地址

    #开源 #声音克隆 #AI语音 #本地部署 #VoxCPM #语音合成
  2. #VoxCPM2 #语音合成 #AI
    VoxCPM整合包
    VoxCPM 是一个支持中英文、零样本语音克隆、情感可控、音素/公式输入的统一端到端语音合成大模型。它不依赖传统 TTS 流水线(如文本分析 → 音素对齐 → 声码器),而是直接从文本生成高质量语音波形 新版本新增特性: 1.UI颠覆性重构,主要体现在:场景从"语音克隆"+"语音设计"分为"简单场景"+"复杂场景",复杂场景中均支持可控克隆和极致克隆两种方式,适用于不同诉求。特别注意的是Excel中模板根据不同场景拆分为两个,且字段含义不同。 2.新增了api调用及详细说明文档。 3.音色设计页面UI美化,并引入了文本替换 链接:https://pan.quark.cn/s/5ef0eeb56fba
    📢关注频道:@quanshoulu
    🎁访问主页: www.noisework.cn
  3. 🔁 Voicebox
    📦 AI语音工具 | 本地语音转文字 | 开源项目


    ➤ 语音转文字|支持本地离线 ASR 识别
    ➤ 多模型支持|兼容 Whisper / Faster-Whisper
    ➤ 音频转录|支持 MP3 / WAV / M4A 等格式
    ➤ 字幕生成|自动生成 SRT 字幕文件
    ➤ 本地运行|注重隐私 无需上传云端
    ➤ 开源免费|跨平台桌面应用



    🌐 项目地址:
    https://github.com/jamiepine/voicebox

    📌 简单说:
    👉 一个开源的本地 AI 转录工具,可快速把音频视频转换成字幕与文本。

    ———— 商务合作————

    📂 #AI工具 #语音转文字 #Whisper #开源项目
    📁 Windows / AI工具
  4. 🔁 VibeVoice
    📦 开源项目 | GitHub | AI语音生成 + 识别


    ➤ 长音频识别|支持最长60分钟语音转文字(ASR)
    ➤ 结构化转录|自动识别说话人 + 时间戳 + 内容
    ➤ 多人语音生成|支持最多4人对话语音(TTS)
    ➤ 超长语音|可生成最长约90分钟连续音频
    ➤ 实时语音|支持低延迟流式TTS输出
    ➤ 多语言支持|覆盖50+语言识别能力
    ➤ 开源研究|适合开发与语音AI实验


    🌐 项目:
    https://github.com/microsoft/VibeVoice

    ———— 商务合作————

    📂 #AI工具 #语音AI #开源项目 #TTS #ASR
    📁 Windows / 开发工具
  5. 🎙 悟声 AI:超拟真 AI 语音合成与瞬时克隆平台
    全球领先模型 · 极速声音克隆 · 创作有声内容
    📌 项目介绍:

    悟声 AI 是音频人工智能领域的先驱者,提供极度自然的 AI 语音克隆与配音合成技术。其 V3.1 大模型在世界权威语音模型盲测排行榜中名列前茅,致力于模糊真实与虚拟声音的边界。

    ⚙️ 核心亮点:

    拟真合成:支持多语种(中/英/日/韩/粤等)超拟真语音生成。
    瞬时克隆:仅需少量音频样本即可快速克隆任何角色声音。
    音色转换:支持将一段音频的音色完美转换为目标角色的声音。
    声音市场:内置丰富的社区与专业声音库,一键调用。
    开放平台:提供强大的 API 接口,支持开发者集成音频应用。

    🌐 资源链接:

    • 官方网站:https://www.wusound.cn/


    📢 频道 | 💬 群组 | 📬 投稿 | 📨 商务

    #AI配音 #语音克隆 #AI工具 #音频合成 #悟声AI
  6. 短视频工厂

    一个开源的桌面端应用,旨在通过AI技术简化短视频的制作流程。用户可以通过简单的提示词文本+视频分镜素材,快速且自动的剪辑出高质量的产品营销和泛内容短视频。该项目集成了AI驱动的文案生成、语音合成、视频剪辑、字幕特效等功能,旨在为用户提供开箱即用的短视频制作体验。

    点击访问

    #电脑软件 #短视频工厂 #AI短视频 #自动剪辑 #批量生成 #文案生成 #语音合成 #开源
  7. 💥 Ultimate TTS Studio|终极 TTS 语音合成软件
    推荐:一站式文本转语音解决方案,适合配音、旁白与内容创作。

    🟢 项目核心亮点:


    高质量 TTS: 🗣 将文本快速转换为自然语音
    多场景适用: 🎙 旁白、配音、有声内容制作
    操作简单: 🖱 界面直观,上手门槛低
    效率优先: ⚡️ 批量处理,节省时间
    创作者友好: 🎧 适合自媒体与内容生产


    想把文字变成声音,这是一个很省心的工具。

    🌐 项目链接:
    ❤️ 点击直达

    频道 | 💬 群组 | 📬 投稿 | 📨 商务

    #TTS #语音合成 #AI工具 #配音软件
  8. 💥 GitHub 爆火开源项目|90 分钟超长语音一口气合成
    推荐:开源即登顶的 AI 语音合成项目,程序员圈讨论度极高。

    🟢 项目核心亮点:


    超长语音合成: 🗣 一次性合成最长约 90 分钟音频
    AI 语音自然: 🎧 语调流畅,适合播客 / 有声书 / 长文本
    开源即爆火: ⭐️ GitHub 上线后迅速登顶热门
    程序员友好: 💻 适合二次开发与自动化集成
    多场景适用: 📚 有声内容制作、旁白、配音等


    长文本语音合成场景下,非常有潜力的开源方案。

    🌐 项目链接:
    ❤️ 点击直达

    频道 | 💬 群组 | 📬 投稿 | 📨 商务

    #AI #语音合成 #程序员 #GitHub #Soul
  9. #语音合成
    基于GPT-SoVITS的视频剪辑快捷配音工具
    该项目是一个拥有 GUI 悬浮窗界面的 GPT-SoVITS 推理程序,可以通过模拟操作系统的文件拖拽信号,将合成的语音直接拖拽至视频剪辑软件(如 Adobe Premiere)的时间轴,更加方便地实现视频的配音。
    项目地址:https://github.com/2DIPW/dub_genius
    推理核心源码基于 RVC-Boss/GPT-SoVITS 修改,GUI 界面基于 PySide6 实现,exe可执行文件由 PyStand 编译。
    📥 部署
    可以直接下载带有 exe 可执行文件的整合包,也可以自行部署依赖环境并从命令行运行。
    整合包
    整合包自带全部依赖和预训练模型,以及一个 Python 3.9.13 的嵌入式版本,可通过 exe 可执行文件独立运行。
    PyTorch版本 | 大小 | 下载地址
    ------------------------------
    CPU推理版本 | 2.2.1 | 989 MB | OneDrive(https://1drv.ms/u/s!ApF_M_PJgMjabK4tbMUTw5nFt-g?e=C3O0JN) | 百度网盘(https://pan.baidu.com/s/1sKlushysdxq1ce-IBHcJaw?pwd=nqwm)
    ------------------------------
    GPU推理版本 | 2.2.1+cu118 | 2.18 GB | OneDrive(https://1drv.ms/u/s!ApF_M_PJgMjabWCA4_s3fwxwi7M?e=nObvOo)…
    📡发布:https://noisevip.cn/17918.html
    📢关注频道:@quanshoulu
    💬频道社群:https://www.noisework.cn/qun/
    📬投稿bot:@noisewowbot
    📇搜索bot:@Efficiencysearchbot
    🎁访问主页: www.noisework.cn
  10. #PHP #源码 #语音合成
    微软文本转语音网页版源码
    微软语音合成网页版源码,调用的是官方api
    1.将压缩包内的index.html等文件放到你的站点里,
    2.修改getSpeek.php文件中apikey(密钥)与region(地区)为你自己的,在微软语音合成官网获取。
    3.之后访问index.html文件就可以正常运行了。
    https://noise.lanzoul.com/icuwb0n5xnyj
    📡发布:https://noisevip.cn/15735.html
    📢关注频道:@quanshoulu
    💬留言讨论:@Efficiencyfollow
    📬投稿bot:@noisewowbot
    📇搜索bot:@Efficiencysearchbot
    🎁访问主页: www.noisework.cn