Skip to main content
全网优质资源汇总✨

Search: #语音输入

  1. VoxCPM |基于连续表征的多语言语音合成、创意音色设计与高保真声音克隆

    一个无离散音频分词器(Tokenizer-Free)的语音合成系统,通过端到端的扩散自回归架构直接生成连续语音表征,绕过对音频的离散编码步骤,实现高度自然且富有表现力的语音合成。
    🌍 30种语言语音合成 — 直接输入原始文本即可合成(支持语言详见下文),无需额外语言标签
    🎨 音色设计 — 用自然语言描述(性别、年龄、音色、情绪、语速……)凭空创建全新音色,无需参考音频
    🎛 可控声音克隆 — 从参考音频片段克隆任意声音,可叠加风格指令控制情绪、语速和表现力,同时保持原始音色
    🎙 极致克隆 — 提供参考音频及其文本内容,模型接着参考音频进行无缝续写,从而精准还原声音细节特征(与 VoxCPM1.5 一致)
    🔊 48kHz 高质量音频 — 输入 16kHz 参考音频,通过 AudioVAE V2 的非对称编解码设计直接输出 48kHz 高质量音频,内置超分能力
    🧠 语境感知合成 — 根据文本内容自动推断合适的韵律和表现力
    ⚡️ 实时流式合成 — 在 NVIDIA RTX 4090 上 RTF 低至 ~0.3,通过 Nano-vLLM 或 vLLM-Omni(官方 vLLM 全模态服务,原生支持 VoxCPM2,提供 PagedAttention 与 OpenAI 兼容 API)加速后可达 ~0.13
    📜 完全开源,商用就绪 — 权重和代码基于 Apache-2.0 协议发布,免费商用


    项目地址

    #开源 #声音克隆 #AI语音 #本地部署 #VoxCPM #语音合成
  2. #VoxCPM2 #语音合成 #AI
    VoxCPM整合包
    VoxCPM 是一个支持中英文、零样本语音克隆、情感可控、音素/公式输入的统一端到端语音合成大模型。它不依赖传统 TTS 流水线(如文本分析 → 音素对齐 → 声码器),而是直接从文本生成高质量语音波形 新版本新增特性: 1.UI颠覆性重构,主要体现在:场景从"语音克隆"+"语音设计"分为"简单场景"+"复杂场景",复杂场景中均支持可控克隆和极致克隆两种方式,适用于不同诉求。特别注意的是Excel中模板根据不同场景拆分为两个,且字段含义不同。 2.新增了api调用及详细说明文档。 3.音色设计页面UI美化,并引入了文本替换 链接:https://pan.quark.cn/s/5ef0eeb56fba
    📢关注频道:@quanshoulu
    🎁访问主页: www.noisework.cn
  3. 🎙 LazyTyper | 懒人打字神器,基于 Whisper 的语音输入法

    🔥 还在为了打字手酸?这款体积仅几 MB 的小工具,利用 OpenAI Whisper 模型,让你的语音转文字快如闪电!

    💎 核心亮点:

    超高准确率: 🧠 基于强大的 Whisper 模型,识别准确率高达 90% 以上。
    多语言混输: 🌍 真正支持中、英、日、韩无缝混合说,再也不用手动切换语言。
    极致轻量化: 🪶 体积仅个位数 MB,内存占用极低,旧电脑也能跑得飞起。
    完全免费: 🆓 支持 Windows & macOS 双平台,无内购,无广告。

    📢 社区反馈:
    在 V2EX 论坛引起热议,网友评价极高,被称为“只有几M的生产力怪兽”。

    📥 官网下载 (Win/Mac)
    🔗 查看 V2EX 原帖讨论

    频道 | 💬 群组 | 📬 投稿 | 📨 商务

    #AI #语音输入 #效率工具 #Whisper #LazyTyper
  4. #语音转文字 #软件
    语音视频转字幕srt、txt软件
    使用必剪API,语音转字幕。
    支持输入视频文件自动提取音频(ffmpeg)
    支持拖动添加文件
    支持多视频/语音文件的一次性转录
    运行需要安装.NET 6 Runtime和ffmpeg
    下载:https://github.com/Forgot-Dream/STS-Bcut/releases
    蓝奏云:https://noise.lanzoul.com/irLuU0rwx36h
    📡发布:https://noisevip.cn/16116.html
    📢关注频道:@quanshoulu
    💬留言讨论:@Efficiencyfollow
    📬投稿bot:@noisewowbot
    📇搜索bot:@Efficiencysearchbot
    🎁访问主页: www.noisework.cn