Skip to content

语音合成 / 识别工具合集

IndexTTS2 — 5秒克隆声音

来源:Bilibili 语音团队 | 整合包:乔大峰(AI音乐实验室)

5秒克隆音色,支持多人对话、批量合成。本地运行,数据不上传。

核心功能

  • 零样本音色克隆(≤60 秒参考音频)
  • 多人对话(【说话人标签】 格式自动分角色)
  • 批量文本生成

配置要求:Windows 10/11,16G 内存,NVIDIA 显卡 ≥ 8G 显存,CUDA 12.8,≥ 80G 硬盘

下载https://aimusiclab.feishu.cn/wiki/Q1H0wSjxwiPNVTkJ1Wnc6PjGndf


OpenVoice — 开源即时语音克隆

⭐ 高 | MIT | MyShell AI 团队

核心突破

  • 音色与风格解耦:克隆张三的音色,再注入欢快情绪、播报语速、英伦口音
  • 零样本跨语言:一段中文音频 → 生成任意语言带原音色的语音
  • 低延迟:亚秒级,仅需 5-10 秒参考音频
bash
git clone https://github.com/myshell-ai/OpenVoice.git
pip install -r requirements.txt
python
from openvoice import clone_voice
output = clone_voice("reference.wav", "要合成的文本", speed=1.3, emotion='happy')

VibeVoice — 微软开源语音 AI 全家桶

⭐ 32,400 | MIT | 微软 | ICLR 2026 Oral

三个模型:

模型参数功能状态
VibeVoice-ASR-7B7B语音转文字,60分钟长音频✅ 可用
VibeVoice-TTS-1.5B1.5B文字转语音,90分钟+4说话人⚠️ 暂停
VibeVoice-Realtime-0.5B0.5B实时流式合成,首包300ms✅ 可用

ASR 特点:64K token 上下文,结构化输出(Who/When/What),50+ 语言,支持 vLLM

python
from transformers import pipeline
pipe = pipeline("automatic-speech-recognition", model="microsoft/VibeVoice-ASR-7B")
result = pipe("your_audio.wav")

Voicebox — 开源 ElevenLabs 替代

⭐ 19,600 | 开源 | jamiepine

ElevenLabs 的免费开源替代,支持声音风格克隆、情感控制、语速调节。

适合:播客制作、视频配音、有声书生产

GitHubhttps://github.com/jamiepine/voicebox

Built for notes, tools, and long-term recall.