语音合成 / 识别工具合集
IndexTTS2 — 5秒克隆声音
来源:Bilibili 语音团队 | 整合包:乔大峰(AI音乐实验室)
5秒克隆音色,支持多人对话、批量合成。本地运行,数据不上传。
核心功能:
- 零样本音色克隆(≤60 秒参考音频)
- 多人对话(
【说话人标签】格式自动分角色) - 批量文本生成
配置要求:Windows 10/11,16G 内存,NVIDIA 显卡 ≥ 8G 显存,CUDA 12.8,≥ 80G 硬盘
下载:https://aimusiclab.feishu.cn/wiki/Q1H0wSjxwiPNVTkJ1Wnc6PjGndf
OpenVoice — 开源即时语音克隆
⭐ 高 | MIT | MyShell AI 团队
核心突破:
- 音色与风格解耦:克隆张三的音色,再注入欢快情绪、播报语速、英伦口音
- 零样本跨语言:一段中文音频 → 生成任意语言带原音色的语音
- 低延迟:亚秒级,仅需 5-10 秒参考音频
bash
git clone https://github.com/myshell-ai/OpenVoice.git
pip install -r requirements.txtpython
from openvoice import clone_voice
output = clone_voice("reference.wav", "要合成的文本", speed=1.3, emotion='happy')VibeVoice — 微软开源语音 AI 全家桶
⭐ 32,400 | MIT | 微软 | ICLR 2026 Oral
三个模型:
| 模型 | 参数 | 功能 | 状态 |
|---|---|---|---|
| VibeVoice-ASR-7B | 7B | 语音转文字,60分钟长音频 | ✅ 可用 |
| VibeVoice-TTS-1.5B | 1.5B | 文字转语音,90分钟+4说话人 | ⚠️ 暂停 |
| VibeVoice-Realtime-0.5B | 0.5B | 实时流式合成,首包300ms | ✅ 可用 |
ASR 特点:64K token 上下文,结构化输出(Who/When/What),50+ 语言,支持 vLLM
python
from transformers import pipeline
pipe = pipeline("automatic-speech-recognition", model="microsoft/VibeVoice-ASR-7B")
result = pipe("your_audio.wav")Voicebox — 开源 ElevenLabs 替代
⭐ 19,600 | 开源 | jamiepine
ElevenLabs 的免费开源替代,支持声音风格克隆、情感控制、语速调节。
适合:播客制作、视频配音、有声书生产