语音合成 / 识别工具合集

IndexTTS2 — 5秒克隆声音

来源：Bilibili 语音团队 | 整合包：乔大峰（AI音乐实验室）

5秒克隆音色，支持多人对话、批量合成。本地运行，数据不上传。

核心功能：

配置要求：Windows 10/11，16G 内存，NVIDIA 显卡 ≥ 8G 显存，CUDA 12.8，≥ 80G 硬盘

⭐ 高 | MIT | MyShell AI 团队

核心突破：

bash

git clone https://github.com/myshell-ai/OpenVoice.git
pip install -r requirements.txt

python

from openvoice import clone_voice
output = clone_voice("reference.wav", "要合成的文本", speed=1.3, emotion='happy')

⭐ 32,400 | MIT | 微软 | ICLR 2026 Oral

三个模型：

ASR 特点：64K token 上下文，结构化输出（Who/When/What），50+ 语言，支持 vLLM

python

from transformers import pipeline
pipe = pipeline("automatic-speech-recognition", model="microsoft/VibeVoice-ASR-7B")
result = pipe("your_audio.wav")

⭐ 19,600 | 开源 | jamiepine

ElevenLabs 的免费开源替代，支持声音风格克隆、情感控制、语速调节。

适合：播客制作、视频配音、有声书生产