Voicebox 是开源本地语音合成工作站,支持语音克隆、多轨编辑、即时录音自动转录。内置 Qwen3-TTS 模型,Mac MLX 加速可达 4-5 倍性能提升,Windows/Linux 支持 CUDA,GitHub Star 17.4k,文末附详细使用教程
🎤 引言
用 ElevenLabs 做语音合成,每个月都要交订阅费?辛苦训练好的声音模型全部锁在云端?
相信很多人被这些 TTS 服务绑过——按月付费不说,语音数据还要上传到别人服务器,万一哪天服务停了或者政策变了,数据说没就没。
Voicebox 这个开源项目想要彻底改变这个局面。它不只是一个文字转语音工具,而是一个功能完整的语音合成工作站——多轨编辑、语音克隆、即时录音、自动转录,全部本地运行,数据完全自己掌控。
更香的是,在 Mac 上用 MLX 加速,推理速度比传统 PyTorch 快 4-5 倍。M1 Max 跑 Qwen3-TTS,生成一段 30 秒语音只需要 3-5 秒。
⭐ 核心功能
1. 语音克隆(Voice Clone)
只要上传一小段语音样本,就能生成对应的语音档案。支持高保真输出,自然的语调、情感和韵律。
特别适合做 demo、测试配音,或者需要快速生成语音内容的场景。以前找真人配音员录制,现在用 Voicebox 可以省下大量时间和预算。
2. 多轨时间轴编辑器
专业级的多轨编辑能力,可以在同一个项目里管理多个语音轨道、进行音频剪辑、混音对话。
不像那些简陋的 TTS 工具,Voicebox 提供的是真正能用于生产的工作流。
3. 即时录音 + 自动转录
内置录音功能,直接在软件里录制语音样本,不需要另外打开录音软件。
更厉害的是整合了 Whisper 语音识别模型,可以自动把录音转成文字。对于想从现有录音中提取内容、或者快速建立语音数据库的用户来说,非常方便。
4. 系统音频捕获(macOS/Windows)
可以直接捕获系统输出的音频,这个功能在做视频配音、游戏解说的时候特别有用。界面设计得很简洁,左侧是文件列表,中间是多轨时间轴,右侧是参数调节面板,新手也能快速上手。
5. 本地 + 远程双模式
- 本地模式:一切运行在你的电脑上,隐私完全自己掌控
- 远程模式:如果你有配了 RTX 4090 的工作站,可以把后端跑在那边,笔记本连接过去使用,轻便设备也能享受高性能
📥 安装使用
桌面应用下载(推荐)
官方提供现成的安装包,macOS 和 Windows 用户可以直接下载:
| 平台 | 下载文件 |
|---|---|
| macOS (Apple Silicon M1/M2/M3) | voicebox_aarch64.app.tar.gz |
| macOS (Intel) | voicebox_x64.app.tar.gz |
| Windows (MSI) | voicebox_0.1.0_x64_en-US.msi |
| Windows (Setup) | voicebox_0.1.0_x64-setup.exe |
下载地址:https://github.com/jamiepine/voicebox/releases
开发者自行编译
# 克隆项目
git clone https://github.com/jamiepine/voicebox.git
cd voicebox
# 安装依赖(需要 Bun、Rust、Python 3.11+)
bun run setup
# 启动开发模式
bun run devmacOS 用户还需要安装 Xcode command line tools。Linux 版本官方说在开发中,macOS 和 Windows 可以正常用。
API 调用
Voicebox 也提供 API,可以集成到自己的项目里:
curl -X POST http://localhost:8000/profiles🎯 适用场景
Voicebox 适合的情况:
- 做 demo/短视频配音:不想花大价钱找配音员,快速生成测试版本
- 隐私敏感项目:语音数据不想上传到第三方服务器
- 内容创作者:需要多种音色、多种语言的语音内容
- 开发者:想把语音合成集成到自己的应用里
不太适合的情况:
- 需要非常专业广播级别音质(还是得找真人配音)
- 没有一点硬件基础(本地运行对硬件有要求)
🔍 对比同类方案
| 工具 | 语音克隆 | 多轨编辑 | 本地运行 | 开源 | 价格 |
|---|---|---|---|---|---|
| Voicebox | ✅ | ✅ | ✅ | ✅ | 免费 |
| ElevenLabs | ✅ | ❌ | ❌ | ❌ | $5+/月 |
| Coqui | ✅ | ❌ | ✅ | ✅ | 免费 |
| Azure TTS | ✅ | ❌ | ❌ | ❌ | 按量付费 |
Voicebox 的优势在于完全开源免费 + 本地运行 + 专业级多轨编辑,这些组合在同类产品中不多见。
⚠️ 注意事项
- 硬件要求:语音合成模型需要一定运算能力,特别是 GPU 加速会大幅提升生成速度
- Mac 用户福利:Apple Silicon (M1/M2/M3) 会自动使用 MLX 框架调用 Metal API,把运算交给神经网络引擎,速度比 CPU 跑 PyTorch 快 4-5 倍
- Windows/Linux:使用 PyTorch 框架,推荐安装 CUDA GPU 加速。没有 GPU 也能跑,只是会慢一些
- 音质限制:虽然 Voicebox 已经很好,但追求极致广播级音质还是得找专业配音。不过做 demo、内部测试、快速迭代,那是绰绰有余了
- 注意 GitHub Stars:官方显示 17.4k Stars,但评测文章提到 Meta 之前也有个 Voicebox 项目(那是 Meta 的不是这个),别搞混了
✅ 总结
用了差不多一周,最大的感受是:终于有个免费开源的 TTS 工具能真正用于生产工作了。
优点:
- 完全本地运行,隐私有保障
- 多轨编辑器是认真的,不是简陋玩具
- 语音克隆效果不错,样本要求低
- Mac MLX 加速真的快
- 开源免费,不用每月交钱
缺点:
- Linux 版本还在开发
- 没有 Web UI,得下载安装
- 路由图功能目前比较基础
推荐指数:⭐️⭐️⭐️⭐️(4/5)
如果你受够了 ElevenLabs 的订阅费,或者对语音数据隐私有要求,Voicebox 值得试试。GitHub 17.4k Stars 的项目,质量有保证。
GitHub 地址:https://github.com/jamiepine/voicebox
官网:https://voicebox.sh