🎙️ Voicebox：开源语音合成工作站本地运行+MLX加速免费替代ElevenLabs

Voicebox 是开源本地语音合成工作站，支持语音克隆、多轨编辑、即时录音自动转录。内置 Qwen3-TTS 模型，Mac MLX 加速可达 4-5 倍性能提升，Windows/Linux 支持 CUDA，GitHub Star 17.4k，文末附详细使用教程

用 ElevenLabs 做语音合成，每个月都要交订阅费？辛苦训练好的声音模型全部锁在云端？

相信很多人被这些 TTS 服务绑过——按月付费不说，语音数据还要上传到别人服务器，万一哪天服务停了或者政策变了，数据说没就没。

Voicebox 这个开源项目想要彻底改变这个局面。它不只是一个文字转语音工具，而是一个功能完整的语音合成工作站——多轨编辑、语音克隆、即时录音、自动转录，全部本地运行，数据完全自己掌控。

更香的是，在 Mac 上用 MLX 加速，推理速度比传统 PyTorch 快 4-5 倍。M1 Max 跑 Qwen3-TTS，生成一段 30 秒语音只需要 3-5 秒。

1. 语音克隆（Voice Clone）

只要上传一小段语音样本，就能生成对应的语音档案。支持高保真输出，自然的语调、情感和韵律。

特别适合做 demo、测试配音，或者需要快速生成语音内容的场景。以前找真人配音员录制，现在用 Voicebox 可以省下大量时间和预算。

2. 多轨时间轴编辑器

专业级的多轨编辑能力，可以在同一个项目里管理多个语音轨道、进行音频剪辑、混音对话。

不像那些简陋的 TTS 工具，Voicebox 提供的是真正能用于生产的工作流。

3. 即时录音 + 自动转录

内置录音功能，直接在软件里录制语音样本，不需要另外打开录音软件。

更厉害的是整合了 Whisper 语音识别模型，可以自动把录音转成文字。对于想从现有录音中提取内容、或者快速建立语音数据库的用户来说，非常方便。

4. 系统音频捕获（macOS/Windows）

可以直接捕获系统输出的音频，这个功能在做视频配音、游戏解说的时候特别有用。界面设计得很简洁，左侧是文件列表，中间是多轨时间轴，右侧是参数调节面板，新手也能快速上手。

5. 本地 + 远程双模式

桌面应用下载（推荐）

官方提供现成的安装包，macOS 和 Windows 用户可以直接下载：

开发者自行编译

# 克隆项目
git clone https://github.com/jamiepine/voicebox.git
cd voicebox

# 安装依赖（需要 Bun、Rust、Python 3.11+）
bun run setup

# 启动开发模式
bun run dev

macOS 用户还需要安装 Xcode command line tools。Linux 版本官方说在开发中，macOS 和 Windows 可以正常用。

API 调用

Voicebox 也提供 API，可以集成到自己的项目里：

curl -X POST http://localhost:8000/profiles

Voicebox 适合的情况：

不太适合的情况：

Voicebox 的优势在于完全开源免费 + 本地运行 + 专业级多轨编辑，这些组合在同类产品中不多见。

硬件要求：语音合成模型需要一定运算能力，特别是 GPU 加速会大幅提升生成速度
Mac 用户福利：Apple Silicon (M1/M2/M3) 会自动使用 MLX 框架调用 Metal API，把运算交给神经网络引擎，速度比 CPU 跑 PyTorch 快 4-5 倍
Windows/Linux：使用 PyTorch 框架，推荐安装 CUDA GPU 加速。没有 GPU 也能跑，只是会慢一些
音质限制：虽然 Voicebox 已经很好，但追求极致广播级音质还是得找专业配音。不过做 demo、内部测试、快速迭代，那是绰绰有余了
注意 GitHub Stars：官方显示 17.4k Stars，但评测文章提到 Meta 之前也有个 Voicebox 项目（那是 Meta 的不是这个），别搞混了

用了差不多一周，最大的感受是：终于有个免费开源的 TTS 工具能真正用于生产工作了。

优点：

缺点：

推荐指数：⭐️⭐️⭐️⭐️（4/5）

如果你受够了 ElevenLabs 的订阅费，或者对语音数据隐私有要求，Voicebox 值得试试。GitHub 17.4k Stars 的项目，质量有保证。