Voicebox 是开源本地语音合成工作站,支持语音克隆、多轨编辑、即时录音自动转录。内置 Qwen3-TTS 模型,Mac MLX 加速可达 4-5 倍性能提升,Windows/Linux 支持 CUDA,GitHub Star 17.4k,文末附详细使用教程

🎤 引言

用 ElevenLabs 做语音合成,每个月都要交订阅费?辛苦训练好的声音模型全部锁在云端?

相信很多人被这些 TTS 服务绑过——按月付费不说,语音数据还要上传到别人服务器,万一哪天服务停了或者政策变了,数据说没就没。

Voicebox 这个开源项目想要彻底改变这个局面。它不只是一个文字转语音工具,而是一个功能完整的语音合成工作站——多轨编辑、语音克隆、即时录音、自动转录,全部本地运行,数据完全自己掌控。

更香的是,在 Mac 上用 MLX 加速,推理速度比传统 PyTorch 快 4-5 倍。M1 Max 跑 Qwen3-TTS,生成一段 30 秒语音只需要 3-5 秒。


⭐ 核心功能

1. 语音克隆(Voice Clone)

只要上传一小段语音样本,就能生成对应的语音档案。支持高保真输出,自然的语调、情感和韵律。

特别适合做 demo、测试配音,或者需要快速生成语音内容的场景。以前找真人配音员录制,现在用 Voicebox 可以省下大量时间和预算。

2. 多轨时间轴编辑器

专业级的多轨编辑能力,可以在同一个项目里管理多个语音轨道、进行音频剪辑、混音对话。

不像那些简陋的 TTS 工具,Voicebox 提供的是真正能用于生产的工作流。

3. 即时录音 + 自动转录

内置录音功能,直接在软件里录制语音样本,不需要另外打开录音软件。

更厉害的是整合了 Whisper 语音识别模型,可以自动把录音转成文字。对于想从现有录音中提取内容、或者快速建立语音数据库的用户来说,非常方便。

4. 系统音频捕获(macOS/Windows)

可以直接捕获系统输出的音频,这个功能在做视频配音、游戏解说的时候特别有用。界面设计得很简洁,左侧是文件列表,中间是多轨时间轴,右侧是参数调节面板,新手也能快速上手。

5. 本地 + 远程双模式

  • 本地模式:一切运行在你的电脑上,隐私完全自己掌控
  • 远程模式:如果你有配了 RTX 4090 的工作站,可以把后端跑在那边,笔记本连接过去使用,轻便设备也能享受高性能

📥 安装使用

桌面应用下载(推荐)

官方提供现成的安装包,macOS 和 Windows 用户可以直接下载:

平台下载文件
macOS (Apple Silicon M1/M2/M3)voicebox_aarch64.app.tar.gz
macOS (Intel)voicebox_x64.app.tar.gz
Windows (MSI)voicebox_0.1.0_x64_en-US.msi
Windows (Setup)voicebox_0.1.0_x64-setup.exe

下载地址:https://github.com/jamiepine/voicebox/releases

开发者自行编译

# 克隆项目
git clone https://github.com/jamiepine/voicebox.git
cd voicebox

# 安装依赖(需要 Bun、Rust、Python 3.11+)
bun run setup

# 启动开发模式
bun run dev

macOS 用户还需要安装 Xcode command line tools。Linux 版本官方说在开发中,macOS 和 Windows 可以正常用。

API 调用

Voicebox 也提供 API,可以集成到自己的项目里:

curl -X POST http://localhost:8000/profiles

🎯 适用场景

Voicebox 适合的情况:

  1. 做 demo/短视频配音:不想花大价钱找配音员,快速生成测试版本
  2. 隐私敏感项目:语音数据不想上传到第三方服务器
  3. 内容创作者:需要多种音色、多种语言的语音内容
  4. 开发者:想把语音合成集成到自己的应用里

不太适合的情况:

  • 需要非常专业广播级别音质(还是得找真人配音)
  • 没有一点硬件基础(本地运行对硬件有要求)

🔍 对比同类方案

工具语音克隆多轨编辑本地运行开源价格
Voicebox免费
ElevenLabs$5+/月
Coqui免费
Azure TTS按量付费

Voicebox 的优势在于完全开源免费 + 本地运行 + 专业级多轨编辑,这些组合在同类产品中不多见。


⚠️ 注意事项

  1. 硬件要求:语音合成模型需要一定运算能力,特别是 GPU 加速会大幅提升生成速度
  2. Mac 用户福利:Apple Silicon (M1/M2/M3) 会自动使用 MLX 框架调用 Metal API,把运算交给神经网络引擎,速度比 CPU 跑 PyTorch 快 4-5 倍
  3. Windows/Linux:使用 PyTorch 框架,推荐安装 CUDA GPU 加速。没有 GPU 也能跑,只是会慢一些
  4. 音质限制:虽然 Voicebox 已经很好,但追求极致广播级音质还是得找专业配音。不过做 demo、内部测试、快速迭代,那是绰绰有余了
  5. 注意 GitHub Stars:官方显示 17.4k Stars,但评测文章提到 Meta 之前也有个 Voicebox 项目(那是 Meta 的不是这个),别搞混了

✅ 总结

用了差不多一周,最大的感受是:终于有个免费开源的 TTS 工具能真正用于生产工作了

优点:

  • 完全本地运行,隐私有保障
  • 多轨编辑器是认真的,不是简陋玩具
  • 语音克隆效果不错,样本要求低
  • Mac MLX 加速真的快
  • 开源免费,不用每月交钱

缺点:

  • Linux 版本还在开发
  • 没有 Web UI,得下载安装
  • 路由图功能目前比较基础

推荐指数:⭐️⭐️⭐️⭐️(4/5)

如果你受够了 ElevenLabs 的订阅费,或者对语音数据隐私有要求,Voicebox 值得试试。GitHub 17.4k Stars 的项目,质量有保证。

GitHub 地址:https://github.com/jamiepine/voicebox
官网:https://voicebox.sh