VCClient 是一款开源实时 AI 语音变声软件,20k Stars。支持 RVC、Beatrice v2、MMVC、so-vits-svc、DDSP-SVC 等主流模型,覆盖 Windows/Mac/Linux/Colab,提供 REST API 与独立/网络双模式运行。

🎤 引言

想在游戏里模仿某位声优直播?做视频不想暴露自己的真实嗓音?或者只是想给语音聊天加点乐子?

实时 AI 语音转换这条赛道,开源社区其实卷得厉害——RVC、Beatrice、MMVC、so-vits-svc、DDSP-SVC 一堆框架各自为政,每个都得自己装 Python、配环境、下模型、调参数。

VCClient(也叫 voice-changer)想做的事非常直接:把这些模型统一塞进一个 GUI,按几个按钮就能实时变声20.5k stars、1,754 次 commit、作者 w-okada 在日语社区深耕多年——这可能是目前门槛最低的多模型 AI 变声方案


⭐ 核心功能

多 AI 模型统一封装

VCClient 最大卖点是 "一个 GUI 跑遍主流模型"——不需要为每个框架单独配环境:

模型支持版本备注
RVCv1 + v2检索式语音转换,社区最主流
Beatrice v1仅 v1 (Windows)日本国产角色语音框架
Beatrice v2v2新一代 Beatrice,自动 pitch shift
MMVCv1轻量训练框架
so-vits-svcv1经典 SVC 框架
DDSP-SVCv1差分 DSP 风格 SVC

下载安装包后直接在 GUI 里切换模型,不用动命令行

多种预编译版本

按硬件配置挑对应版本:

Edition平台支持模型
std_winWindowsBeatrice
std_macMac (M1)Beatrice
std_lin_x86-64Linux x86Beatrice
std_lin_aarch64Linux ARMBeatrice
cuda_winWindows + NVIDIA GPUBeatrice + RVC
onnx_winWindows + ONNX RuntimeBeatrice + RVC
onnx_macMac (M1) + ONNX RuntimeBeatrice + RVC

没 NVIDIA 独显?选 std / onnx 版本;有 RTX 5090?直接 cuda 版性能拉满。

独立 / 网络双模式

  • 独立模式:本地 PC 自己跑变声,零配置开箱即用。
  • 网络模式:把变声计算扔到另一台机器(性能更强的服务器或 Colab),客户端只负责录音 / 播放。游戏玩家特别需要——OBS + 游戏已经把 GPU 吃满了,把变声负载卸载到另一台机器才不会卡帧。

image

REST API

  • 提供 HTTP API,可被任何编程语言调用。
  • curl 命令行直接控制也能跑。
  • 想做定制化客户端(自己的桌面 / Web App)不用 fork,直接调 API。

v2.x 新增能力

  • 快捷键 + 缓冲区可视化(仅 RVC 模式)
  • chunk size 可调(性能 / 延迟权衡)
  • RVC 模型上传 bug 修复
  • Beatrice 说话人合并(merge)+ 自动 pitch shift
  • 编辑后的 Beatrice 模型可下载再训练

多语言文档

README 已收录 12 种语言:日、英、韩、中、德、阿、希、西、法、意、拉丁、马来、俄。中文文档见 docs_i18n/README_zh.md


📥 安装与使用

下载预编译版本

最省事的路径是从 Hugging Face 拉预编译二进制:

按平台 + 是否需要 RVC 选对应 .exe / .dmg / AppImage 双击安装。

Linux 用户

⚠️ 没有现成的 Linux 安装包,需要:

git clone https://github.com/w-okada/voice-changer.git
cd voice-changer
# 按 docs 自行构建(Linux 用户偏极客,默认你懂)

首次启动(macOS 警告)

本软件未签名,macOS 首次打开会提示"无法验证开发者"。按住 Ctrl 键点击图标 → 打开 → 确认 即可运行。这是 Apple 政策限制,与软件本身无关。

基础使用流程

  1. 启动 VCClient,授予麦克风权限。
  2. 选择运行模式(独立 / 服务器 / 客户端)。
  3. 在 GUI 里上传模型(.pth / .onnx 文件)或从内置列表选预训练模型。
  4. 选择输入设备(麦克风)和输出设备(虚拟音频线 / 扬声器)。
  5. 设置 → 调整 chunk size(越小延迟越低但质量越差)。
  6. 说话测试,按快捷键切换静音。
  7. 游戏 / OBS / Discord 里把输入设备改为 VCClient 虚拟输出。

进阶玩法 · 网络模式

  1. 在高性能机器上跑 VCClient 服务端模式。
  2. 客户端机器用同一局域网的客户端模式连接。
  3. 客户端机器性能不够?用 Google Colab notebook 跑服务端(仓库里有现成的 Hina_Mod_Kaggle_Real_Time_Voice_Changer.ipynb)。

模型训练

需要用自己的声音训练模型?仓库提供 trainer/ 目录 + Docker 镜像:


🎯 适用场景

谁最适合装一个 VCClient?

  • VTuber / 虚拟主播:用自己的声音实时驱动虚拟形象,或切换不同角色声线。
  • 游戏主播 / 内容创作者:保持匿名 + 增加趣味性 + 保护个人隐私。
  • 多语言内容翻译:把同一段内容快速切换不同声线,做多语言配音。
  • 音频内容创作:有声书 / 播客 / 短视频配音,避免自己反复录制。
  • 游戏内社交玩家:Discord / 游戏内语音直接变声,不影响队友沟通。
  • AI 模型研究人员:横向对比 RVC / Beatrice / MMVC 等模型的实时表现。
  • 轻量部署开发者:REST API + Docker 镜像,能嵌入自己的产品里做语音转换后端。

🔍 对比 / 替代方案

实时 AI 变声这个赛道,VCClient 的位置可以这么看:

原生模型框架(需要自己部署)

  • RVC WebUI:RVC 官方仓库,功能最完整,但要装 Python + PyTorch + 处理环境问题。
  • so-vits-svc / DDSP-SVC / MMVC:各自独立仓库,每个都得自己部署。
  • Retrieval-based-Voice-Conversion 系列:研究派首选,门槛较高。

商业变声软件

  • Voicemod:Windows 上最知名的实时变声,订阅制收费($9+/月),效果不错但闭源。
  • Clownfish Voice Changer:老牌免费方案,但不是 AI 模型,效果差很多。
  • MorphVOX:商业老牌,付费,效果稳定。
  • Voicemeeter + Banana:音频路由瑞士军刀,需要自己接 AI 模型。

AI 云端变声

  • Voice.ai / Kits.AI:云端订阅,效果强但音频必须上传,隐私顾虑大。
  • ElevenLabs Voice Changer:文本到语音强项,实时变声不是核心。

VCClient 的差异化

  • 唯一把 RVC + Beatrice + MMVC + so-vits-svc + DDSP-SVC 全部 GUI 化的开源项目——其他方案都得自己装环境。
  • 20.5k stars,日语社区最活跃的开源变声工具之一,长期维护承诺清晰。
  • 独立 + 网络 + Colab 三种部署模式,低配机器也能用。
  • REST API + Docker 镜像,能嵌入自有产品。
  • 预编译二进制开箱即用,普通用户也能上手。
  • ⚠️ macOS 必须手动签名确认(Apple 政策限制)。
  • ⚠️ 没有 Linux 预编译版,必须自己编译。

⚠️ 注意事项

客观地讲几个坑:

  • macOS 未签名警告:首次打开需要 Ctrl+点击 → 打开 → 确认,不是病毒是 Apple 政策。
  • 角色素材使用限制:Beatrice 系列框架对接的角色(つくよみちゃん、あみたろ、黄琴まひろ)有官方使用条款

    • つくよみちゃん:禁止用于攻击他人、政治立场表达、未分级刺激内容、二次利用分发。
    • あみたろ:必须明确标注"经过声质转换 + 不是角色本人说话"。
    • 黄琴まひろ:对应条款另行规定。
    • 商用前请仔细看 README 末尾的"利用規約 / 免責事項"
  • Linux 没有预编译版:必须自己 clone 仓库编译,需要装 Node.js + Python + CUDA(可选)+ 系统依赖。
  • CUDA 版本仅 Windows:macOS / Linux 想跑 RVC 只能走 ONNX 版本,性能会比 CUDA 略低。
  • GPU 要求:Beatrice 轻量,CPU 也能跑;RVC 推荐至少 RTX 3060 级别显卡,低显存会 OOM。
  • 延迟 vs 质量:chunk size 越小延迟越低(适合直播),但模型效果越差。需要按场景调。
  • 417 个 open issues:项目体量大、用户多,问题反馈也多。翻 issues 时善用搜索,很多问题前人都遇到过。
  • 网络模式需要固定 IP / 端口转发:局域网直连没事,从外网连需要自己开端口或用 frp/Cloudflare Tunnel。
  • OSS 免责声明:作者明确写了"使用或使用不能造成的任何损失概不负责",注意合规使用

✅ 总结

VCClient 是实时 AI 变声赛道的 "Swiss Army Knife"——把 RVC / Beatrice / MMVC / so-vits-svc / DDSP-SVC 五个主流框架统一 GUI 化,预编译二进制 + REST API + Docker 三种部署路径,20.5k stars + 1,754 commits 长期维护。

  • ✅ 一个 GUI 跑遍 RVC / Beatrice v2 / MMVC / so-vits-svc / DDSP-SVC
  • ✅ 多平台预编译二进制(Windows / Mac / Linux)
  • ✅ 独立 + 网络 + Colab 三种部署模式
  • ✅ REST API,可二次开发
  • ✅ v2.x 新增快捷键、缓冲区可视化、说话人合并
  • ✅ 12 种语言文档支持
  • ✅ 同作者还有 TTSClient / ASRClient 配套生态
  • ⚠️ macOS 首次打开需要手动签名确认
  • ⚠️ Linux 没有预编译,必须自己编译
  • ⚠️ 部分角色素材使用有合规限制
  • ⚠️ 417 个 open issues,体量大问题多
  • ⚠️ OSS 免责声明,自行评估使用风险

推荐指数:⭐⭐⭐⭐⭐ (5/5)

适合:VTuber / 虚拟主播、游戏主播、内容创作者、需要保护嗓音隐私的用户、AI 模型横向研究者、想 DIY 语音转换后端的开发者。

不适合:完全不愿意折腾任何设置的用户(建议直接订阅 Voicemod)、只需要简单变声效果不追求 AI 质量的用户、对延迟极敏感且无 GPU 的用户(建议走 Colab 路线)。

如果你想在 2026 年找到一个门槛最低模型覆盖最全长期维护承诺清晰的实时 AI 变声开源项目,VCClient 几乎就是当前唯一答案


VCClient — Real-time AI voice conversion for everyone.