Quobi 是一款完全本地运行的桌面语音听写工具,按住热键说话松键即转文字,自动去除口头禅、修复语法并加标点大写。支持 Linux 与 Windows 双平台,基于 NVIDIA Parakeet 与自研 Quill 大模型在本地完成转写与润色,全程零网络零数据泄露。

🎤 引言

写文章、回邮件、敲代码间隙想记下灵感的时候,你会选打字还是语音?前者慢但精准,后者快但 "呃……那个……我觉得吧" 一堆口头禅跟着出来,事后还得花两分钟手动清理。

更别提那些云端语音转文字工具了——说的每个字都要先飞到别人的服务器上跑一圈,医疗记录、商业草稿、未公开的代码思路,全部 "投喂" 给第三方。

Quobi 想解决的恰好就是这两个痛点:本地运行(你的声音哪都不去)+ 智能润色(说出口就是干净文本)。按一下热键开说,松手就是可以直接复制粘贴的成品文字,整个过程不到两秒。


⭐ 核心功能

Quobi 的设计思路相当克制:两个模型接力,不联网,不留痕

双模型本地流水线

  • NVIDIA Parakeet TDT 0.6B 负责语音转文字,跑在 CPU 上(通过 sherpa-onnx + ONNX Runtime)。即使单核也比实时快 20 多倍,无需 GPU 加速。
  • 自研 Quill 大模型(基于 Qwen3.5 微调,0.8B / 2B / 4B 三档可选)负责把转录稿润色成自然文本,跑在 GPU 上(llama.cpp + Vulkan,跨厂商通用)。
  • 两段加起来,普通机器上转录 < 1 秒、润色约 1 秒,松手到出字几乎无感。

三种编辑强度(用户自选)

  • Verbatim:仅去掉 "um/uh" 这类口头禅,修正标点和大小写,保留你的原话原意。
  • Tidy:在 Verbatim 基础上修复语法、合并零碎句、修复合并长难句,但保留你的语气。
  • Formatted:Tidy 的全部能力,加上识别口述的列表/段落结构自动整理排版。

完全离线

  • 没有账号、没有 token、不上传任何音频。
  • 模型首次下载走 HTTPS,之后加载前会校验 SHA-256,防止被篡改。
  • 你可以打开抓包工具盯着,整个听写路径上零网络请求。

多语言支持

  • 默认英语(Parakeet v2,业界公认最强英语模型)。
  • 需要其他语言可在 Settings 切到 Parakeet v3(25 种语言,自动语种检测)。

跨 GPU 兼容

  • Quill 走 Vulkan,跑在 NVIDIA / AMD / Intel 显卡上都行,不需要装 CUDA。
  • 没独显就直接走 CPU fallback,照样能跑,只是润色会慢一点。

📥 安装与使用

Quobi 提供了两种安装路径。

Linux:AppImage

直接从 Releases 页面下载最新版本:

chmod +x Quobi*.AppImage
./Quobi*.AppImage

⚠️ AppImage 依赖 glibc 2.39+,对应 Ubuntu 24.04 LTS+ / Fedora 40+ / Debian 13+ / Arch 滚动版。如果你在 Ubuntu 22.04 / Debian 12 / RHEL 8-9 这种老系统上跑,会报 GLIBC 错误,需要改走源码编译。

Windows:Installer

下载 .exe 安装包一路下一步,从开始菜单启动即可。

首次启动配置

启动后先去 Settings 下载两个模型:

  1. 一个 Parakeet 语音模型(按需选 v2 英语 或 v3 多语言)。
  2. 一个 Quill 润色模型(0.8B 速度快 / 2B 均衡 / 4B 质量最高)。

模型是一次性下载到本地,之后不再需要联网。

使用方式

设置好全局热键(默认通常是某个组合键),在任何文本输入框里:

  • 按住热键 → 开始说话
  • 松开热键 → 自动转录 + 润色 + 粘贴到当前光标处

从松手到出字一般 1.5 秒以内,体感跟输入法差不多。

源码编译(高级用户)

如果想自己折腾:

# 构建听写引擎(Python 守护进程)
cd voice-type && make build && cd ..

# 构建桌面应用 + AppImage(打包引擎和 Vulkan 润色 sidecar)
cd voice-type-desktop && NO_STRIP=1 bun run tauri build

完整指南(含 Debian / Fedora / RHEL / Arch 各发行版的依赖列表)在 docs/BUILD-FROM-SOURCE.md


🎯 适用场景

谁最适合用 Quobi?官方文档描述的场景其实非常具体:

  • 写作者 / 博客作者:口述思路 → 直接得到排版好的段落,比 Whisper + 手动清理快得多。
  • 程序员:注释、commit message、邮件、文档,这些不需要 IDE 但要写中文/英文长句的场景,语音明显快于键盘。
  • 隐私敏感用户:律师、医生、记者、商务人士——任何不希望录音落到云端的场景,Quobi 的零网络特性是刚需。
  • 按月订阅恐惧症:Wispr Flow / Otter.ai 这类按分钟或按月收费的工具,用量一大账单就难看,Quobi 一次性下载模型后零边际成本。
  • 多语言工作者:25 种语言自动检测,跨国会议场景下随手切换语种不需要重启工具。

🔍 对比 / 替代方案

Quobi 的定位非常明确:本地 + 智能润色。围绕这两个关键词,市面上的同类工具大致可以这么看:

云端听写(按月收费)

  • Wispr Flow:体验顺滑,但音频先到云端,每月 $15 起。适合不差钱 + 信任厂商的用户。
  • Otter.ai:会议记录起家,个人版有免费额度但有分钟数限制。团队协作强但本质是 SaaS。
  • macOS Dictation / Windows Voice Typing:系统自带,免费,但需要联网走云端识别,隐私层面跟 Quobi 不在同一个级别。

纯本地(无润色)

  • Whisper.cpp:开源标杆,转录质量极佳,但只做语音→文字这一步,输出的还是 "呃那个……嗯" 这种原始稿,需要自己再清理。
  • faster-whisper:Python 生态的 Whisper 优化版,同样的问题——只转录不润色。

国内闭源方案

  • 讯飞语记:中文识别准,但绑定讯飞账号和数据,跨平台支持有限。
  • 钉钉/飞书语音输入:依附于具体办公套件,无法独立使用。

Quobi 的差异化在于"本地 Whisper 级别转录 + 本地 LLM 润色"这个组合拳——其他工具基本只能给你做到一半,要么本地但粗糙,要么云端但智能。


⚠️ 注意事项

客观地讲几个坑:

  • Stars 只有 11:项目还非常早期(GitHub 仓库 16 次 commit、1 个 branch、1 个 tag),可能存在未发现的 bug,生产环境使用建议先小范围测试。
  • 平台覆盖有限:目前只支持 Linux + Windows,macOS 还没出,Android 在 Roadmap 里但优先级靠后。Apple Silicon 用户暂时只能等。
  • AGPL-3.0 许可证:应用代码是 AGPL-3.0,Quill 模型是 Apache-2.0。如果想嵌入闭源商业产品,需要单独申请商业 license,详见 LICENSING.md
  • glibc 版本要求:Linux AppImage 需要 glibc 2.39+,老发行版用户必须自己编译。
  • 首次配置稍复杂:要下载两个模型、可能要切换语言版本,第一次用会觉得不如 "即开即用" 的云端工具省事。
  • 首次需联网:模型虽然离线运行,但首次下载模型还是要联网。完全 air-gapped 环境需要提前离线部署模型。

✅ 总结

Quobi 是一个定位非常精准的本地语音听写工具:解决 "说得快 + 写得干净 + 数据不出门" 这个三角难题

  • ✅ 完全本地、零网络、零账户——隐私层面是真·离线
  • ✅ 双模型流水线,转录快、润色质量高,体感几乎无延迟
  • ✅ 25 种语言支持 + 三种编辑强度,灵活度足够
  • ✅ Vulkan 跨 GPU,无需 CUDA 折腾
  • ✅ Apache-2.0 的 Quill 模型,可以自行微调或换 GGUF
  • ⚠️ Stars 11,项目早期,稳定性需要观察
  • ⚠️ 仅 Linux/Windows,macOS 暂时缺位
  • ⚠️ AGPL-3.0 许可证,商业集成要单独谈

推荐指数:⭐⭐⭐⭐ (4/5)

适合:注重隐私 + 有语音输入需求 + 不想按月付费的 Linux/Windows 用户。如果你正在用 Whisper + 手动清理的流程,Quobi 能直接把你从那个泥潭里捞出来。