🎙️Quobi：隐私优先本地语音听写AI助手工具完全离线智能润色

Quobi 是一款完全本地运行的桌面语音听写工具，按住热键说话松键即转文字，自动去除口头禅、修复语法并加标点大写。支持 Linux 与 Windows 双平台，基于 NVIDIA Parakeet 与自研 Quill 大模型在本地完成转写与润色，全程零网络零数据泄露。

🎤 引言

写文章、回邮件、敲代码间隙想记下灵感的时候，你会选打字还是语音？前者慢但精准，后者快但 "呃……那个……我觉得吧" 一堆口头禅跟着出来，事后还得花两分钟手动清理。

更别提那些云端语音转文字工具了——说的每个字都要先飞到别人的服务器上跑一圈，医疗记录、商业草稿、未公开的代码思路，全部 "投喂" 给第三方。

Quobi 想解决的恰好就是这两个痛点：本地运行（你的声音哪都不去）+ 智能润色（说出口就是干净文本）。按一下热键开说，松手就是可以直接复制粘贴的成品文字，整个过程不到两秒。

⭐ 核心功能

Quobi 的设计思路相当克制：两个模型接力，不联网，不留痕。

双模型本地流水线

NVIDIA Parakeet TDT 0.6B 负责语音转文字，跑在 CPU 上（通过 sherpa-onnx + ONNX Runtime）。即使单核也比实时快 20 多倍，无需 GPU 加速。
自研 Quill 大模型（基于 Qwen3.5 微调，0.8B / 2B / 4B 三档可选）负责把转录稿润色成自然文本，跑在 GPU 上（llama.cpp + Vulkan，跨厂商通用）。
两段加起来，普通机器上转录 < 1 秒、润色约 1 秒，松手到出字几乎无感。

三种编辑强度（用户自选）

Verbatim：仅去掉 "um/uh" 这类口头禅，修正标点和大小写，保留你的原话原意。
Tidy：在 Verbatim 基础上修复语法、合并零碎句、修复合并长难句，但保留你的语气。
Formatted：Tidy 的全部能力，加上识别口述的列表/段落结构自动整理排版。

完全离线

没有账号、没有 token、不上传任何音频。
模型首次下载走 HTTPS，之后加载前会校验 SHA-256，防止被篡改。
你可以打开抓包工具盯着，整个听写路径上零网络请求。

多语言支持

默认英语（Parakeet v2，业界公认最强英语模型）。
需要其他语言可在 Settings 切到 Parakeet v3（25 种语言，自动语种检测）。

跨 GPU 兼容

Quill 走 Vulkan，跑在 NVIDIA / AMD / Intel 显卡上都行，不需要装 CUDA。
没独显就直接走 CPU fallback，照样能跑，只是润色会慢一点。

📥 安装与使用

Quobi 提供了两种安装路径。

Linux：AppImage

直接从 Releases 页面下载最新版本：

chmod +x Quobi*.AppImage
./Quobi*.AppImage

⚠️ AppImage 依赖 glibc 2.39+，对应 Ubuntu 24.04 LTS+ / Fedora 40+ / Debian 13+ / Arch 滚动版。如果你在 Ubuntu 22.04 / Debian 12 / RHEL 8-9 这种老系统上跑，会报 GLIBC 错误，需要改走源码编译。

Windows：Installer

下载 .exe 安装包一路下一步，从开始菜单启动即可。

首次启动配置

启动后先去 Settings 下载两个模型：

一个 Parakeet 语音模型（按需选 v2 英语或 v3 多语言）。
一个 Quill 润色模型（0.8B 速度快 / 2B 均衡 / 4B 质量最高）。

模型是一次性下载到本地，之后不再需要联网。

使用方式

设置好全局热键（默认通常是某个组合键），在任何文本输入框里：

按住热键 → 开始说话
松开热键 → 自动转录 + 润色 + 粘贴到当前光标处

从松手到出字一般 1.5 秒以内，体感跟输入法差不多。

源码编译（高级用户）

如果想自己折腾：

# 构建听写引擎（Python 守护进程）
cd voice-type && make build && cd ..

# 构建桌面应用 + AppImage（打包引擎和 Vulkan 润色 sidecar）
cd voice-type-desktop && NO_STRIP=1 bun run tauri build

完整指南（含 Debian / Fedora / RHEL / Arch 各发行版的依赖列表）在 docs/BUILD-FROM-SOURCE.md。

🎯 适用场景

谁最适合用 Quobi？官方文档描述的场景其实非常具体：

写作者 / 博客作者：口述思路 → 直接得到排版好的段落，比 Whisper + 手动清理快得多。
程序员：注释、commit message、邮件、文档，这些不需要 IDE 但要写中文/英文长句的场景，语音明显快于键盘。
隐私敏感用户：律师、医生、记者、商务人士——任何不希望录音落到云端的场景，Quobi 的零网络特性是刚需。
按月订阅恐惧症：Wispr Flow / Otter.ai 这类按分钟或按月收费的工具，用量一大账单就难看，Quobi 一次性下载模型后零边际成本。
多语言工作者：25 种语言自动检测，跨国会议场景下随手切换语种不需要重启工具。

🔍 对比 / 替代方案

Quobi 的定位非常明确：本地 + 智能润色。围绕这两个关键词，市面上的同类工具大致可以这么看：

云端听写（按月收费）

Wispr Flow：体验顺滑，但音频先到云端，每月 $15 起。适合不差钱 + 信任厂商的用户。
Otter.ai：会议记录起家，个人版有免费额度但有分钟数限制。团队协作强但本质是 SaaS。
macOS Dictation / Windows Voice Typing：系统自带，免费，但需要联网走云端识别，隐私层面跟 Quobi 不在同一个级别。

纯本地（无润色）

Whisper.cpp：开源标杆，转录质量极佳，但只做语音→文字这一步，输出的还是 "呃那个……嗯" 这种原始稿，需要自己再清理。
faster-whisper：Python 生态的 Whisper 优化版，同样的问题——只转录不润色。

国内闭源方案

讯飞语记：中文识别准，但绑定讯飞账号和数据，跨平台支持有限。
钉钉/飞书语音输入：依附于具体办公套件，无法独立使用。

Quobi 的差异化在于"本地 Whisper 级别转录 + 本地 LLM 润色"这个组合拳——其他工具基本只能给你做到一半，要么本地但粗糙，要么云端但智能。

⚠️ 注意事项

客观地讲几个坑：

Stars 只有 11：项目还非常早期（GitHub 仓库 16 次 commit、1 个 branch、1 个 tag），可能存在未发现的 bug，生产环境使用建议先小范围测试。
平台覆盖有限：目前只支持 Linux + Windows，macOS 还没出，Android 在 Roadmap 里但优先级靠后。Apple Silicon 用户暂时只能等。
AGPL-3.0 许可证：应用代码是 AGPL-3.0，Quill 模型是 Apache-2.0。如果想嵌入闭源商业产品，需要单独申请商业 license，详见 LICENSING.md。
glibc 版本要求：Linux AppImage 需要 glibc 2.39+，老发行版用户必须自己编译。
首次配置稍复杂：要下载两个模型、可能要切换语言版本，第一次用会觉得不如 "即开即用" 的云端工具省事。
首次需联网：模型虽然离线运行，但首次下载模型还是要联网。完全 air-gapped 环境需要提前离线部署模型。

✅ 总结

Quobi 是一个定位非常精准的本地语音听写工具：解决 "说得快 + 写得干净 + 数据不出门" 这个三角难题。

✅ 完全本地、零网络、零账户——隐私层面是真·离线
✅ 双模型流水线，转录快、润色质量高，体感几乎无延迟
✅ 25 种语言支持 + 三种编辑强度，灵活度足够
✅ Vulkan 跨 GPU，无需 CUDA 折腾
✅ Apache-2.0 的 Quill 模型，可以自行微调或换 GGUF
⚠️ Stars 11，项目早期，稳定性需要观察
⚠️ 仅 Linux/Windows，macOS 暂时缺位
⚠️ AGPL-3.0 许可证，商业集成要单独谈

推荐指数：⭐⭐⭐⭐ （4/5）

适合：注重隐私 + 有语音输入需求 + 不想按月付费的 Linux/Windows 用户。如果你正在用 Whisper + 手动清理的流程，Quobi 能直接把你从那个泥潭里捞出来。