Paperless-ngx 是一款开源文档管理神器,支持 OCR 自动识别、自动分类打标、全文搜索。只需拖拽即可入库,纸质文件、PDF、Office 文档全部数字化,再也不怕找不到发票合同。Docker 一键部署,NAS 用户必备,38k Stars 验证品质。
🎤 引言
家里堆了一抽屉的发票合同,每次要找某个文件都得翻箱倒柜?公司的纸质文档越积越多,搬家的时候光是整理文件就能累死人?
我之前也是这样。直到我发现了 Paperless-ngx。
这是一个开源文档管理系统,把你所有的纸质文件、PDF、Office 文档全部数字化入库。核心是什么?拖进去,它自动 OCR 识别内容;打标签,它帮你自动分类;想找什么?直接搜文件名甚至文件内容,秒出结果。
NAS 用户的最爱,Docker 一键部署,38k Stars——群众的眼光是雪亮的。
⭐ 核心功能
OCR 自动识别
这是 Paperless-ngx 的灵魂。上传任意文档,它会自动用 Tesseract OCR 引擎识别文字,把扫描件、纸质文件变成可搜索的文本。不只是图片,PDF 里的嵌入式文字也能提取。
识别后的内容完全可搜索,再也不需要记住文件名了——记住关键词就行。
智能标签与分类
支持多级标签系统:给文档打标签、分配日期、关联 correspondent(发件方)。内置 AI 分类器可以根据内容自动建议标签,省去手动整理的时间。
支持按日期归档、按标签筛选、按文档类型过滤。Dashboard 一目了然,收件箱、最近添加、统计数据全都看得到。
全文搜索
Paperless-ngx 的搜索不是盖的。不只是文件名,连 OCR 识别后的文档内容都能搜。模糊匹配、精确匹配、日期范围筛选——专业级搜索体验。
多格式支持
入库支持的格式包括但不限于:
- PDF(含扫描件、图片型 PDF)
- Office 文档(Word、Excel、PowerPoint)
- 图片(JPG、PNG、TIFF)
- 邮件(EML、MSG,自动提取附件)
- 通用文本文件
所有文件统一管理,再也不用在各个文件夹里来回找。
版本控制
文档修改后会自动保留历史版本。想回滚?没问题。可以查看任意历史版本,对比差异。
消费者视图
为家庭用户设计的消费视图:账单、合同、证件、发票——按类型分组,找起来快得很。
📥 安装使用
Docker 一键部署(推荐)
最容易的方式是用 docker compose,一行命令跑起来:
# 下载官方 compose 文件
curl -O https://raw.githubusercontent.com/paperless-ngx/paperless-ngx/main/docker/compose.yml
# 启动
docker compose up -d官方 compose 配置好了一切:paperless 主应用、Redis 缓存、数据库(SQLite)。访问 http://your-server:8000 即可开始使用。
首次配置
首次启动需要:
- 创建管理员账号
- 配置消费目录(paperless 会监控这个文件夹,新文件自动入库)
- 可选:配置邮件导入(支持 IMAP,自动从邮件导入附件)
使用流程
1. 把文件丢进消费目录(或拖拽上传)
2. Paperless 自动 OCR 识别
3. AI 自动打标签、分类
4. 人工审核、微调标签
5. 完成归档,全文可搜索NAS 用户
群晖、威联通、TrueNAS 用户可以直接在 Docker 环境运行。官方文档有针对各 NAS 系统的详细教程。
🎯 适用场景
家庭用户
账单、水电费单、快递签收单、证件复印件——全部扫一扫入库,再也不怕纸文件泛黄丢失。按类型归档,搜索秒出。
中小企业
合同、发票、报价单、客户资料——集中管理,团队共享。权限控制、版本历史,文件流转可追溯。
自由职业者
发票、收据、项目文档——财务归档必备。报税的时候再也不用手忙脚乱翻抽屉了。
NAS 玩家
已经用 NAS 做私有云的朋友,Paperless-ngx 是文档数字化的完美补充。本地存储,隐私安全,不依赖任何第三方服务。
⚠️ 注意事项
硬件要求
OCR 是 CPU 密集型任务。如果文档量大,建议给 Docker 分配 2 核以上的 CPU。不然识别速度会比较慢,一两百页的扫描件可能需要等几分钟。
文件备份
Docker 环境下,数据存在 volume 里。虽然 paperless 支持导出,但建议定期备份 /var/lib/paperless 目录。相比 Windows 文件夹,备份策略需要多一步。
中文 OCR
Tesseract 默认对中文支持一般。如果主要是中文文档,建议额外安装中文字库,或者考虑先用中文 OCR 服务处理一遍再入库。
学习成本
刚上手可能会困惑:消费目录、correspondent、标签、文档类型——这些概念需要花点时间理解。建议先看一遍官方文档的 Quick Start。
✅ 总结
优点:
- ✅ OCR 自动识别,扫描件也能全文搜索
- ✅ AI 辅助分类打标,省时省力
- ✅ 全文搜索,再也不用记文件名
- ✅ 多格式支持,Office、邮件、图片通吃
- ✅ 版本历史,文档修改可回滚
- ✅ Docker 部署,NAS 用户友好
- ✅ 38k Stars,社区活跃,持续迭代
缺点:
- ❌ OCR 需要一定 CPU 资源
- ❌ 中文 OCR 效果一般
- ❌ 备份比普通文件夹复杂一点
- ❌ 初期有一定学习成本
推荐指数:⭐⭐⭐⭐
如果你的生活或工作中需要处理大量纸质文档,Paperless-ngx 是目前最佳的开源解决方案。NAS 用户强烈推荐,Docker 一键部署,本地存储隐私安全。虽然中文 OCR 需要调教,但整体功能完整、体验流畅。用过就知道,再也回不去以前翻抽屉的日子了。