Hyper-Extract 是一款 LLM 驱动的智能知识提取框架,一条命令把非结构化文档转换为知识图谱、超图、时空图等8种结构化格式。支持 OpenAI/Anthropic/阿里云百炼,80+ YAML 模板覆盖金融法律医疗,开源 Apache 2.0,文末附详细使用教程
🎤 引言
读论文的时候最烦什么?几十页 PDF 读完,关键人物、概念和关系全在脑子里乱成一团。手动整理成笔记太费时间,用传统笔记工具又没法还原文献里复杂的关联。
Hyper-Extract 就是来解决这个问题的——一个 LLM 驱动的智能知识提取框架,只需要一条命令,就能把任意非结构化文档自动变成知识图谱、超图、时空图等8种结构化格式。学术论文、公司财报、技术文档,丢进去就能得到一张可交互的知识网络。
⭐ 核心特点
1. 八种强类型知识结构
Hyper-Extract 不只是做简单的关键词提取,它支持从简单到复杂的多种知识抽象:
- Collection — 列表或集合,最基础的提取
- Pydantic Model — 结构化数据模型
- Knowledge Graph — 实体和关系的经典知识图谱
- Temporal Graph — 带时间维度的时序知识图谱
- Spatial Graph — 带地理位置的空间知识图谱
- Spatio-Temporal Graph — 时空结合的复合图谱
- Hypergraph — 超图,一条边可以连接多个节点
- Event Graph — 事件图谱
官方对比表格显示,对比 GraphRAG、LightRAG、KG-Gen、ATOM,Hyper-Extract 是唯一同时支持 Temporal Graph + Spatial Graph + Hypergraph 的方案。
2. 10+ 提取引擎,80+ YAML 模板
内置多个经过验证的提取引擎:GraphRAG、LightRAG、Hyper-RAG、KG-Gen 等。同时提供 80+ YAML 模板,覆盖金融、法律、医疗、中药、工业、通用等领域。
拿来就能用,不需要自己写 Prompt 或设计 Schema。
3. MCP Server 支持,Claude Desktop 直接对话知识库
最近 PR #40 新增了 MCP Server(he-mcp),可以在 Claude Desktop 和 IDE Agent 里直接查询你的知识库。不用导出,直接用自然语言对话已经提取好的文档。
4. Obsidian 导出
PR #37 新增了 Obsidian 导出功能——把任意提取的图谱一键变成 Obsidian 知识库,笔记之间用 [[wikilinks]] 互链。Markdown 文件格式,本地存储,不依赖任何云服务。
5. 增量更新
新增文档可以随时追加到已有的知识库,不需要全量重新提取。知识库会增量演化,持续扩展。
📥 安装与使用
安装
uv tool install hyperextract初始化配置
he config init -k YOUR_OPENAI_API_KEY快速提取一篇文档
# 把特斯拉传记文档转换为知识图谱
he parse examples/en/tesla.md -t general/biography_graph -o ./output/ -l en
# 查询知识库
he search ./output/ "What are Tesla's major achievements?"
# 可视化图谱
he show ./output/
# 导出为 Obsidian vault
he export obsidian ./output/ -o ./vault/Python API 示例
from hyperextract import Template
ka = Template.create("general/biography_graph")
with open("examples/en/tesla.md") as f:
result = ka.parse(f.read())
result.show() # 可视化本地部署(vLLM)
不想用云 API?也可以本地跑:
from hyperextract import create_client
llm, emb = create_client(
llm="vllm:Qwen3.5-9B@http://localhost:8000/v1",
embedder="vllm:bge-m3@http://localhost:8001/v1",
api_key="dummy",
)支持的模型
| 平台 | 验证通过的模型 |
|---|---|
| OpenAI | gpt-4o, gpt-4o-mini, gpt-5 |
| Anthropic | claude-opus-4-8, claude-sonnet-4-6, claude-haiku-4-5 |
| 阿里云百炼 | qwen-plus, qwen-turbo, deepseek-r1 |
| 本地 vLLM | Qwen3.5-9B (GPTQ-Marlin) |
🎯 适用场景
推荐用 Hyper-Extract 的人:
- 学术研究人员 — 把论文丢进去,自动提取概念、作者、引用关系,生成可交互的知识图谱
- 金融分析师 — 从财报、招股书里提取实体、财务指标和它们的关系,结构化存储便于后续分析
- 知识管理爱好者 — 用 Obsidian 导出功能,把文档变成自己的第二大脑
- RAG 应用开发者 — 构建知识图谱增强的 RAG 系统,提升检索质量
不太适合的场景:
- Stars 只有 2k,项目还非常新,稳定性需要更多验证
- 只想做简单文本摘要的场景(用现成 API 更简单)
- 没有技术背景的普通用户(CLI 工具有一定门槛)
⚠️ 注意事项
- 项目较新 — 目前 Stars 较低(约 2k),生态和文档还在完善中,遇到问题可能需要看源码
- 依赖 LLM API — 不运行本地模型的情况下需要 OpenAI/Anthropic 等 API,有成本
- 本地部署门槛 — 虽然支持 vLLM,但配置相对复杂,需要一定的 ML 运维能力
- Python 3.11+ 限定 — 不支持旧版 Python
✅ 总结
Hyper-Extract 是一个让人眼前一亮的知识提取工具。它不只是做简单的实体识别,而是真正把文档编译成最匹配其内在结构的知识抽象——时序图、空间图、超图,这些在传统 RAG 方案里很难实现的能力,它一条命令就搞定。
如果你经常处理非结构化文档,想要构建知识图谱而非只是做摘要,这个项目值得一试。GitHub 上有完整的文档和示例,上手不算难。
推荐指数:⭐⭐⭐⭐(扣一星在项目较新、生态待完善)
官网:https://yifanfeng97.github.io/Hyper-Extract
GitHub:https://github.com/yifanfeng97/Hyper-Extract