Hyper-Extract 是一款 LLM 驱动的智能知识提取框架,一条命令把非结构化文档转换为知识图谱、超图、时空图等8种结构化格式。支持 OpenAI/Anthropic/阿里云百炼,80+ YAML 模板覆盖金融法律医疗,开源 Apache 2.0,文末附详细使用教程

🎤 引言

读论文的时候最烦什么?几十页 PDF 读完,关键人物、概念和关系全在脑子里乱成一团。手动整理成笔记太费时间,用传统笔记工具又没法还原文献里复杂的关联。

Hyper-Extract 就是来解决这个问题的——一个 LLM 驱动的智能知识提取框架,只需要一条命令,就能把任意非结构化文档自动变成知识图谱、超图、时空图等8种结构化格式。学术论文、公司财报、技术文档,丢进去就能得到一张可交互的知识网络。


⭐ 核心特点

1. 八种强类型知识结构

Hyper-Extract 不只是做简单的关键词提取,它支持从简单到复杂的多种知识抽象:

  • Collection — 列表或集合,最基础的提取
  • Pydantic Model — 结构化数据模型
  • Knowledge Graph — 实体和关系的经典知识图谱
  • Temporal Graph — 带时间维度的时序知识图谱
  • Spatial Graph — 带地理位置的空间知识图谱
  • Spatio-Temporal Graph — 时空结合的复合图谱
  • Hypergraph — 超图,一条边可以连接多个节点
  • Event Graph — 事件图谱

官方对比表格显示,对比 GraphRAG、LightRAG、KG-Gen、ATOM,Hyper-Extract 是唯一同时支持 Temporal Graph + Spatial Graph + Hypergraph 的方案。

2. 10+ 提取引擎,80+ YAML 模板

内置多个经过验证的提取引擎:GraphRAG、LightRAG、Hyper-RAG、KG-Gen 等。同时提供 80+ YAML 模板,覆盖金融、法律、医疗、中药、工业、通用等领域。

拿来就能用,不需要自己写 Prompt 或设计 Schema。

3. MCP Server 支持,Claude Desktop 直接对话知识库

最近 PR #40 新增了 MCP Server(he-mcp),可以在 Claude Desktop 和 IDE Agent 里直接查询你的知识库。不用导出,直接用自然语言对话已经提取好的文档。

4. Obsidian 导出

PR #37 新增了 Obsidian 导出功能——把任意提取的图谱一键变成 Obsidian 知识库,笔记之间用 [[wikilinks]] 互链。Markdown 文件格式,本地存储,不依赖任何云服务。

5. 增量更新

新增文档可以随时追加到已有的知识库,不需要全量重新提取。知识库会增量演化,持续扩展。


📥 安装与使用

安装

uv tool install hyperextract

初始化配置

he config init -k YOUR_OPENAI_API_KEY

快速提取一篇文档

# 把特斯拉传记文档转换为知识图谱
he parse examples/en/tesla.md -t general/biography_graph -o ./output/ -l en

# 查询知识库
he search ./output/ "What are Tesla's major achievements?"

# 可视化图谱
he show ./output/

# 导出为 Obsidian vault
he export obsidian ./output/ -o ./vault/

Python API 示例

from hyperextract import Template

ka = Template.create("general/biography_graph")

with open("examples/en/tesla.md") as f:
    result = ka.parse(f.read())

result.show()  # 可视化

本地部署(vLLM)

不想用云 API?也可以本地跑:

from hyperextract import create_client

llm, emb = create_client(
    llm="vllm:Qwen3.5-9B@http://localhost:8000/v1",
    embedder="vllm:bge-m3@http://localhost:8001/v1",
    api_key="dummy",
)

支持的模型

平台验证通过的模型
OpenAIgpt-4o, gpt-4o-mini, gpt-5
Anthropicclaude-opus-4-8, claude-sonnet-4-6, claude-haiku-4-5
阿里云百炼qwen-plus, qwen-turbo, deepseek-r1
本地 vLLMQwen3.5-9B (GPTQ-Marlin)

🎯 适用场景

推荐用 Hyper-Extract 的人:

  1. 学术研究人员 — 把论文丢进去,自动提取概念、作者、引用关系,生成可交互的知识图谱
  2. 金融分析师 — 从财报、招股书里提取实体、财务指标和它们的关系,结构化存储便于后续分析
  3. 知识管理爱好者 — 用 Obsidian 导出功能,把文档变成自己的第二大脑
  4. RAG 应用开发者 — 构建知识图谱增强的 RAG 系统,提升检索质量

不太适合的场景:

  • Stars 只有 2k,项目还非常新,稳定性需要更多验证
  • 只想做简单文本摘要的场景(用现成 API 更简单)
  • 没有技术背景的普通用户(CLI 工具有一定门槛)

⚠️ 注意事项

  1. 项目较新 — 目前 Stars 较低(约 2k),生态和文档还在完善中,遇到问题可能需要看源码
  2. 依赖 LLM API — 不运行本地模型的情况下需要 OpenAI/Anthropic 等 API,有成本
  3. 本地部署门槛 — 虽然支持 vLLM,但配置相对复杂,需要一定的 ML 运维能力
  4. Python 3.11+ 限定 — 不支持旧版 Python

✅ 总结

Hyper-Extract 是一个让人眼前一亮的知识提取工具。它不只是做简单的实体识别,而是真正把文档编译成最匹配其内在结构的知识抽象——时序图、空间图、超图,这些在传统 RAG 方案里很难实现的能力,它一条命令就搞定。

如果你经常处理非结构化文档,想要构建知识图谱而非只是做摘要,这个项目值得一试。GitHub 上有完整的文档和示例,上手不算难。

推荐指数:⭐⭐⭐⭐(扣一星在项目较新、生态待完善)

官网https://yifanfeng97.github.io/Hyper-Extract
GitHubhttps://github.com/yifanfeng97/Hyper-Extract