🧠 Hyper Extract：LLM智能驱动只需一条命令即可将文档转换为知识图谱

Hyper-Extract 是一款 LLM 驱动的智能知识提取框架，一条命令把非结构化文档转换为知识图谱、超图、时空图等8种结构化格式。支持 OpenAI/Anthropic/阿里云百炼，80+ YAML 模板覆盖金融法律医疗，开源 Apache 2.0，文末附详细使用教程

🎤 引言

读论文的时候最烦什么？几十页 PDF 读完，关键人物、概念和关系全在脑子里乱成一团。手动整理成笔记太费时间，用传统笔记工具又没法还原文献里复杂的关联。

Hyper-Extract 就是来解决这个问题的——一个 LLM 驱动的智能知识提取框架，只需要一条命令，就能把任意非结构化文档自动变成知识图谱、超图、时空图等8种结构化格式。学术论文、公司财报、技术文档，丢进去就能得到一张可交互的知识网络。

⭐ 核心特点

1. 八种强类型知识结构

Hyper-Extract 不只是做简单的关键词提取，它支持从简单到复杂的多种知识抽象：

Collection — 列表或集合，最基础的提取
Pydantic Model — 结构化数据模型
Knowledge Graph — 实体和关系的经典知识图谱
Temporal Graph — 带时间维度的时序知识图谱
Spatial Graph — 带地理位置的空间知识图谱
Spatio-Temporal Graph — 时空结合的复合图谱
Hypergraph — 超图，一条边可以连接多个节点
Event Graph — 事件图谱

官方对比表格显示，对比 GraphRAG、LightRAG、KG-Gen、ATOM，Hyper-Extract 是唯一同时支持 Temporal Graph + Spatial Graph + Hypergraph 的方案。

2. 10+ 提取引擎，80+ YAML 模板

内置多个经过验证的提取引擎：GraphRAG、LightRAG、Hyper-RAG、KG-Gen 等。同时提供 80+ YAML 模板，覆盖金融、法律、医疗、中药、工业、通用等领域。

拿来就能用，不需要自己写 Prompt 或设计 Schema。

3. MCP Server 支持，Claude Desktop 直接对话知识库

最近 PR #40 新增了 MCP Server（he-mcp），可以在 Claude Desktop 和 IDE Agent 里直接查询你的知识库。不用导出，直接用自然语言对话已经提取好的文档。

4. Obsidian 导出

PR #37 新增了 Obsidian 导出功能——把任意提取的图谱一键变成 Obsidian 知识库，笔记之间用 [[wikilinks]] 互链。Markdown 文件格式，本地存储，不依赖任何云服务。

5. 增量更新

新增文档可以随时追加到已有的知识库，不需要全量重新提取。知识库会增量演化，持续扩展。

📥 安装与使用

安装

uv tool install hyperextract

初始化配置

he config init -k YOUR_OPENAI_API_KEY

快速提取一篇文档

# 把特斯拉传记文档转换为知识图谱
he parse examples/en/tesla.md -t general/biography_graph -o ./output/ -l en

# 查询知识库
he search ./output/ "What are Tesla's major achievements?"

# 可视化图谱
he show ./output/

# 导出为 Obsidian vault
he export obsidian ./output/ -o ./vault/

Python API 示例

from hyperextract import Template

ka = Template.create("general/biography_graph")

with open("examples/en/tesla.md") as f:
    result = ka.parse(f.read())

result.show()  # 可视化

本地部署（vLLM）

不想用云 API？也可以本地跑：

from hyperextract import create_client

llm, emb = create_client(
    llm="vllm:Qwen3.5-9B@http://localhost:8000/v1",
    embedder="vllm:bge-m3@http://localhost:8001/v1",
    api_key="dummy",
)

支持的模型

平台	验证通过的模型
OpenAI	gpt-4o, gpt-4o-mini, gpt-5
Anthropic	claude-opus-4-8, claude-sonnet-4-6, claude-haiku-4-5
阿里云百炼	qwen-plus, qwen-turbo, deepseek-r1
本地 vLLM	Qwen3.5-9B (GPTQ-Marlin)

🎯 适用场景

推荐用 Hyper-Extract 的人：

学术研究人员 — 把论文丢进去，自动提取概念、作者、引用关系，生成可交互的知识图谱
金融分析师 — 从财报、招股书里提取实体、财务指标和它们的关系，结构化存储便于后续分析
知识管理爱好者 — 用 Obsidian 导出功能，把文档变成自己的第二大脑
RAG 应用开发者 — 构建知识图谱增强的 RAG 系统，提升检索质量

不太适合的场景：

Stars 只有 2k，项目还非常新，稳定性需要更多验证
只想做简单文本摘要的场景（用现成 API 更简单）
没有技术背景的普通用户（CLI 工具有一定门槛）

⚠️ 注意事项

项目较新 — 目前 Stars 较低（约 2k），生态和文档还在完善中，遇到问题可能需要看源码
依赖 LLM API — 不运行本地模型的情况下需要 OpenAI/Anthropic 等 API，有成本
本地部署门槛 — 虽然支持 vLLM，但配置相对复杂，需要一定的 ML 运维能力
Python 3.11+ 限定 — 不支持旧版 Python

✅ 总结

Hyper-Extract 是一个让人眼前一亮的知识提取工具。它不只是做简单的实体识别，而是真正把文档编译成最匹配其内在结构的知识抽象——时序图、空间图、超图，这些在传统 RAG 方案里很难实现的能力，它一条命令就搞定。

如果你经常处理非结构化文档，想要构建知识图谱而非只是做摘要，这个项目值得一试。GitHub 上有完整的文档和示例，上手不算难。

推荐指数：⭐⭐⭐⭐（扣一星在项目较新、生态待完善）

官网：https://yifanfeng97.github.io/Hyper-Extract
GitHub：https://github.com/yifanfeng97/Hyper-Extract