🔬 Local Deep Research：AI 研究助手单卡跑大模型支持本地和云端 LLM

Local Deep Research 是本地 AI 研究助手，LangGraph 驱动，8516 Stars。单卡 RTX 3090 跑 Qwen3.6-27B 达 ~95% SimpleQA，支持 Ollama/云端 LLM，10+ 搜索引擎，生成带引用报告，全程本地加密。

🎤 引言

Deep Research 这个词这两年火得一塌糊涂——Perplexity、ChatGPT Deep Research、Google AI Mode，各种"AI 研究助手"层出不穷。但用过的都知道：你的每一次研究查询，数据都经过第三方服务器。敏感行业（法律、医疗、金融）从业者用这些工具，等于把内部信息白送给人家。

有没有一个方案——AI 研究能力 + 100% 本地运行？还真有。GitHub 上有个叫 Local Deep Research 的开源项目，8516 Stars，主打"全流程本地 + 加密"。一张 RTX 3090 跑 Qwen3.6-27B 模型就能达到 ~95% SimpleQA 准确率，集成 10+ 学术和网页搜索引擎，生成带引用的研究报告。

⭐ 核心功能

1. 真正本地运行，数据不出本机

Local Deep Research 的核心卖点就是"本地优先"。整个研究流程——搜索、抓取、摘要、推理、报告生成——全部在本地完成，数据不经过任何第三方服务器。相比用 ChatGPT Deep Research 查公司内部信息，这个方案对隐私敏感的场景友好太多了。

项目在 GitHub 的 tagline 也直白："Everything Local & Encrypted"——所有东西都在本地，而且全程加密。

2. 单卡 RTX 3090 跑出 ~95% SimpleQA

这是项目最惊艳的数据点。根据 GitHub 上的 benchmark，在一张 RTX 3090（24GB 显存）上跑 Qwen3.6-27B 模型，SimpleQA 准确率达到 ~95%，xbench-DeepSearch 达到 77%。作为对比，这个准确率已经可以和部分云端商业模型掰手腕了。

当然，这个数字仅供参考——SimpleQA 是特定数据集上的测试成绩，不代表所有研究任务都能达到这个水平。但至少说明：本地模型跑深度研究，不是天方夜谭。

3. 支持任意 LLM（本地 + 云端）

项目底层基于 LangGraph Agent 架构，支持接入任意 LLM：

本地模型：通过 Ollama、LM Studio、llama.cpp 运行 Qwen、Llama、Mistral 等开源模型
云端模型：支持 Anthropic（Claude）、OpenAI（GPT 系列）、Google Gemini 等商业 API
多模型组合：可以在一次研究中同时调用多个模型，取长补短

这意味着你可以用 Ollama 在本地跑省钱，用商业 API 补充本地模型的短板，灵活组合。

4. 10+ 搜索引擎，学术 + 网页全覆盖

研究任务最怕的就是"搜索不全"。Local Deep Research 内置了多个搜索引擎，确保覆盖不同类型的信息源：

学术搜索：arXiv（最新论文）、PubMed（医学文献）
通用搜索：Brave Search、SearXNG
专业搜索：Semantic Scholar、You.com
私有数据：支持接入自己的本地文档，构建私有知识库 RAG

Agent 会根据研究主题智能路由到最合适的搜索引擎，不用手动切换。

5. LangGraph Agent 自主决策研究路径

这是项目最有技术含量的部分。Agent 基于 LangGraph 构建，具备"自主智能体"能力——LLM 自己决定下一步搜什么、用哪个引擎、什么时候停止搜索、什么时候综合结论。

整个流程大致是：

分析研究问题 → 生成搜索查询
并行调用多个搜索引擎 → 收集结果
评估已有信息 → 识别知识盲点
生成补充查询 → 重复直到信息充分
综合所有来源 → 生成带引用标记的研究报告

这个循环由 LLM 自主驱动，不用人工干预。

6. 私有文档 RAG 支持

如果你有本地私有的文档（PDF、Markdown、TXT），可以建立索引并接入研究流程。项目支持基于向量的 RAG（Retrieval Augmented Generation），让你的私有数据成为研究的一部分。

比如：公司内部知识库、医疗档案、法律判例……这些不适合传到云端的数据，用本地 RAG 就能安全地纳入 AI 研究流程。

7. 完整研究报告输出

研究完成后，输出结构化的 Markdown 报告，包含：

研究摘要
关键发现（分章节）
引用来源（每一句话都标注来源 URL/DOI）
进一步研究建议

引用功能是刚需——AI 瞎编的内容有了引用才能追溯核实。

📥 安装使用

前置要求

GPU：至少 24GB 显存（RTX 3090 24GB / RTX 4090 24GB / A100 40GB 等）
依赖：Docker Desktop、Python 3.11+、Ollama（如果你用本地模型）
磁盘：根据使用的模型大小，约需要 20-80GB 空间

Docker 一键部署（推荐）

git clone https://github.com/LearningCircuit/local-deep-research.git
cd local-deep-research
docker compose up -d

之后浏览器打开 http://localhost:8000 即可看到 Web UI。

本地开发模式

git clone https://github.com/LearningCircuit/local-deep-research.git
cd local-deep-research
cp .env.example .env
# 编辑 .env 填入 API Key 或 Ollama 地址
python -m uvicorn app.main:app --reload

配置本地模型（Ollama）

# 安装 Ollama
curl -fsSL https://ollama.ai/install.sh | sh

# 拉取 Qwen3.6-27B 模型
ollama pull qwen3.6-27b

# 在 .env 中配置
OLLAMA_BASE_URL=http://localhost:11434

Web UI 基本操作

打开 http://localhost:8000
输入研究主题（比如"2025年 AI Agent 最新进展"）
选择搜索范围（学术/网页/私有文档/全开）
点击"Research"，等待完成
下载 Markdown 报告

私有文档索引

# 把文档放入 data/documents 目录
cp your_docs/*.pdf data/documents/

# 触发索引
curl -X POST http://localhost:8000/api/index

🎯 适用场景

✅ 适合用 Local Deep Research 的人：

隐私敏感行业：法律、医疗、金融从业者，不能把数据送出国
企业内网用户：有大量内部文档，想构建私有知识库 AI 研究
学术研究者：需要系统性地综述某个领域，引用要可追溯
技术极客：想在自己服务器上跑完整的 AI 研究 pipeline
省钱党：不想付 API 费用，24GB 显卡就能跑

❌ 不适合用 Local Deep Research 的人：

没有好显卡：RTX 3060 12GB 跑不动大模型，最多跑 7B 小模型，效果差很多
追求最快速度：本地研究一次要 10-30 分钟，云端 Perplexity 几秒出结果
不想折腾：Docker、Ollama、GPU 驱动……安装配置有门槛
需要最新模型：本地模型更新慢，云端随时能用最新 GPT/Claude

⚠️ 注意事项

1. GPU 门槛是真实存在的

虽然项目说"RTX 3090 就能跑"，但 24GB 显存只够跑 Qwen3.6-27B 这个级别的模型。更强的研究能力需要更大的模型——Qwen3.6-27B 只是起步配置。如果只有 12GB 显存的卡（比如 RTX 3060），基本跑不了这个项目的推荐配置。

2. 研究速度比云端慢很多

本地研究的等待时间是真实的——跑一次完整研究，短则 5-10 分钟，长则 20-30 分钟。相比 Perplexity 几秒出结果，这个等待成本需要接受。当然，你可以让它在后台慢慢跑，跑完了来看报告。

3. 搜索引擎质量依赖配置

项目支持的搜索引擎很多，但默认配置下可能需要填 API Key（比如 Brave Search）。如果什么都不配置，只用 SearXNG 这个开源搜索引擎，搜索质量可能不如商业搜索引擎。

4. LangChain/LangGraph 学习成本

如果你想深度定制研究流程，需要了解 LangGraph 的 Agent 编写方式。虽然 Web UI 可以直接用，但高级玩法（自定义工具、修改 Agent 逻辑）需要一定的 LangGraph 知识。

5. 私有文档 RAG 效果依赖文档质量

RAG 的效果很大程度上取决于文档的格式和结构。PDF 扫描件（图片格式）、乱码文档、缺少标题层级的内容，索引效果会打折扣。准备私有数据时建议先清洗一下格式。

6. GitHub Issues 显示项目还在活跃开发

项目有 279 个 open issues，说明功能多但也有不少待解决的问题。使用时遇到 bug 可以去 Issues 看看是否已有解决方案，或者自己提一个。

✅ 总结

优点回顾：

✅ 100% 本地运行，数据隐私有保障
✅ 单卡 RTX 3090 即可部署，~95% SimpleQA 准确率
✅ 支持任意本地/云端 LLM（Ollama/claude/GPT/Gemini）
✅ 10+ 搜索引擎（arXiv/PubMed/Brave/SearXNG 等）
✅ LangGraph 自主 Agent，研究流程自动化
✅ 私有文档 RAG，构建本地知识库
✅ 生成带引用的 Markdown 报告
✅ 8516 Stars，活跃开源项目

缺点回顾：

❌ GPU 门槛高（需要 24GB+ 显存）
❌ 研究速度慢（10-30 分钟 vs 云端几秒）
❌ 安装配置有门槛（Docker/Ollama/GPU 驱动）
❌ 部分功能需要配置 API Key
❌ LangGraph 定制需要学习成本
❌ Issues 279 个，还在快速迭代中

一句话推荐：

如果你在隐私敏感行业工作，或者就是想在自己服务器上跑一套完整的 AI 研究 pipeline，Local Deep Research 值得关注。8516 Stars 的热度说明它不是玩具——但前提是你有足够的 GPU 算力和愿意折腾的心态。

项目地址：https://github.com/LearningCircuit/local-deep-research
Star/Fork：⭐ 8516 | Fork 746
License：MIT
文档：https://github.com/LearningCircuit/local-deep-research/tree/main/docs
Demo 视频：https://www.youtube.com/watch?v=nMr2zZcVVWw