3.3 检索与知识接地Retrieval / RAG

本主题共 59 条 · 最早 2026-05-29 · 最新 2026-07-25

视图 · View

2026 年 7 月13

Amdb
Amdb 用单个 Rust 二进制提供本地代码上下文检索，并以 MCP Server 形式把索引能力暴露给编码 Agent。其重点是快速安装、低运行依赖和在仓库内定位相关符号或文本，而不是上传代码到远程向量服务。对于希望保持代码私有又需要语义检索的团队，这种轻量本地组件具有直接实用性。
Project2026-07-25github.com原文 ↗
–
Grounded Forge
Grounded Forge 在摄取阶段就把原始资料转成摘要、结构化任务视图和可引用知识包，查询时不再临时拼装全部上下文。项目把索引结果与应用一起打包发布，强调可重复构建和来源追踪；这种“预计算知识产品”路线以存储换延迟，适合内容相对稳定、查询模式可预见的检索应用。
Project2026-07-24github.com原文 ↗
–
HKUDS/LightRAG
LightRAG 把实体关系图检索与向量文本检索结合：文档摄取时抽取实体和关系，查询时可走局部、全局或混合模式。项目支持多种 LLM、向量库、图存储和文档解析器，并提供 API server。它适合需要跨片段关系推理的知识库，但图抽取成本和实体合并质量会影响最终收益。
Trending2026-07-23github.com原文 ↗
–
tirth8205/code-review-graph
code-review-graph 构建本地持久代码智能图，让 MCP 和 CLI 工具在 review 与大仓任务中检索代码库结构，而不是反复读全量文件。仓库标语是 “Stop burning tokens. Start reviewing smarter.”，项目描述强调已 benchmark context reductions。对于 coding agents，持久代码地图是降低重复 re…
Trending2026-07-21始 2026-06-15github.com原文 ↗
–
Local-first CLI to make Obsidian vaults searchable for AI agents
NoteBrain CLI 把 Obsidian vault 转成完全本地的 AI agent 知识后端，索引 markdown 到嵌入式 ChromaDB。它用 `all-MiniLM-L6-v2` ONNX embedding 做 semantic search，用 wikilink graph traversal 找 backlinks/multi-hop/shared tags，并提供 h…
Project2026-07-21github.com原文 ↗
–
upstash/context7
Context7 的仓库描述是给 LLM 和 AI code editors 提供 up-to-date code documentation。项目要解决的是模型训练知识过期导致的 API 幻觉：把库名或开发上下文映射到当前版本文档，再给 agent 编码时使用。它不是另一个聊天界面，而是文档事实源和开发工具之间的中间层。GitHub Trending 里这类项目增多，说明 agent 生态已经把…
Trending2026-07-20github.com原文 ↗
–
Graphify-Labs/graphify
Graphify 把代码、数据库 schema、脚本、文档和多媒体材料转换成可查询 knowledge graph。作为 AI coding assistant skill，它先把项目材料整理成节点和关系，再让 agent 通过图结构理解依赖、数据流和上下文。相比普通全文检索，它更适合回答“这个系统里哪些东西相互影响”这类结构问题。
Trending2026-07-15github.com原文 ↗
–
GRASP: GRanularity-Aware Search Policy for Agentic RAG
GRASP 处理 Agentic RAG 中常见的三连决策：什么时候检索、用哪种检索、返回多粗粒度的上下文。论文把这些选择合成一个 granularity-aware search policy，让 agent 在文档、段落和更细片段之间按任务状态切换。它的技术看点不是再堆一个 retriever，而是把检索成本、证据完整性和上下文污染放进同一控制策略。
Paper2026-07-15arxiv.org原文 ↗
–
datawhalechina/all-in-rag
all-in-rag 是 Datawhale China 的中文 RAG 全栈教程，目标是从理论到实践构建检索增强生成体系。README 列出的主线包括 RAG 基础、数据加载/清洗/文本分块、向量与多模态 embedding、向量数据库与索引优化、混合检索、query construction、Text2SQL、生成集成、系统评估和项目实战。GitHub 页面显示约 9.3k stars、4.6…
Trending2026-07-09github.com原文 ↗
–
Revector
Revector 是 Qdrant 的 schema migration 工具，作者把它类比为向量数据库版 Alembic。它管理 collections、vectors、payload indexes 等结构变化，让向量库 schema 演进可以进入版本化 migration 流程。随着 RAG 和向量检索进入生产系统，这类工具把“向量库配置”从一次性脚本变成可审计变更。
Project2026-07-08github.com原文 ↗
–
MothRAG
MothRAG 是多跳 RAG 项目，强调不依赖图重建来完成跨文档推理。它瞄准的问题是复杂查询常常需要把多段证据串起来，而图构建和维护成本会拖慢迭代。项目值得观察，因为多跳检索如果能用更轻量流程实现，会降低许多企业知识库从单跳问答升级到复杂推理的门槛。
Project2026-07-04github.com原文 ↗
–
Contextify
Contextify 本地索引 Claude Code 和 Codex 会话，支持跨工具检索历史 transcript。它做的不是把所有旧对话塞进 prompt，而是把过往决策、命令、代码修改和讨论变成可搜索材料。对于长期项目，这类工具的核心价值是找回上下文来源，而不是幻想原始 transcript 本身就是高质量记忆。
Project2026-07-04contextify.sh原文 ↗
–
SchemaRAG: Dynamic Large Schema Reduction for LLM-driven Structured Information Extraction
SchemaRAG 针对大而复杂的目标 schema，动态裁剪信息抽取时需要放进 prompt 的输出 schema 空间。它使用 schema metadata 和可选 few-shot examples 做 retrieval-augmented schema reduction，从而减少上下文长度、lost-in-the-middle 风险、延迟和成本。真实医疗与电商数据实验中，Schema…
Paper2026-07-03arxiv.org原文 ↗
–

2026 年 6 月42

colbymchenry/codegraph
CodeGraph 为 Claude Code、Codex、Gemini、Cursor、OpenCode、AntiGravity 等 coding agents 建立本地预索引代码知识图谱，目标是减少 token 和工具调用；仓库描述还强调自动跟随代码变更同步和 100% local。它解决的是大仓库 agent 常见的冷启动问题：每次任务都从 grep、find、读文件重新发现结构。把代码关系提…
Trending2026-06-29github.com原文 ↗
–
safishamsi/graphify
safishamsi/graphify 是一个 AI coding assistant skill，把项目资料转成 queryable knowledge graph。README 列出的输入范围很宽：code、SQL schemas、R scripts、shell scripts、docs、papers、images、videos 都可以进入图结构。它的技术方向是让 agent 不只读文件树，而…
Trending2026-06-28github.com原文 ↗
–
opendatalab/MinerU
MinerU 把复杂文档解析成 LLM-ready Markdown/JSON，覆盖 PDF、DOCX、PPTX、XLSX、图片和网页。README 提到 VLM+OCR 双引擎、109 种语言、公式转 LaTeX、表格转 HTML、阅读顺序恢复、页眉页脚移除、MCP server 和多 RAG 框架集成；3.4 版称 OCR 准确率约提升 11%、处理速度约提升 100%。它是 agentic…
Trending2026-06-27始 2026-05-31github.com原文 ↗
–
open-metadata/OpenMetadata
OpenMetadata 把自己定位为 AI 的 open context layer，将 metadata management、data catalog 和 business semantics 合成知识图谱。README 列出 130+ connectors、data quality、lineage、column-level lineage、ownership、policies、glossa…
Trending2026-06-27github.com原文 ↗
–
Grove
Grove 基于 Tree-sitter 为 coding agents 提供快速源代码结构洞察。它不是把代码当普通文本块检索，而是从语法树里暴露函数、类、作用域和组织结构，让 agent 在修改前获得更稳定的代码地图。对大型仓库来说，这类结构视图能减少“先读错位置再改错文件”的概率。
Project2026-06-24github.com原文 ↗
–
SproutRAG: Attention-Guided Tree Search with Progressive Embeddings for Long-Document RAG
SproutRAG 把句子级 chunk 通过 learned inter-sentence attention 组织成逐步变大的语义单元，再在检索时做 hierarchical beam search。方法避免额外 LLM 调用、固定上下文扩展和有损摘要压缩；四个科学、法律和开放域 benchmark 上，信息效率平均比最强基线高 6.1%。它的看点在于同时处理检索粒度和上下文连贯性两侧的代价。
Paper2026-06-23arxiv.org原文 ↗
–
MCompassRAG: Topic Metadata as a Semantic Compass for Paragraph-Level Retrieval
MCompassRAG 用 topic metadata 作为 paragraph-level retrieval 的“语义指南”，解决小 chunk 检索空间膨胀和大 chunk embedding 混杂多个主题的问题。它把主题信号放进同一 embedding space，并通过 LLM-teacher distillation 训练轻量 retriever；六个复杂检索 benchmark 上…
Paper2026-06-23arxiv.org原文 ↗
–
SpiceAI
SpiceAI 把 SQL 查询、搜索、Text-to-SQL、OpenAI-compatible LLM gateway、Iceberg Catalog API 和 MCP 接口收进一个 Rust runtime，定位是“数据扎根的 agent sidecar”。README 给出的工程指标很硬：Ballista 分布式查询在 TPC-H SF100 早期预览里比单节点 DataFusion 快…
Project2026-06-22github.com原文 ↗
–
LLM Wiki
LLM Wiki 走的不是传统“每次查询再 RAG”的路线，而是让 LLM 增量构建并维护一个持久 wiki。README 的功能面很宽：two-step ingest、PDF 图片抽取与 caption、可选 MinerU 解析、4-signal knowledge graph、Louvain community detection、vector search、folder auto-watch…
Trending2026-06-22github.com原文 ↗
–
Callimachus
Callimachus 把 11 种 coding agent 的历史会话收进一个本地 SQLite 索引，包括 Claude Code、Codex、Cursor、Gemini CLI、Qwen Code、Goose、OpenCode、Continue、Cline、Roo Code 和 Kilo Code。搜索部分不是简单 grep：README 写明它把 SQLite FTS5/BM25 与 o…
Project2026-06-22github.com原文 ↗
–
stanford-oval/storm
STORM 是 LLM knowledge curation 系统：给定主题后，它检索资料、提出多视角问题，并生成带引用的长报告。README 的 API 部分显示它支持 LiteLLM 语言模型/embedding，并适配 BingSearch、VectorRM、BraveRM、SearXNG、DuckDuckGo、Tavily、GoogleSearch、AzureAISearch 等检索模块。…
Trending2026-06-21github.com原文 ↗
–
OSU-NLP-Group/HippoRAG
HippoRAG 把 RAG、知识图谱和 Personalized PageRank 组合起来，目标是模拟长期记忆式检索，而不是只做向量相似度召回。README 标题标注它是 NeurIPS 2024 项目，并强调让 LLM 在外部文档之间持续整合知识。它值得放进 trending，是因为很多 RAG 系统正在从“单 query 取 top-k chunks”转向图结构、路径推理和个性化 Page…
Trending2026-06-21github.com原文 ↗
–
labring/FastGPT
FastGPT 面向知识库问答、RAG 和可视化 AI 工作流编排。它把知识库管理、检索增强和流程搭建放进同一个平台，目标用户更接近企业内部应用构建者。该项目的长期看点是 RAG 产品从脚本和 demo 走向可运营工作台，包括数据、模型、流程和权限的统一管理。
Trending2026-06-20github.com原文 ↗
–
garrytan/gbrain
gbrain 是面向代理的检索与综合层，提供搜索、图遍历和 gap analysis。它把代理获取信息的过程拆成检索、结构化探索和缺口分析，而不是只给模型一个搜索框。这个项目的关键词是 synthesis：代理需要知道已经覆盖了什么、还缺什么，才能做更可靠的研究和决策。
Trending2026-06-20github.com原文 ↗
–
cocoindex-io/cocoindex-code
cocoindex-code 是一个面向代码库检索的轻量级 CLI，重点不在把所有文件塞进上下文，而是通过 AST 结构帮助代理找到相关符号和片段。它的实用价值在于降低编码代理做上下文定位时的 token 成本，并把检索粒度从字符串匹配提升到代码结构。对于多文件修改任务，这类工具能减少“看了很多无关文件却漏掉关键定义”的概率。
Project2026-06-20github.com原文 ↗
–
Understanding the Behaviors of Environment-aware Information Retrieval
这篇系统分析 LLM 在不同检索环境下如何改变查询构造策略。摘要指出当前 RAG 研究忽略了一个关键挑战：不同 retrievers 需要 fundamentally different query formulation strategies 才能达到最佳效果。这个主题对 RAG 和代理检索都很实际，因为检索失败常常不是模型不知道答案，而是把问题投给了不匹配的检索接口。
Paper2026-06-20arxiv.org原文 ↗
–
Gora - simple search across all your local coding agents
Gora 是一个本地 CLI，会自动索引 Codex、Claude Code 和 Pi 的聊天线程，让用户一次性搜索多个编码代理的历史会话。作者提到的痛点是每次让代理读取旧聊天时，都要重新发现各工具的目录结构和线程位置。把这些历史变成可搜索材料，可以帮助复用调试经验，也能让团队观察代理在何处反复失败。
Project2026-06-20github.com原文 ↗
–
infiniflow/ragflow
RAGFlow 是开源 RAG engine，覆盖文档解析、检索增强生成和 agent 能力。digest 里的重点是端到端链路：从复杂文档进入索引，再到可追溯回答和自动化。它适合企业知识库场景，因为 RAG 的失败常常发生在解析和 chunking，而不只是生成模型。
Trending2026-06-19github.com原文 ↗
–
Lume - a small, fast hybrid search engine written in Rust
Lume 是 Rust 写的小型混合搜索引擎，面向本地或嵌入式检索。digest 强调 small、fast 和 hybrid search，说明它可能把词法召回与语义排序或向量检索组合成轻量索引。它与 agent memory 和本地知识库相关，因为很多代理系统需要的是可嵌入检索层，而不是完整搜索平台。
Project2026-06-19github.com原文 ↗
–
DeusData/codebase-memory-mcp
这个 MCP server 把代码库索引成 SQLite-backed 知识图谱，并向 agent 暴露 14 个工具。README 给出的结构查询、call graph、route linking、dead code detection 和 semantic search 都围绕减少 agent 逐文件读取。它之所以值得放进 trending，是因为 coding agent 的瓶颈越来越像代码…
Trending2026-06-19github.com原文 ↗
–
Decoupling Search from Reasoning: A Vendor-Agnostic Grounding Architecture for LLM Agents
DSG 把实时搜索 grounding 从模型供应商边界里抽出来，做成 MCP-compatible gateway，单独控制 provider routing、source-aware context rendering、fallback、retrieval depth 和缓存。实验显示它在 SimpleQA 上 86.1% 对 87.7% 几乎追平 native search，同时搜索成本低…
Paper2026-06-19arxiv.org原文 ↗
–
Announcing Stack Overflow for Agents
Stack Overflow for Agents 是面向 agent 的 API-first 知识交换 beta，试图解决代理重复踩坑、上下文结束后经验消失的 Ephemeral Intelligence Gap。Beta 包含 Questions、TIL 和 Blueprint 三类 post，并要求 agent 起草内容后由人类 orchestrator 审核。它的核心机制是让验证、投票和反…
News2026-06-19stackoverflow.blog原文 ↗
–
zvec
zvec 是 Alibaba 开源的 in-process vector database，设计目标是把低延迟 similarity search 直接嵌入应用进程，而不是额外维护一个向量数据库服务。README 摘要称它 lightweight、lightning-fast，并强调在 Alibaba Group 内部经生产场景验证。这个定位适合边缘服务、桌面应用、单体后端或 Agent 本地记忆…
Trending2026-06-18github.com原文 ↗
–
Yomi
Yomi 把网页或整个网站抽取成干净 Markdown，目标是把 HTML 页面、导航噪声和视觉装饰压成可读、可索引、可交给 LLM 的文本。它属于 Agent/RAG pipeline 的 ingestion 前处理，把非结构化网页整理成更稳定的中间表示。相比直接把网页 DOM 丢给模型，干净 Markdown 更容易做 diff、cache、全文搜索和引用定位。
Project2026-06-18github.com原文 ↗
–
Dr-DCI: Scaling Direct Corpus Interaction via Dynamic Workspace Expansion
Dr-DCI 把 retrieval 变成 Agent 可主动调用的 workspace 扩展动作：候选发现靠检索维持规模，跨文档过滤、比较和约束验证仍在局部 workspace 内用 DCI 操作完成。论文在 Browsecomp-Plus 上报告 71.2% accuracy，比 raw DCI 和消融变体最高提升 8.3 个点；加入 workspace-preserving context…
Paper2026-06-18arxiv.org原文 ↗
–
RyanCodrai/turbovec
turbovec 是基于 TurboQuant 的 Rust 向量索引，并提供 Python bindings。README 称 1,000 万文档 float32 corpus 需 31GB RAM，而 turbovec 可放进 4GB；2-bit 下 1536 维 FP32 向量从 6,144 bytes 压到 384 bytes。它支持在线 ingest、搜索时 allowlist 过滤和…
Trending2026-06-17github.com原文 ↗
–
MODSetter/SurfSense
SurfSense 是开源、隐私导向的团队版 NotebookLM 替代品。README 直接对比 NotebookLM 的限制，包括 source/notebook 数量、500,000 words 与 200MB source 上限、Google 服务绑定和多人协作不足。它提供 25+ external data sources、real-time multiplayer、AI file so…
Trending2026-06-17github.com原文 ↗
–
GitHits
GitHits 为 coding agents 提供依赖项目源代码上下文，形态是 CLI 与本地 MCP server。它的核心问题是 agent 处理真实 bug 时常常需要理解依赖实现，而包文档、类型签名或 README 不足以解释行为细节。把依赖源码暴露为可查询上下文，可以让 agent 在跨 repo 调试、API 行为追踪和版本差异分析中少依赖猜测。
Project2026-06-17githits.com原文 ↗
–
Web Researcher MCP
这个 MCP 服务的核心不是再做一个搜索入口，而是让 AI 在用户指定的 search lenses 里检索，并读取完整网页、PDF、Word、YouTube transcript，而非只吃搜索摘要。README 列出的工具覆盖 web/news/image/academic/patent/SEC/legal/clinical 搜索、citation graph、verify_citation、a…
Project2026-06-15github.com原文 ↗
–
qdrant/qdrant
Qdrant 是 Rust 编写的向量相似度搜索引擎和向量数据库，用于存储、搜索和管理带 payload 的 vectors。README 强调扩展过滤能力、生产可用 API、官方 Go/Rust/JavaScript/Python/.NET/Java clients、Docker 本地启动，以及可在进程内运行并同步到服务器的 Qdrant Edge。它仍是 RAG、memory 和 semant…
Trending2026-06-10github.com原文 ↗
–
Is Grep All You Need?
论文比较 grep、向量检索、agent harness 和工具输出呈现方式对 agentic search 的影响。实验一在 LongMemEval 116 个问题上覆盖 Chronos、Claude Code、Codex、Gemini CLI，并比较 inline tool results 与 file-based results；实验二逐步混入无关历史上下文。结果不是简单证明 grep 永远…
Paper2026-06-10arxiv.org原文 ↗
–
khoj-ai/khoj
Khoj 是可自托管 AI second brain，可接入本地或在线 LLM。README 列出从网页和文档回答问题、支持 PDF/Markdown/Notion/Word/org-mode、Browser/Obsidian/Emacs/Desktop/Phone/WhatsApp 多入口、自定义 agents、自动化研究和语义搜索。它是个人知识库、RAG 和 agent 自动化合流的典型项目。
Trending2026-06-08github.com原文 ↗
–
Omni
Omni 是 macOS 上本地运行的多模态文件搜索工具，把文本、代码、PDF、图片、音频和视频放进同一向量空间。公开介绍强调 Apple silicon 上离线索引、跨语言语义搜索、QuickLook 缩略图、List/Gallery 视图，以及供 agent 使用的 search endpoint。它的技术点在于把“文件搜索”从文件名和全文索引扩展到跨模态相似度查询。
Project2026-06-08github.com原文 ↗
–
Cascading Hallucination in Agentic RAG: The CHARM Framework for Detection and Mitigation
CHARM 把 agentic RAG 的错误传播命名为 cascading hallucination：早期检索或解释偏差会在后续步骤被放大，最后变成看似连贯的错误答案。摘要明确给出四类 cascade pattern，并把检测/缓解放在多步 pipeline 内部，这比只评估最终回答更接近 agentic RAG 的真实失败形态。
Paper2026-06-05arxiv.org原文 ↗
–
HelixDB/helix-db
HelixDB 是 Rust 写的 open-source graph-vector database，主打把 application DB、vector DB、graph DB 和应用层的一部分合并到单一平台。README 摘要说它以 graph + vector data model 为主，也支持 KV、documents 和 relational data；内置 MCP tools 让 ag…
Trending2026-06-04github.com原文 ↗
–
Extract
Extract 是 hosted document extraction API，用于把 PDF 等文档抽取为结构化文本、表格、图片和 layout 信息。页面说明它返回 structured spans、bounding boxes 和 font metadata，图片会上传到 object store 并以 image_url 返回；示例 API 支持通过 URL 提交 PDF。它对 RAG…
Project2026-06-04extract.page原文 ↗
–
CLI for crawling documentation sites into Markdown with defuddle
Docrawl 是把文档站抓取并转换成 Markdown 的 CLI，digest 指向其使用 defuddle 清理网页主体内容。Defuddle 本身负责去掉 sidebar、header 等 clutter，输出更适合阅读和转 Markdown 的 clean HTML。这个组合的工程点在于把 docs crawling 和内容抽取打包为本地工具，而不是只给 agent 原始网页。对 RAG…
Project2026-06-04github.com原文 ↗
–
dmtrKovalenko/fff
fff 是 Rust 写的高速文件搜索与内容索引工具包，面向长期运行进程、编辑器和 agent 场景。项目不只是一次性 find/grep，而是提供路径索引、内容索引和可嵌入查询接口，方便 agent 快速定位代码库信息。值得看的是，agent 的代码理解体验很大程度取决于检索延迟和索引新鲜度。
Trending2026-06-03github.com原文 ↗
–
Open-source general-purpose alternative to Exa Websets
用搜索引擎递归构建结构化数据集的开源工具。
Project2026-06-03github.com原文 ↗
–
How we index images for RAG
Kapa.ai 介绍其为 RAG 系统索引图片的 pipeline：图片需要被抽取、描述、OCR、和周边文本上下文绑定，而不能只存 URL 或 alt text。文章指出文档中的截图、图表和 UI 状态经常承载回答所需证据。值得看的是，多模态 RAG 的难点在切分、引用和排序如何与文本证据合并。
Blog2026-06-03kapa.ai原文 ↗
–
2-command CLI to give AI agents structured data retrieval on PostgreSQL
Lithium 是运行在 PostgreSQL 上的结构化 agent storage engine，用 ltree 做层级路径索引，并提供 TypeScript API、versioning 和 scoped retrieval。快速路径是 `npx @lithium-ai/kit init` 加 MCP server，让 Claude Code 等 agent 可查询如 `engineerin…
Project2026-06-02github.com原文 ↗
–
Stria
Stria 是给 LLM agents 用的 structural codebase indexer 和 MCP server，主张零配置、无 parser、任意语言。它用 raw text phrase extraction、left-context entropy、IDF/BM25 等方法构建 SQLite index；README 报告 258 文件 TS repo 构建 0.16s，3.1…
Project2026-06-01github.com原文 ↗
–

2026 年 5 月4

run-llama/liteparse
LiteParse 是本地 PDF/文档解析工具，使用 Rust core、PDFium、可选 OCR 和 layout reconstruction 输出 spatial text、bounding boxes、JSON/Text、截图。README 还支持 DOCX/XLSX/PPTX/IMG 通过 LibreOffice/ImageMagick 转换后进入同一处理链。值得看的是它为 RAG/…
Trending2026-05-31始 2026-05-30github.com原文 ↗
–
microsoft/markitdown
它适合 agent/RAG 前处理：把多格式文件统一成 markdown 这种 LLM 友好文本。优势是格式覆盖和 API 简洁；要注意复杂布局、扫描件和表格仍会依赖具体解析后端。
Trending2026-05-30github.com原文 ↗
–
firecrawl/firecrawl
Firecrawl 把“网页上下文”做成 agent 基础设施。它的价值在于把抓取、清洗、结构化和主内容抽取统一；风险在于动态网页覆盖率、反爬限制和内容版权/robots 策略需要持续处理。
Trending2026-05-30github.com原文 ↗
–
Ktx
ktx 把数据 agent 的问题从“让模型猜表名写 SQL”改成“先建立可审查语义层和 join/metric 约束”。这种文件化、git review 的设计有利于治理，但准确性仍依赖团队持续批准上下文变更。
Project2026-05-29github.com原文 ↗
–