2026 年 6 月8
-
HelixDB/helix-db
HelixDB 是 Rust 写的 open-source graph-vector database,主打把 application DB、vector DB、graph DB 和应用层的一部分合并到单一平台。README 摘要说它以 graph + vector data model 为主,也支持 KV、documents 和 relational data;内置 MCP tools 让 ag…
原文 ↗– -
Extract
Extract 是 hosted document extraction API,用于把 PDF 等文档抽取为结构化文本、表格、图片和 layout 信息。页面说明它返回 structured spans、bounding boxes 和 font metadata,图片会上传到 object store 并以 image_url 返回;示例 API 支持通过 URL 提交 PDF。它对 RAG…
原文 ↗– -
CLI for crawling documentation sites into Markdown with defuddle
Docrawl 是把文档站抓取并转换成 Markdown 的 CLI,digest 指向其使用 defuddle 清理网页主体内容。Defuddle 本身负责去掉 sidebar、header 等 clutter,输出更适合阅读和转 Markdown 的 clean HTML。这个组合的工程点在于把 docs crawling 和内容抽取打包为本地工具,而不是只给 agent 原始网页。对 RAG…
原文 ↗– -
dmtrKovalenko/fff
fff 是 Rust 写的高速文件搜索与内容索引工具包,面向长期运行进程、编辑器和 agent 场景。项目不只是一次性 find/grep,而是提供路径索引、内容索引和可嵌入查询接口,方便 agent 快速定位代码库信息。值得看的是,agent 的代码理解体验很大程度取决于检索延迟和索引新鲜度。
原文 ↗– -
Open-source general-purpose alternative to Exa Websets
用搜索引擎递归构建结构化数据集的开源工具。
原文 ↗– -
How we index images for RAG
Kapa.ai 介绍其为 RAG 系统索引图片的 pipeline:图片需要被抽取、描述、OCR、和周边文本上下文绑定,而不能只存 URL 或 alt text。文章指出文档中的截图、图表和 UI 状态经常承载回答所需证据。值得看的是,多模态 RAG 的难点在切分、引用和排序如何与文本证据合并。
原文 ↗– -
2-command CLI to give AI agents structured data retrieval on PostgreSQL
Lithium 是运行在 PostgreSQL 上的结构化 agent storage engine,用 ltree 做层级路径索引,并提供 TypeScript API、versioning 和 scoped retrieval。快速路径是 `npx @lithium-ai/kit init` 加 MCP server,让 Claude Code 等 agent 可查询如 `engineerin…
原文 ↗– -
Stria
Stria 是给 LLM agents 用的 structural codebase indexer 和 MCP server,主张零配置、无 parser、任意语言。它用 raw text phrase extraction、left-context entropy、IDF/BM25 等方法构建 SQLite index;README 报告 258 文件 TS repo 构建 0.16s,3.1…
原文 ↗–
2026 年 5 月5
-
run-llama/liteparse
LiteParse 是本地 PDF/文档解析工具,使用 Rust core、PDFium、可选 OCR 和 layout reconstruction 输出 spatial text、bounding boxes、JSON/Text、截图。README 还支持 DOCX/XLSX/PPTX/IMG 通过 LibreOffice/ImageMagick 转换后进入同一处理链。值得看的是它为 RAG/…
原文 ↗– -
opendatalab/MinerU
MinerU 把 PDF、DOCX、PPTX、XLSX、图片和网页转为 Markdown/JSON,面向 LLM/RAG/Agent workflow。README 列出 VLM+OCR dual engine、109 语言 OCR、公式转 LaTeX、表格转 HTML、多栏/手写/跨页表格处理,以及 MCP、LangChain、Dify、FastGPT、Python/Go/TypeScript…
原文 ↗– -
microsoft/markitdown
它适合 agent/RAG 前处理:把多格式文件统一成 markdown 这种 LLM 友好文本。优势是格式覆盖和 API 简洁;要注意复杂布局、扫描件和表格仍会依赖具体解析后端。
原文 ↗– -
firecrawl/firecrawl
Firecrawl 把“网页上下文”做成 agent 基础设施。它的价值在于把抓取、清洗、结构化和主内容抽取统一;风险在于动态网页覆盖率、反爬限制和内容版权/robots 策略需要持续处理。
原文 ↗– -
Ktx
ktx 把数据 agent 的问题从“让模型猜表名写 SQL”改成“先建立可审查语义层和 join/metric 约束”。这种文件化、git review 的设计有利于治理,但准确性仍依赖团队持续批准上下文变更。
原文 ↗–