每日 Harness 开源 · Source
返回本期 · Back to 2026-06-04

开源 / 项目 · Projects2026-06-04 · Thursday, June 4, 2026

CLI for crawling documentation sites into Markdown with defuddle

github.com原文 ↗

CLI for crawling documentation sites into Markdown with defuddle
Docrawl 是把文档站抓取并转换成 Markdown 的 CLI,digest 指向其使用 defuddle 清理网页主体内容。Defuddle 本身负责去掉 sidebar、header 等 clutter,输出更适合阅读和转 Markdown 的 clean HTML。这个组合的工程点在于把 docs crawling 和内容抽取打包为本地工具,而不是只给 agent 原始网页。对 RAG 或 agent docs ingestion 来说,干净 Markdown 通常比完整 HTML 更容易检索和压缩。
浏览

评论 · Comments