Docrawl 是把文档站抓取并转换成 Markdown 的 CLI,digest 指向其使用 defuddle 清理网页主体内容。Defuddle 本身负责去掉 sidebar、header 等 clutter,输出更适合阅读和转 Markdown 的 clean HTML。这个组合的工程点在于把 docs crawling 和内容抽取打包为本地工具,而不是只给 agent 原始网页。对 RAG 或 agent docs ingestion 来说,干净 Markdown 通常比完整 HTML 更容易检索和压缩。
–浏览
评论 · Comments