MinerU 把 PDF、DOCX、PPTX、XLSX、图片和网页转为 Markdown/JSON,面向 LLM/RAG/Agent workflow。README 列出 VLM+OCR dual engine、109 语言 OCR、公式转 LaTeX、表格转 HTML、多栏/手写/跨页表格处理,以及 MCP、LangChain、Dify、FastGPT、Python/Go/TypeScript SDK、CLI、REST、Docker。值得看的是它把文档解析做成可离线部署、可接 agent 工具链的基础设施。
–浏览
评论 · Comments