将文档导出为 Markdown 或者 JSON
🗂️ 读取流行的文档格式(PDF、DOCX、PPTX、图像、HTML、AsciiDoc、Markdown)并导出为 Markdown 和 JSON
📑 高级PDF文档理解,包括页面布局、阅读顺序和表格结构
🧩 统一、富有表现力的 DoclingDocument 表示格式
🤖 与LlamaIndex 🦙和LangChain 🦜🔗轻松集成,以实现强大的RAG / QA应用程序
🔍 扫描 PDF 的 OCR 支持
💻 简单方便的 CLI
项目地址
#开源
🗂️ 读取流行的文档格式(PDF、DOCX、PPTX、图像、HTML、AsciiDoc、Markdown)并导出为 Markdown 和 JSON
📑 高级PDF文档理解,包括页面布局、阅读顺序和表格结构
🧩 统一、富有表现力的 DoclingDocument 表示格式
🤖 与LlamaIndex 🦙和LangChain 🦜🔗轻松集成,以实现强大的RAG / QA应用程序
🔍 扫描 PDF 的 OCR 支持
💻 简单方便的 CLI
项目地址
#开源