Kreuzberg: 面向多语言生态的高性能文档解析与 OCR 引擎
• 支持 88+ 文件格式解析,覆盖 PDF、Office、图片、HTML、XML、邮件、压缩包与学术文档,适合构建统一的数据提取管线
• 基于 Rust 内核与原生绑定,提供 Python、Node.js、Go、Java、C#、PHP 等多语言支持,并可作为库、CLI、REST API 或 MCP Server 部署
• 内置可扩展插件架构,支持 Tesseract、PaddleOCR、EasyOCR 等 OCR 后端,同时可选生成 Embeddings,无需 GPU 也能获得原生级处理速度
https://github.com/kreuzberg-dev/kreuzberg
#文档解析 #OCR #Rust #Embeddings #多语言开发 #文件处理 #开发工具 #GitHub #MCP #API
• 支持 88+ 文件格式解析,覆盖 PDF、Office、图片、HTML、XML、邮件、压缩包与学术文档,适合构建统一的数据提取管线
• 基于 Rust 内核与原生绑定,提供 Python、Node.js、Go、Java、C#、PHP 等多语言支持,并可作为库、CLI、REST API 或 MCP Server 部署
• 内置可扩展插件架构,支持 Tesseract、PaddleOCR、EasyOCR 等 OCR 后端,同时可选生成 Embeddings,无需 GPU 也能获得原生级处理速度
https://github.com/kreuzberg-dev/kreuzberg
#文档解析 #OCR #Rust #Embeddings #多语言开发 #文件处理 #开发工具 #GitHub #MCP #API