消息来源频道

硬核开源智库

@HardcoreOpenAI

频道811 位成员公开可见持续更新

提供硬核学习资源,探索开源力量,驾驭AI未来! 本频道精选GitHub优质开源项目、最新人工智能(AI)技术进展、前沿科技资讯以及各类有价值的学习资源,助你站在技术浪潮之巅,实现知识与技能的快速跃迁。无论你是开发者、AI爱好者还是技术探索者,都能在这里找到属于你的宝藏!

成员规模811 位成员
在线情况待同步
消息总数1,140 条消息
浏览量总数116,736 次浏览

在这个频道里搜索消息……

t.me/HardcoreOpenAI

文档解析总是让人头大:PDF结构复杂,格式多样,提取内容费时费力。
MinerU 是一个开源项目,专注于将复杂文档(尤其是PDF)快速高效转成机器可读的Markdown或JSON格式,方便后续用大模型处理和自动化工作流。
它不仅支持排版结构分析、公式识别、表格解析,还能自动去除页眉页脚、脚注,保证语义连贯。更有OCR支持,能处理扫描版PDF,覆盖84种语言。
亮点功能:
- 领先的布局分析和文本识别,支持多栏复杂格式;
- 自动公式转LaTeX,表格转HTML,方便科研文档处理;
- 支持文档录入OCR,适配扫描和乱码PDF;
- 多平台适用,支持CPU和GPU加速;
- 提供在线演示、API接口和本地部署多种使用方式。