电州收藏夹 头像

消息来源频道

电州收藏夹

@telestate

频道2,732 位成员公开可见0 人在线

电报上的自治州,独自站在风雨中 软件 音乐 收藏 图片 新闻 剪辑 设计 linux 英语 iOS 等等 为了走向深空

成员规模2,732 位成员
在线情况0 人在线
消息总数3,114 条消息
浏览量总数42,905 次浏览

在这个频道里搜索消息……

t.me/telestate

MinerU是一款将PDF转化为机器可读格式的工具(如markdown、json),可以很方便地抽取为任意格式。 MinerU诞生于书生-浦语的预训练过程中,我们将会集中精力解决科技文献中的符号转化问题,希望在大模型时代为科技发展做出贡献。 相比国内外知名商用产品MinerU还很年轻,如果遇到问题或者结果不及预期请到issue提交问题,同时附上相关PDF。
#markdown #pdf #电子书 #书 #ocr #github #开源 #linux #macos #windows
删除页眉、页脚、脚注、页码等元素,确保语义连贯
输出符合人类阅读顺序的文本,适用于单栏、多栏及复杂排版
保留原文档的结构,包括标题、段落、列表等
提取图像、图片描述、表格、表格标题及脚注
自动识别并转换文档中的公式为LaTeX格式
自动识别并转换文档中的表格为LaTeX或HTML格式
自动检测扫描版PDF和乱码PDF,并启用OCR功能
OCR支持84种语言的检测与识别
支持多种输出格式,如多模态与NLP的Markdown、按阅读顺序排序的JSON、含有丰富信息的中间格式等
支持多种可视化结果,包括layout可视化、span可视化等,便于高效确认输出效果与质检
支持CPU和GPU环境
兼容Windows、Linux和Mac平台