互联网从业者充电站 头像

消息来源频道

互联网从业者充电站

@https1024

频道28,610 位成员公开可见持续更新

互联网从业者专属 内容多为技术、产品、设计、运营等不同话题内容; 目标人群为程序员、设计师、产品经理、运营管理等不同职能。 投稿/合作: @inside1024_bot 内容来源网络

成员规模28,610 位成员
在线情况待同步
消息总数32,672 条消息
浏览量总数5,084,371 次浏览

在这个频道里搜索消息……

t.me/https1024

我知道骂百度已经成了政治正确,不过有一说一,它家最近新出的PaddleOCR还是可以用一下的。
每天3000页的免费额度,足够扫描好多本电子书了。
于是,我vibe code了一个开源小工具,打包了PaddleOCR的API,然后在代码层面做了一些工程化的优化处理,确保扫描版的PDF文件能够转化成排版优雅的Epub格式电子书,去除PDF文件中不必要的页眉,页脚,页码等杂乱元素的同时,最大程度保留原书内的插图,表格等内容。
既然工具是vibe code出来的,那么它的使用也是vibe code友好的:你只需提前去百度AI Studio申请一个API Key,准备好你要转换的扫描版PDF文件,然后把我这个github repo链接丢给你的AI Agent,让它帮你操作就好啦。
百度家的羊毛,不薅白不薅!
Github Repo地址:
https://github.com/jarodise/pdf2epub-paddle