Erudite AI & Knowledge 头像

消息来源频道

Erudite AI & Knowledge

@challengeanewlife

频道207 位成员公开可见0 人在线

随手分享资源,不能保量但基本能保质。 所有的工具但凡发布都基本上会自己长期坚持使用;所有书本相关但凡发布我至少读过一次,网页我至少玩过5分钟┐(´-`)┌。 学知识最忌打一枪换一炮,好想知道了很多承,但其实都没学会啥;用起来很关键。 每一段时间会有一个主题,主要是和自己研究和玩的东西。 想要投稿或者分享可以投稿私聊我投稿。

成员规模207 位成员
在线情况0 人在线
消息总数1,135 条消息
浏览量总数0 次浏览

在这个频道里搜索消息……

t.me/challengeanewlife

一个开源的文档内容高效检索 AI 工具:Semantra,与传统的文本匹配方式不同,它能够直接使用语义查询,提升检索效率。可选择多种语言模型,支持在本地离线部署运行,注重隐私安全。
使用命令行即可快速处理本地的文本和 PDF 文件。在任务完成后,它会在本地搭建一个 Web 搜索页面,让你能在界面上对直接查询文档。
Semantra 的设计目的是方便易用,可定制。适合需要在大量文档中进行精确搜索的个人或团体,例如新闻从业者、研究员、学生或教师等。主要作用是对存储在本地计算机上的文档(文本或 PDF 文件)进行操作,你可以选择处理单个或多个文档。
该项目对文档的处理有两种方式:「内嵌模型」和调用「OpenAI API」。默认是用的 MPNet 语言模型。
如果你电脑配置还过得去,或者想离线处理文档,可以优先选择下载大语言模型,这种方式可以最大程度保证你的隐私安全。
如果想用 OpenAI API,项目也提供了相对应的方案,不过所产生的 Token 消耗,你需要自行承担。
针对这两种方案,作者都在 GitHub 中给出了详细文档。
Semantra | #工具