最近试了几个爬虫工具,分享下我的使用体验
做 AI Agent 的时候,数据采集是最头疼的环节。
MediaCrawler(45K+ stars)
如果你要做国内社交媒体的内容抓取,这个几乎是唯一选择。
支持的平台很全:小红书、抖音、B站、微博、快手、知乎、百度贴吧。代码质量不错,社区活跃,更新也及时。
唯一的缺点是它专注国内平台,如果你想抓 Twitter,这就帮不上忙了。
Agent-Reach(8K+ stars)
这个工具的口号是"给你的 AI Agent 一双眼睛"。
支持的平台很广:Twitter、Reddit、YouTube、GitHub、B站、小红书。最重要的是它声称零 API 费用,一条命令就能抓取多平台内容。
但我实测下来,它的稳定性存疑。因为它依赖反向工程,平台一更新可能就挂了。如果你是个人项目、预算有限,可以试试;但如果是生产环境,建议还是用官方 API。
jina-cli(226 stars)
一个极简的 URL 解析工具,可以把任意网页转成 LLM 友好的格式(Markdown/Text)。
我用它来快速抓取新闻、博客、文档页面。它的设计理念就是给 AI Agent 用的,所以输出的格式很干净。
不过它受登录墙限制,想抓 Twitter 时间线是不行的。单页抓取没问,批量采集就别想了。
x-tweet-fetcher(ythx-101,407 stars)
这是专门为 Twitter 打造的工具。
支持抓取推文串、mentions、时间线,还内置了 LLM 分析功能。我现在的 AI 早报就是用它来巡逻 Twitter 账号的。
它的优势是深度集成 AI 分析,支持自动巡逻和智能筛选。缺点是部署有点复杂,而且文档不算完善。
怎么选?
抓国内社交媒体MediaCrawlerTwitter
舆情监控x-tweet-fetcher
零成本多平台抓取Agent-Reach(备用)
快速解析单页内容jina-cli
工具只是手段,选适合自己场景的就行。
GitHub 链接:
MediaCrawler: https://github.com/NanmiCoder/MediaCrawler
jina-cli: https://github.com/geekjourneyx/jina-cli
Agent-Reach: https://github.com/Panniantong/Agent-Reach
x-tweet-fetcher: https://github.com/ythx-101/x-tweet-fetcher
出海/自媒体/运营👇
https://t.me/yunying23
做 AI Agent 的时候,数据采集是最头疼的环节。
MediaCrawler(45K+ stars)
如果你要做国内社交媒体的内容抓取,这个几乎是唯一选择。
支持的平台很全:小红书、抖音、B站、微博、快手、知乎、百度贴吧。代码质量不错,社区活跃,更新也及时。
唯一的缺点是它专注国内平台,如果你想抓 Twitter,这就帮不上忙了。
Agent-Reach(8K+ stars)
这个工具的口号是"给你的 AI Agent 一双眼睛"。
支持的平台很广:Twitter、Reddit、YouTube、GitHub、B站、小红书。最重要的是它声称零 API 费用,一条命令就能抓取多平台内容。
但我实测下来,它的稳定性存疑。因为它依赖反向工程,平台一更新可能就挂了。如果你是个人项目、预算有限,可以试试;但如果是生产环境,建议还是用官方 API。
jina-cli(226 stars)
一个极简的 URL 解析工具,可以把任意网页转成 LLM 友好的格式(Markdown/Text)。
我用它来快速抓取新闻、博客、文档页面。它的设计理念就是给 AI Agent 用的,所以输出的格式很干净。
不过它受登录墙限制,想抓 Twitter 时间线是不行的。单页抓取没问,批量采集就别想了。
x-tweet-fetcher(ythx-101,407 stars)
这是专门为 Twitter 打造的工具。
支持抓取推文串、mentions、时间线,还内置了 LLM 分析功能。我现在的 AI 早报就是用它来巡逻 Twitter 账号的。
它的优势是深度集成 AI 分析,支持自动巡逻和智能筛选。缺点是部署有点复杂,而且文档不算完善。
怎么选?
抓国内社交媒体MediaCrawlerTwitter
舆情监控x-tweet-fetcher
零成本多平台抓取Agent-Reach(备用)
快速解析单页内容jina-cli
工具只是手段,选适合自己场景的就行。
GitHub 链接:
MediaCrawler: https://github.com/NanmiCoder/MediaCrawler
jina-cli: https://github.com/geekjourneyx/jina-cli
Agent-Reach: https://github.com/Panniantong/Agent-Reach
x-tweet-fetcher: https://github.com/ythx-101/x-tweet-fetcher
出海/自媒体/运营👇
https://t.me/yunying23