互联网从业者充电站 头像

消息来源频道

互联网从业者充电站

@https1024

频道28,610 位成员公开可见持续更新

互联网从业者专属 内容多为技术、产品、设计、运营等不同话题内容; 目标人群为程序员、设计师、产品经理、运营管理等不同职能。 投稿/合作: @inside1024_bot 内容来源网络

成员规模28,610 位成员
在线情况待同步
消息总数32,672 条消息
浏览量总数5,084,371 次浏览

在这个频道里搜索消息……

t.me/https1024

今天看了@Clara998泽佳 北京站视频的分享里有一点说新词也可以监控大站的sitemap,我觉得是个好思路,有这个想法了,就立马行动起来
- 需求预期:
监控大站sitemap,每天定时通过飞书推动最新关键词(保证了实时性)
- 技术设计
1. 如何监控指定网站的sitemap -> 本地 JSON 文件存储网站名和对应sitemap URL映射关系
2. diff过程 -> 当天网站A的sitemap保存到cloudflare KV数据库,通过日期找到昨日数据进行diff(sitemap数据存kv)
3. 得到diff差异,格式化后发送飞书
4. 定时任务用的是vercel的crons,配置在vercel.json
虽然我今晚实现了这个mvp想法,但总感觉有几个考虑到了,但还不知道怎么实现问题:
1. kv数据如何每隔一周清理掉之前没用的
2. 新增要监控的网站时,不知道会不会有bug🤷
3. kv数据库可能不太好,nosql可能不太适合这种业务场景。总感觉,我总感觉这个需求可能关系型数据库更合适🤔