永发信息网

python爬取的数据如何去重？说一下具体的算法依据

答案:2 悬赏:20 手机版

解决时间 2021-02-10 20:22

提问者网友：你挡着我发光了
2021-02-10 07:44

python爬取的数据如何去重？说一下具体的算法依据

最佳答案

五星知识达人网友：廢物販賣機
2021-02-10 07:58

要具体问题具体分析的。看你要抓取什么数据。
最好能找到一个能够作为重复性区分的字段值。比如百度知道的所有提问，每个问题都有一个对应的id，楼主这个问题对应的id就是181730605611341844。那在爬取的过程中，可以将所有已经爬取的问题id保存在一个set()中，如果即将爬取的问题id已经存在了，那就跳过，反之则继续。
不知道楼主用的是什么数据库，在数据库设计中，也可以添加一些约束条件作为约束，保证数据的唯一性。

全部回答

1楼网友：罪歌
2021-02-10 08:30

期待看到有用的回答！

我要举报

如以上问答信息为低俗、色情、不良、暴力、侵权、涉及违法等信息，可以点下面链接进行举报！

大家都在看

古塘村地址在什么地方，我要处理点事

三星电视底座42寸和46寸能通用吗？

why which that whether who whom的区别?

王亭石村地址在哪，我要去那里办事

巴音塔拉李英村地址在哪，我要去那里办事

男朋友运气不好,他怪我和他在一起才让他不好

18岁穿什么内衣好？

我经常买点承兑付款，有些卖承兑的手里为什么

游戏运营都需要办理哪些资质

东坪路西十三巷/Z414(路口)这个地址在什么地

河塘村地址好找么，我有些事要过去

南京回头客小吃培训的地址在哪里？

浏览器老是崩溃

下列关于广场防风雨棚的设置，正确的是（）。

淇滨区鹤壁夏菊香西医个体诊所怎么去啊，谁知

推荐资讯

为加强北京市政务站的建设，提高用户满意度，

一贤文印地址在什么地方，我要处理点事

拍着桌子叫好形容非常赞赏是什么成语

洛克王国迪莫怎样快速升级

快手上有一个女生说要做人类最黑暗的一面

第一次接吻时当男生把吻头申来应该怎么做

足球颠球的时候球老是会往左或右飞，怎么克服

郑爽蓝色生死恋

吴良材眼镜NO.452在什么地方啊，我要过去处理

宜宾骨科医院属于县级医院吗

好运来怎么去啊，有知道地址的么

同济大学的MBA提前面试是不是很难？报个面试

正方形一边上任一点到这个正方形两条对角线的

阴历怎么看？

网站首页 | 关于我们 | 网站留言

联系永发信息网
Copyright © 2025 永发信息网版权所有