python爬取的数据如何去重?说一下具体的算法依据
答案:2 悬赏:20 手机版
解决时间 2021-02-10 20:22
- 提问者网友:你挡着我发光了
- 2021-02-10 07:44
python爬取的数据如何去重?说一下具体的算法依据
最佳答案
- 五星知识达人网友:廢物販賣機
- 2021-02-10 07:58
要具体问题具体分析的。看你要抓取什么数据。
最好能找到一个能够作为重复性区分的字段值。比如百度知道的所有提问,每个问题都有一个对应的id,楼主这个问题对应的id就是181730605611341844。那在爬取的过程中,可以将所有已经爬取的问题id保存在一个set()中,如果即将爬取的问题id已经存在了,那就跳过,反之则继续。
不知道楼主用的是什么数据库,在数据库设计中,也可以添加一些约束条件作为约束,保证数据的唯一性。
最好能找到一个能够作为重复性区分的字段值。比如百度知道的所有提问,每个问题都有一个对应的id,楼主这个问题对应的id就是181730605611341844。那在爬取的过程中,可以将所有已经爬取的问题id保存在一个set()中,如果即将爬取的问题id已经存在了,那就跳过,反之则继续。
不知道楼主用的是什么数据库,在数据库设计中,也可以添加一些约束条件作为约束,保证数据的唯一性。
全部回答
- 1楼网友:罪歌
- 2021-02-10 08:30
期待看到有用的回答!
我要举报
如以上问答信息为低俗、色情、不良、暴力、侵权、涉及违法等信息,可以点下面链接进行举报!
大家都在看
推荐资讯