怎样用python爬新浪微博大V所有数据
答案:1 悬赏:20 手机版
解决时间 2021-10-17 19:33
- 提问者网友:浮克旳回音
- 2021-10-17 06:18
怎样用python爬新浪微博大V所有数据
最佳答案
- 五星知识达人网友:北方的南先生
- 2021-10-17 06:36
先上结论,通过公开的api如果想爬到某大v的所有数据,需要满足以下两个条件: 1、在你的爬虫开始运行时,该大v的所有微博发布量没有超过回溯查询的上限,新浪是2000,twitter是3200。 2、爬虫程序必须不间断运行。 新浪微博的api基本完全照搬twitter,其中接口的参数特性与底层的NoSQL密不可分,建议先看点Nosql数据库的设计理念有助于更好的理解api设计。 一般来说,如果决定爬某个大v,第一步先试获取该用户的基本信息,中间会包含一条最新的status,记下其中的id号作为基准,命名为baseId。 接口中最重要的两个参数: since_id:返回ID比since_id大的微博(即比since_id时间晚的微博),默认为0。 max_id:返回ID小于或等于max_id的微博,默认为0。 出于各种原因,获取statuses的接口,固定为按id降序排列(scan_index_forward=false),即最新的statuses返回在前。假设该微博第一天上线,就一个用户,发了一百条,id是1到100。而你在该用户发了第50条的时候开始运行的爬虫,即baseId=50。
我要举报
如以上问答信息为低俗、色情、不良、暴力、侵权、涉及违法等信息,可以点下面链接进行举报!
大家都在看
推荐资讯