java抓取网页受限的破解方法
答案:2 悬赏:0 手机版
解决时间 2021-03-29 00:18
- 提问者网友:骑士
- 2021-03-28 18:24
java抓取网页受限的破解方法
最佳答案
- 五星知识达人网友:过活
- 2021-03-28 19:55
说白了,就是百 %¥ 度会在头和COOKIES上面做一次处理。你按他的要求设置相关 的参数,就可以了。追问能不能 说的详细一点,上面php代码好像就是获取vcode,id,di这几个值,他们和cookie是什么关系?获取之后用java要怎么设置cookie?追答这个你不需要管。只要在每次请求的时候,把COOKIES都带上就行了。
他这个只是从页面中分析出相关的数据。追问.....不好意思,新手,还不是 很明白。你的意思是我转载的那个方法没用? 每次请求时候带上的cookies是从哪来的?追答我看了一下。这个页面并不弱要你这上面写的COOKIES,因为这个页面本来就是不需要权限访问的,来路可以为空。如果带上了cookie限制,那很多用户 都会被挡在外面了。这样并不友好。
采集嘛,就是一个正常的用户去访问。可能第一次访问以后,会产生COOKIES,再访问的时候,就带上这些COOKIES就行了。
看你这么久还没搞定。真心捉急。给你一个类,写好的,就抓本页面的源码。其它的你自己去分析吧。
追问我试过了,抓取页面一多还是要被限制 - - 不过你给的代码里面那个appendheader的Hashtable完全没有被用到,始终为null。。思路我大概是明白了。有空把appendheader修改下再试试看。可能真的没什么好的办法,因为我要抓好几千个页面下来,代码执行速度又那么快,不大可能给我这么无限制的抓下去。。。追答如果是限制了你的IP访问,那你再怎么抓取都是没用的.采集限制,要么就是IP,要么就是Referer,或者其它的头部.
IP是没办法改的.如果有其它的头部,那就写到appendHeader中去.我这里因为只抓取一页,所以没加限制.
任何网站,对于批量采集,都会给你限制的.你只能把采集速度降下来.除此之外,真的没有什么办法.
度姐又不傻,会让你采得这么HAPPY么?
他这个只是从页面中分析出相关的数据。追问.....不好意思,新手,还不是 很明白。你的意思是我转载的那个方法没用? 每次请求时候带上的cookies是从哪来的?追答我看了一下。这个页面并不弱要你这上面写的COOKIES,因为这个页面本来就是不需要权限访问的,来路可以为空。如果带上了cookie限制,那很多用户 都会被挡在外面了。这样并不友好。
采集嘛,就是一个正常的用户去访问。可能第一次访问以后,会产生COOKIES,再访问的时候,就带上这些COOKIES就行了。
看你这么久还没搞定。真心捉急。给你一个类,写好的,就抓本页面的源码。其它的你自己去分析吧。
IP是没办法改的.如果有其它的头部,那就写到appendHeader中去.我这里因为只抓取一页,所以没加限制.
任何网站,对于批量采集,都会给你限制的.你只能把采集速度降下来.除此之外,真的没有什么办法.
度姐又不傻,会让你采得这么HAPPY么?
全部回答
- 1楼网友:低血压的长颈鹿
- 2021-03-28 20:26
伪造不同的IP、和cookie、浏览器内核的访问,或者设置一下抓取频率
但凡互联网都会有防止自己数据被盗,因为如果你频繁的访问baidu,让百度认为你的行为为爬虫,会屏蔽你的IP
但凡互联网都会有防止自己数据被盗,因为如果你频繁的访问baidu,让百度认为你的行为为爬虫,会屏蔽你的IP
我要举报
如以上问答信息为低俗、色情、不良、暴力、侵权、涉及违法等信息,可以点下面链接进行举报!
大家都在看
推荐资讯