永发信息网

java抓取网页受限的破解方法

答案:2  悬赏:0  手机版
解决时间 2021-03-29 00:18
java抓取网页受限的破解方法
最佳答案
说白了,就是百 %¥ 度会在头和COOKIES上面做一次处理。你按他的要求设置相关 的参数,就可以了。追问能不能 说的详细一点,上面php代码好像就是获取vcode,id,di这几个值,他们和cookie是什么关系?获取之后用java要怎么设置cookie?追答这个你不需要管。只要在每次请求的时候,把COOKIES都带上就行了。
他这个只是从页面中分析出相关的数据。追问.....不好意思,新手,还不是 很明白。你的意思是我转载的那个方法没用? 每次请求时候带上的cookies是从哪来的?追答我看了一下。这个页面并不弱要你这上面写的COOKIES,因为这个页面本来就是不需要权限访问的,来路可以为空。如果带上了cookie限制,那很多用户 都会被挡在外面了。这样并不友好。


采集嘛,就是一个正常的用户去访问。可能第一次访问以后,会产生COOKIES,再访问的时候,就带上这些COOKIES就行了。


看你这么久还没搞定。真心捉急。给你一个类,写好的,就抓本页面的源码。其它的你自己去分析吧。
追问我试过了,抓取页面一多还是要被限制 - - 不过你给的代码里面那个appendheader的Hashtable完全没有被用到,始终为null。。思路我大概是明白了。有空把appendheader修改下再试试看。可能真的没什么好的办法,因为我要抓好几千个页面下来,代码执行速度又那么快,不大可能给我这么无限制的抓下去。。。追答如果是限制了你的IP访问,那你再怎么抓取都是没用的.采集限制,要么就是IP,要么就是Referer,或者其它的头部.
IP是没办法改的.如果有其它的头部,那就写到appendHeader中去.我这里因为只抓取一页,所以没加限制.

任何网站,对于批量采集,都会给你限制的.你只能把采集速度降下来.除此之外,真的没有什么办法.
度姐又不傻,会让你采得这么HAPPY么?
全部回答
伪造不同的IP、和cookie、浏览器内核的访问,或者设置一下抓取频率
但凡互联网都会有防止自己数据被盗,因为如果你频繁的访问baidu,让百度认为你的行为为爬虫,会屏蔽你的IP
我要举报
如以上问答信息为低俗、色情、不良、暴力、侵权、涉及违法等信息,可以点下面链接进行举报!
大家都在看
羊腿肉怎么做好吃?
胡金秋,周琦,王哲林能超过易建联,姚明,王
江南具体在哪个位置?
房地产入门基础知识
天涯明月刀的下水道指的是什么
请问,〖宠物问题恶魔BF〗,时长金牛.33级血555
一共有几个西瓜?
电脑能听歌识曲吗
8月6日生日书,8月6日是什么星座:狮子座
白色开放漆怎么做
魅蓝note3,599元是水货还是山塞货吗
步步惊心里的名字。越多越好(女名,妃子,婢
单选题唐朝时,日本遣唐使来中国的主要目的是
民俗旅游资源有哪些类型?
守财鹿为啥总说自己是安全的信用卡提现平台~
推荐资讯
宏基便携电脑ZG5能插内存条吗?
请教板式家具板材类型
长虹60k和60H高压包能代换吗
90年代有部反特小说你是谁,现在哪里有卖的?
三个田念什么?
如何利用卫生间的空间?
连续交15年养老保险2000元,55周后每月开多少
1500立方等于多少万立方
清远那些小额贷款公司信得过
老城区洛阳劲霸男装(中州东路店)地址在哪里啊
用甚至和然而造句
谁有苍天の向こうへ 的歌词
正方形一边上任一点到这个正方形两条对角线的
阴历怎么看 ?