永发信息网

为什么爬虫程序抓取同一个页面的HTML和实际显示的HTML不同?

答案:2  悬赏:20  手机版
解决时间 2022-01-01 11:51
我需要根据书籍的ISBN号码在Amazon网站上抓取对应所有tags。问题是tags多的时候就会有分页。我用下面的方法抓取第一页的tags没有问题,但是当抓取>1的页面时,就返回的HTML仍然是第1页的HTML,真的很奇怪????????

使用java 语言,我用下面这个方法来根据URL得到HTML字符串:
public static String GetHTMLStringByURLString(String urlString) {
String hTMLString="";
try {
URL url=new URL(urlString);
URLConnection urlConnection=url.openConnection();
BufferedReader bufferedReader=new BufferedReader(new InputStreamReader(urlConnection.getInputStream()));
String tmpString;
while ((tmpString=bufferedReader.readLine())!=null) {
hTMLString+=tmpString;
}
} catch (MalformedURLException e) {
e.printStackTrace();
} catch (IOException e) {
e.printStackTrace();
}
return hTMLString;
}

似乎也不是Ajax做的页面啊 ?

URL例如:http://www.amazon.com/dp/tags-on-product/0345803485?page=2
其中page是页数的参数
最佳答案
一定要设置User-Agent
urlConnection.setRequestProperty("User-Agent","Mozilla/4.0 (compatible; MSIE 6.0; Windows 2000)");
全部回答
代码:user-agent: baiduspider disallow: / 操作方法: 第一步骤:登陆网站后台 第二步骤:找到根目录里的robots.txt文件并打开 第三步骤:把上面的代码复制黏贴到robots.txt文件里 第四步骤:保存及更新 代码的意思是:禁止百度蜘蛛抓取的意思,禁止百度蜘蛛抓取网站信息的意思
我要举报
如以上问答信息为低俗、色情、不良、暴力、侵权、涉及违法等信息,可以点下面链接进行举报!
大家都在看
女生一直强调自己不是男生的女朋友 也不让男
我有50G左右的文件,没有移动硬盘,网盘又没
家庭冬天取暖用什么好,冬天取暖方式有哪些?
求千图网原创VIP会员帮下个视频,感激不尽~
下面是《1952年到1956年我国国民经济中公、私
核实热点身份成功为什么还连接不上无线网
车牌号码晋a5028k。k代表啥意思
怎样减肩膀上的赘肉
据统计,1860年至1890年,俄国的生铁产量增加
求GAME BOY的街头霸王出招表,请各位帮下忙
转转只能微信支付吗
换了机油后机油报警灯还亮,有哪几种原因
笔记本屏幕的型号要怎么看,数字代表什么
单选题减数第一次分裂的主要特点是A.姐妹染色
宜宾市安吉畅安驾校报名半个多月后可以退钱吗
推荐资讯
《你真是我的好朋友》的作文
已知2a-1的平方根是正负3,3a+b-1的立方根是2,
烟台环境气候怎么样
我想把博客的头像放在左最上边如何放,
无锡怎么查询个人社保缴费情况?
国良渔具部这个地址在什么地方,我要处理点事
扬州专业修脚房朝阳店这个地址在什么地方,我
惠民酒家这个地址在什么地方,我要处理点事
佛山市南海区人民法院桂城人民法庭在哪里啊,
唐河县张店镇人民调解委员会在什么地方啊,我
正方形一边上任一点到这个正方形两条对角线的
阴历怎么看 ?