永发信息网

深层是什么意思,“深层网络”什么呀?

答案:1  悬赏:20  手机版
解决时间 2021-08-24 13:45
深层是什么意思,“深层网络”什么呀?
最佳答案
并不是互联网中的所有站点都易于进行爬取和导航的。那些网络爬虫很难找到的站点统称为深层网络(deep Web,也称为隐藏网络,hidden
Web)。尽管深层网络的规模很难精确地评估,但一些研究估计它的规模超过传统索引的网络规模一百倍。
属于深层网络的大多数站点都可以归为如下三类:
?私人站点(private
site)。这些站点是倾向于隐私内容的,没有任何指向它的链接,或者在使用该站点之前,需要使用有效的账号进行注册。虽然一些新闻出版商仍然希望他们的内容被主要的搜索引擎索引,但是这类站点通常要求阻止爬虫对页面进行存取。
?表单结果(form
result)。这些站点通常在向表单中填写数据之后才能进入。例如,销售机票的站点,通常在页面的入口处会询问旅行的信息。在你递交了本次旅行的信息之后,航班信息才会显示出来。尽管你可能会希望使用搜索引擎找到航班时刻表,但大多数的爬虫都不可能越过这个表单获取航班时刻表的信息。
?脚本页面(scripted
page)。是触用JavaScript、Flash或其他客户端语言的页面。如果一个链接并不是以HTML语言给出的,而是通过在浏览器中运行JavaScript生成的,爬虫需要在该页面上执行JavaScript才能找到这个链接。虽然在技术上这是可行的,但执行JavaScript会很大程度地影响爬虫抓取页面的速度,并增加系统的复杂性。
有时候人们会对静态页面(static page)和动态页面(dynamic
page)进行区分。静态页面是指存储在网络服务器上并在浏览器上不需要修改即可显示的文件,而动态页面可能会是在网络服务器或客户端上执行代码的结果。通常认为静态网页易于采集,而动态网页不易于抓取。然而,事实上并不是这样。一些动态生成页面的站点也易于采集,维基百科就是很好的例子。其他拥有静态页面的站点也不易于采集,因为它们需要通过填写表单才能对页面进行采集。
与私人站点不同的是,使用表单结果和脚本页面站点的管理员通常希望他们的站点被搜索引擎索引。在这两个类别中,脚本页面很容易处理。站点管理员通常只需要对页面进行轻微的改动,超链接就可以在服务器端通过代码生成,而不需要在浏览器中利用代码生成。虽然可能会花费一些时间,但爬虫也可以运行JavaScript及Flash。
最难的问题是那些使用表单结果的站点。通常,这些站点是那些变化的数据的仓库,通过表单将一个用户查询发送给数据库系统。如果数据库中包含几百万条记录,该站点会向搜索引擎的爬虫提供几百万的超链接。将上百万的链接添加到站点的首页中显然是不可行的。另外一个选择就是让爬虫来猜测需要在表单中输入什么样的数据,但很难选择好的表单输入。即便是猜测得比较准确,这种方法也不可能得到所有的隐藏数据
我要举报
如以上问答信息为低俗、色情、不良、暴力、侵权、涉及违法等信息,可以点下面链接进行举报!
大家都在看
如何让电脑可以玩CF而不BUG
北海中考的试卷和合浦的中考试卷一样吗?
ansys 的作用?
照片帮我改下尺寸和大小
浏阳市长沙浏阳市沿溪镇沿溪初级中学地址在哪
QQ自由幻想里武器耐久度下降影响售价吗?
什么是Counter Hit
csol白金芬兰的属性
什么什么透亮的成语,四字词语比如什么里透什
梦幻西游4魔1NLG、69后怎么加点?
杨凌今年什么时候开学
英美法德四国政体确立标志,元首任期,权力中心
浏阳市长沙刻章怎么去啊,谁知道地址啊
犬夜叉剧场版的什么时候出
网店,我已经上好货,又想大量改价,有什么批
推荐资讯
穆棱市牡丹江园宝饺子(八面通店)地址在什么地
求一RM转换MP4格式的电影转换工具
无在前面有什么成语,有一个叫面无什么的成语
1.马路的一边挂了18盏红灯笼,每隔两盏红灯笼
红高粱讲的是什么故事,红高粱的主题思想是什
做自定义戒指图
我是农历1984年2月11日2出生的,我想问一下我
土地折旧年限是多少?
有谁用过“兰贵人”化妆品,好用吗?可以给我介
北向的大户型怎么设计比较好?
要装修了现在买柚木地板好不好呢?
请问土壤水分传感器有什么
正方形一边上任一点到这个正方形两条对角线的
阴历怎么看 ?