永发信息网

百度是如何搜集并搜索到用户所需信息的??

答案:2  悬赏:40  手机版
解决时间 2021-12-29 11:55
百度是如何搜集并搜索到用户所需信息的??
最佳答案
①使用高速的分布式爬行器(Crawler)系统中的漫游遍历器定时地遍历网页,将遍历到的网页送到叮储服务器(Store Server)中。
②存储服务器使用zlib格式压缩软件将这些网页进行无损压缩处理后存入数据库中。获得了每个网页的完全Html代码后,对其压缩后的网页及URL进行分析,记录下网页长度、URL、URL长度和网页内容,并赋予每个网页一个文档号(docID),以便当系统出现故障的时候,可以及时完整地进行网页的数据恢复。
③索引器(Indexer)从数据库读取数据,以后做以下四步工作:
④(a)将读取的数据解压缩后进行分析,它将网页中每个有意义的词进行统计后,转化为关键词(wordID)的若干索引项(Hits),生成索引项列表,该列表包括关键词、关键词的位置、关键词的大小和大小写状态等。索引项列表被存入到数据桶(Barrels)中,并生成以文档号(docID)部分排序的顺排档索引。
索引项根据其重要程度分为两种:当索引项中的关键词出现在URL、标题、锚文本(Anchor Text)和标签中时,表示该索引项比较重要,称为特殊索引项(Fancy Hits);其余情况则称为普通索引项(Plain Hits)。在系统中每个Hit用两个字节(byte)存储结构表示:特殊索引项用1位(bit)表示大小写,用二进制代码111(占3位)表示是特殊索引项,其余12位有4位表示特殊索引项的类型(即hit是出现在URL、标题、链接结点还是标签中),剩下8位表示hit在网页中的具体位置;普通索引项是用1位表示大小写,3位表示字体大小,其余12位表示在网页中的具体位置。
全部回答
正好我需要
我要举报
如以上问答信息为低俗、色情、不良、暴力、侵权、涉及违法等信息,可以点下面链接进行举报!
大家都在看
手机丢失想查微信记录
手机上不了网怎么办
桐梓县遵义桐梓大楼邮政所地址在什么地方,想
单选题与东经105°经线共同组成经线圈的另一
黄岩岛
张华正在阳台上浇花,楼下的李阿姨说:小华,
和别人合伙开店,现在要分开,我注册了商标,如
7月份北半球被切断的气压带是A.副热带高气压
6伏12安电池装在四轮童车上最大能跑几公里
单选题下列有关催化剂的叙述正确的是A.催化剂
不打开查找我的iPhone是不是就不会被盗id?
it is because of the reason
充电宝的电池容量是什么意思
单选题火灾作为自然灾害能直接造成下列哪些资
龙虾是红烧的好吃还是蒸着好吃?
推荐资讯
从改变物体内能的途径来看,太阳能热水器是通
中国移动怎么开通国际漫游?
我要接开关,没有零线怎么办?
Inhuman,thereisapossibilityof ____suchasfe
山东地区能种植大棚柑橘树可行吗
注销税务为什么会要一份亏损认定的审计报告?
梓潼县人民检察院反贪污贿赂局在什么地方啊,
高考会考用0.38的笔,会不会有影响啊?我写的很
如何给NETGEAR WNR1000路由器设置密码
平面内一个正五边形与一个正方形的边长正好相
Before________,themachinemustbeche
关于x的方程2x+a=3的解是x=1,则a=________.
正方形一边上任一点到这个正方形两条对角线的
阴历怎么看 ?