永发信息网

看我们这垃圾的百度贴吧我真是特么笑了!。

答案:1  悬赏:30  手机版
解决时间 2021-11-16 03:34
看我们这垃圾的百度贴吧我真是特么笑了!。
最佳答案
百度是世界上流量最大的网站之一,也是中国大陆流量最大的网站,日搜索请求达60亿次以上。百度用户是最具多样性特征的,用户属性可以说是无所不包,这也正应了那句话,林子大了什么鸟都有。门类齐全的有害信息,包括违法与有害广告,都想通过百度这个平台进行传播,如果百度不具备相应的反垃圾技术和有害信息过滤技术,是根本做不到如今这个规模的。

这世界上所有的搜索引擎,无一例外都会遇到类似问题。谷歌2015年全年共去除了7.8亿条违反其政策的广告,比2014年的5.24亿条增长了近50%。这个增长率比正常商业广告还快,有数不清的违法广告希望通过搜索引擎谋取利益,不把好关就天下大乱了。百度也一样,每天有4.7亿条广告通过百度广告系统送审,每秒要处理5000条以上,这基本已不是人力能解决的问题了。同谷歌一样,百度也主要是通过技术手段来对广告进行审查和过滤。据披露,百度为此有专门的“黑科技”系统,负责审查甄别各种虚假违规推广内容。

不同的反垃圾技术,在处理原则上都是一样的,首先是机器发现异常内容后提交进一步审核的预警机制、第二是发现异常内容后的批量处理机制、第三是处理完异常内容之后防止再次出现的屏蔽机制。这几个步骤说起来容易,做起来很难,尤其对百度这样流量巨大的公司来说。技术跟不上的话就只能增加人工审核力量,这会给公司造成巨额成本支出,而技术跟不上又花不起钱的话,公司迟早会被垃圾信息拖死。好在,经过十几年运营经验和技术研发的积累之后,百度已拥有了一套非常有效的机器审核过滤系统。

以大数据为基础的“雷达系统”,是百度在审核与过滤有害信息及非法广告的一个利器,可以实现对95%以上的信息进行自动审核。这个系统与百度搜索本身有相似之处,通过将信息的IP、ID,来源,语义内容等素材进行大数据比对,从而发现有害信息及违法广告。系统拥有强大的数据采集能力,丰富的数据分析维度,还有快速而准确的瞬时数据处理能力,这其中的每一种技术都不是大多数公司所能够掌握的。

在一个包含10万字节的word文档中,个人PC基本能做到瞬间就将相同的字词找出来,可如果需要查询的字节是10亿量级的,且来自于开发标准不同,包含各种层级体系的网页,还需要将不同维度的变量集中到一个结果中,且瞬间反应,那就不是一件容易的事情了。这首先需要相当高超的数据算法,还要有周密严谨的多个数据模型,更需要有搭建大规模计算机运算系统的能力。在互联网行业中,这些技术的总和相当于大当量“核武器”。

当然,在目前的技术条件下,机器系统再先进也不能解决所有问题。以百度的审核与过滤系统来说,系统最多能让审核与过滤过程更有效率,成本更低,但还是有一些特别有技术含量的有害信息及非法广告,还是需要依赖人工的。例如一些使用flash技术的动态广告,提交时是正常的,几个小时后也许就变成别的了。对这类广告,虽然用系统能过滤掉大部分,但还是会有一部分需要进行人工审核。追问我什么都没干,没水楼水贴,真是醉了,呵呵
我要举报
如以上问答信息为低俗、色情、不良、暴力、侵权、涉及违法等信息,可以点下面链接进行举报!
大家都在看
小林家离学校有530来远,他每分钟走62米,9分
国贸店歌莉斯兰健身会所地址在哪,我要去那里
中国邮政快递(文化北路1号中国邮政快递)地址
电脑配制单在哪
EVA雨滴桌面求助.怎么让字体自动换行
华丰宾馆(安庆大观区)地址在什么地方,想过去
隆中的隆字怎么读
朋友 为什么不考个ACCA
米兰手机是国际品牌吗
SK-II的眼霜一般要多少钱?
华为路由器NE20-4现死机断网故障,求解答
2014年9.1日到2016年4.03一共是几天
从5.8.13.18四个数选出三个数,写出四道加法
z258列车第五车厢21上铺
卢鸿庆书法价位
推荐资讯
刚到手的小米mix2s需要更新系统吗.还有为
我想卖围裙能赚钱吗
我爱我の家地址在什么地方,想过去办事,
54000传销有人成功吗
有水从坟墓里流出,说明该坟墓的风水如何?
小5和孙子涵什么关系。
新手暗黑3,圣教军怎么没有
茶啊二中王强去拆食堂是哪一集?
ST12相当于中国什么材料
安装软件时出现安装包版本低于当前版本是否覆
东风小康(周口广源专营店)地址有知道的么?有
安行宝返已交保费120%是什么意思
正方形一边上任一点到这个正方形两条对角线的
阴历怎么看 ?