怎么可以防止网页被抓取 - 技术问答
答案:2 悬赏:70 手机版
解决时间 2021-02-14 05:11
- 提问者网友:缘字诀
- 2021-02-13 14:32
现在搜索引擎在互联网上肆意的抓取网页,如果我的网站的网页不想被他们抓取,我可以采取什么办法?
最佳答案
- 五星知识达人网友:一把行者刀
- 2021-02-13 15:23
防采集首先你要精通采集, 我玩了很多年了, 说下我的经验1. 防搜索引擎, 设置robots.txt, 不过对付一些流氓蜘蛛, 这方法不管用, 请看方法22. 要耗点服务器资源, 不管是蜘蛛还是人还是机器浏览器头可以伪造, IP可以伪造, COOKIE可以伪造, 所以用数据库存储每次用户的访问, 只存$_SERVER[\'REMOTE_ADDR\'], 然后为IP计数用CRON定时清理数据, 比如,5分钟清空一次这个表清空之前, 如果访问数大于100的, 统统加入deny, 用apache禁止它访问,这100显然不是正常用户的访问量, 当然数值根据你的网站情况设置为了提高性能,GOOGLE和百度的IP还是可以找到的, 这些列入白名单, 其他的统统要审我当年就是这样防采集的, 没人采得了我几十万的数据当然, 还是有办法的, 办法就是, 他得用高匿代理, 而且每个代理只能采集我设置的数量,就像前面设置的那个100, 呵呵
全部回答
- 1楼网友:冷風如刀
- 2021-02-13 15:42
:sweat:设置网页不能被下载?可以防止被抓取吗?
我要举报
如以上问答信息为低俗、色情、不良、暴力、侵权、涉及违法等信息,可以点下面链接进行举报!
大家都在看
推荐资讯