做分布式爬虫和搜索引擎对于服务器配置有什么要求
答案:1 悬赏:50 手机版
解决时间 2021-03-14 12:38
- 提问者网友:川水往事
- 2021-03-13 19:23
做分布式爬虫和搜索引擎对于服务器配置有什么要求
最佳答案
- 五星知识达人网友:一秋
- 2021-03-13 21:02
分布式爬虫和搜索引擎对于服务器配置有什么要求?
做分布式爬虫和搜索引擎对于服务器配置有什么要求?
实验室要做主题爬虫,附带简单的搜索查询功能,现在要租用10~20台服务器,不知道什么配置好。
我们之前使用了三台服务器(租用的阿里云),用nutch1.7+hdfs爬取8000个URL(两层深度)用了两个多小时,第三层达到了40万用了3天还没完全爬完,感觉很慢。
服务器配置如下:
- 服务器A:主节点CPU 4核,内存32G,20Mbps(峰值)公网带宽(按流量)
- 服务器B,C:CPU 1核,2G内存,1Mbps公网带宽(固定带宽)
其中服务器A既做主节点又做从节点,服务器B,C只做从节点。
我有几点困惑:
1.制约爬取速度的,是带宽还是cpu的处理能力?我看任务日志,在nutch流程中fetch(连接并下载网页)这一步耗时最长,占据了绝大部分时间,是不是意味着带宽是主要瓶颈?
2.关于一台2核4G1M的配置和2台1核2G1M的配置,哪个更好?为什么?(阿里云的阿里云推荐配置https://www.aliyun.com/easybuy)
3.如果租用10~20台服务器,配置如何选择?使用标准配置还是加带宽,带宽如何选择
做分布式爬虫和搜索引擎对于服务器配置有什么要求?
实验室要做主题爬虫,附带简单的搜索查询功能,现在要租用10~20台服务器,不知道什么配置好。
我们之前使用了三台服务器(租用的阿里云),用nutch1.7+hdfs爬取8000个URL(两层深度)用了两个多小时,第三层达到了40万用了3天还没完全爬完,感觉很慢。
服务器配置如下:
- 服务器A:主节点CPU 4核,内存32G,20Mbps(峰值)公网带宽(按流量)
- 服务器B,C:CPU 1核,2G内存,1Mbps公网带宽(固定带宽)
其中服务器A既做主节点又做从节点,服务器B,C只做从节点。
我有几点困惑:
1.制约爬取速度的,是带宽还是cpu的处理能力?我看任务日志,在nutch流程中fetch(连接并下载网页)这一步耗时最长,占据了绝大部分时间,是不是意味着带宽是主要瓶颈?
2.关于一台2核4G1M的配置和2台1核2G1M的配置,哪个更好?为什么?(阿里云的阿里云推荐配置https://www.aliyun.com/easybuy)
3.如果租用10~20台服务器,配置如何选择?使用标准配置还是加带宽,带宽如何选择
我要举报
如以上问答信息为低俗、色情、不良、暴力、侵权、涉及违法等信息,可以点下面链接进行举报!
大家都在看
推荐资讯