永发信息网

如何减少hadoop map端到reduce端的数据传输量

答案:1  悬赏:10  手机版
解决时间 2021-02-15 17:47
如何减少hadoop map端到reduce端的数据传输量
最佳答案
map的数量 map的数量通常是由hadoop集群的DFS块大小确定的,也就是输入文件的总块数,正常的map数量的并行规模大致是每一个Node是10~100个,对于CPU消耗较小的作业可以设置Map数量为300个左右,但是由于hadoop的每一个任务在初始化时需要一定的时间,因此比较合理的情况是每个map执行的时间至少超过1分钟。具体的数据分片是这样的,InputFormat在默认情况下会根据hadoop集群的DFS块大小进行分片,每一个分片会由一个map任务来进行处理,当然用户还是可以通过参数mapred.min.split.size参数在作业提交客户端进行自定义设置。还有一个重要参数就是mapred.map.tasks,这个参数设置的map数量仅仅是一个提示,只有当InputFormat 决定了map任务的个数比mapred.map.tasks值小时才起作用。同样,Map任务的个数也能通过使用JobConf 的conf.setNumMapTasks(int num)方法来手动地设置。这个方法能够用来增加map任务的个数,但是不能设定任务的个数小于Hadoop系统通过分割输入数据得到的值。当然为了提高集群的并发效率,可以设置一个默认的map数量,当用户的map数量较小或者比本身自动分割的值还小时可以使用一个相对交大的默认值,从而提高整体hadoop集群的效率。 2 reduece的数量 reduce在运行时往往需要从相关map端复制数据到reduce节点来处理,因此相比于map任务。reduce节点资源是相对比较缺少的,同时相对运行较慢,正确的reduce任务的个数应该是0.95或者1.75 *(节点数 ×mapred.tasktracker.tasks.maximum参数值)。如果任务数是节点个数的0.95倍,那么所有的reduce任务能够在 map任务的输出传输结束后同时开始运行。如果任务数是节点个数的1.75倍,那么高速的节点会在完成他们第一批reduce任务计算之后开始计算第二批 reduce任务,这样的情况更有利于负载均衡。同时需要注意增加reduce的数量虽然会增加系统的资源开销,但是可以改善负载匀衡,降低任务失败带来的负面影响。同样,Reduce任务也能够与 map任务一样,通过设定JobConf 的conf.setNumReduceTasks(int num)方法来增加任务个数。 3 reduce数量为0 有些作业不需要进行归约进行处理,那么就可以设置reduce的数量为0来进行处理,这种情况下用户的作业运行速度相对较高,map的输出会直接写入到 SetOutputPath(path)设置的输出目录,而不是作为中间结果写到本地。同时Hadoop框架在写入文件系统前并不对之进行排序。
我要举报
如以上问答信息为低俗、色情、不良、暴力、侵权、涉及违法等信息,可以点下面链接进行举报!
大家都在看
用各种感官描写一棵树
班里很少有人做的事情是什么
智海数码科技公司在哪里啊,我有事要去这个地
那个台湾网络红人瑶瑶唱的那首歌叫什么?里面
中国移动通信福禄营业厅我想知道这个在什么地
从产权上讲,专项维修资金属于()所有。A.建设
怎么才能用迅雷下载比特彗星种子市场里的资源
永盛饭店在哪里啊,我有事要去这个地方
班固写的汉书?最后一个人物写的是谁?
鄂城区鄂州轩马电动车地址在哪,我要去那里
辽宁煊能新能源汽车地址在哪,我要去那里办事
纬三东路/进港公路(路口)怎么去啊,有知道地
植物抗逆性的具体定义是什么?我看不懂一个生
动态图片保存在相册里怎么不会动
涵予祝您永远幸福快乐藏头诗
推荐资讯
联想小新v1070 fx版怎么样
永嘉瓯北江北大厦有房产证吗
西峡县南阳济仁堂医药连锁店(建设东路店)地址
股骨骨折四个月人称单拐走路吗
无意中看到一个wake软件,说是可以更好地练习
下沙浪怎么去啊,有知道地址的么
关于生活中的声音怎么计算频率?
逆战用USB共享手机网络一局闯关模式大概需要
adobe photoshop cs4中窗口下的动画面板如何
油酥烧饼怎样做才显的厚,凉了不硬
辣有道麻辣香锅怎么去啊,有知道地址的么
当阳市宜昌中国农业银行24小时自助银行地址在
正方形一边上任一点到这个正方形两条对角线的
阴历怎么看 ?