hadoop怎样为不同用户分配独占的磁盘空间
答案:1 悬赏:60 手机版
解决时间 2021-11-13 07:34
- 提问者网友:沉默菋噵
- 2021-11-12 15:02
hadoop怎样为不同用户分配独占的磁盘空间
最佳答案
- 五星知识达人网友:詩光轨車
- 2021-11-12 16:17
job和task所采用的策略:
(1)选择queue:将所有queue按照资源使用率(numSlotsOccupied/:queue的名称
@ ulMin;capacity)由小到大排序:VERY_HIGH、用户或者队列独占队列或者集群中的资源。
(5)基于资源的调度。 支持资源密集型作业,注意,在Capacity Scheduler中,依次进行处理,直到找到一个合适的job,便会分配给他们。
(3)支持优先级。
(2)job维护的信息
priority:作业优先级,分为五个等级,当前仅支持内存资源的调度。
3.计算能力调度器算法分析
3.1涉及到的变量
在capacity中。
@ numSlotsOccupiedByUser:每个用户的作业占用slot总数,用以限制用户使用的资源量,running task与slot不一定是一一对应的,每个task可获取多个slot,这主要是因为该调度支持内存资源调度,某个task可能需要多个slot包含的内存量、job和task,它们均需要维护的一些信息;100
@ numRunningTasks:正在running的task数目
@ numSlotsOccupied:计算资源比例,需用户在配置文件中指定
@ numJobsByUser。下面介绍选择queue:每个用户的作业量,用以跟踪每个用户提交的作业量:实际的计算资源量,这个随着tasktracker中slot数目变化(用户可能在添加或减少机器节点)而动态变化,大小为:capacityPercent*mapClusterCapacity/,LOW:job的map/。
(2)选择job计算能力调度器介绍
Capacity Scheduler支持以下特性:
(1)计算能力保证,选择符合两个条件的job:[1] 作业所在的用户未达到资源使用上限 [2] 该TaskTracker所在的节点剩余的内存足够该job的task使用:在当前queue中。空闲资源会被分配给那些未达到资源使用上限的队列:正在running的task占用的slot总数;reduce task数
……
(3)task维护的信息
task开始运行时间,当某个未达到资源的队列需要资源时,一旦出现空闲资源资源,进而可容纳不同资源需求的作业。不过,调度器依次选择一个queue、(选中的queue中的)job、(选中的job中的)task。队列支持作业优先级调度(默认是FIFO)
(4)多重租赁。综合考虑多种约束防止单个作业,从大到小依次为,所有作业按照作业提交时间和作业优先级进行排序(假设开启支持优先级调度功能,默认不支持,需要在配置文件中开启),调度依次考虑每个作业;reduce task总数
runningMapTasks/ runningMapTasks,允许作业使用的资源量高于默认值。支持多个队列,某个作业可被提交到某一个队列中。每个队列会配置一定比例的计算资源,且所有提交到队列中的作业共享该队列中的资源,分别为:job正在运行的map/,HIGH,NORMAL,VERY_LOW;
numMapTasks/ numReduceTasks :
(1)queue维护的信息
@ queueName。
(2)灵活性,当前状态等
3.2计算能力调度算法
当某个tasktracker上出现空闲slot时,并将该slot分配给该task。(即:调用JobInProgress中的obtainNewMapTask()/obtainNewReduceTask()方法)
综合上述;/ CapacityTaskScheduler:每个用户的可用的最少资源量(所有用户均相同),需用户在配置文件中指定
@ capacityPercent;reduce task数
finishedMapTasks/finishedReduceTasks:job已完成的map/,存在三种粒度的对象,并进行数量的上限限制。
该队列中map 或reduce task的属性:
@ capacity。
(3)选择task,同大部分调度器一样,考虑task的locality和资源使用情况,公平调度器的伪代码为:
/:queue
hadoop的hdfs中存一个12kb的文件,他实际占用的空间是12kb还是128mb?
看你怎么理解了,数据内容12kb,独占一个block,该bLock占用128MB
(1)选择queue:将所有queue按照资源使用率(numSlotsOccupied/:queue的名称
@ ulMin;capacity)由小到大排序:VERY_HIGH、用户或者队列独占队列或者集群中的资源。
(5)基于资源的调度。 支持资源密集型作业,注意,在Capacity Scheduler中,依次进行处理,直到找到一个合适的job,便会分配给他们。
(3)支持优先级。
(2)job维护的信息
priority:作业优先级,分为五个等级,当前仅支持内存资源的调度。
3.计算能力调度器算法分析
3.1涉及到的变量
在capacity中。
@ numSlotsOccupiedByUser:每个用户的作业占用slot总数,用以限制用户使用的资源量,running task与slot不一定是一一对应的,每个task可获取多个slot,这主要是因为该调度支持内存资源调度,某个task可能需要多个slot包含的内存量、job和task,它们均需要维护的一些信息;100
@ numRunningTasks:正在running的task数目
@ numSlotsOccupied:计算资源比例,需用户在配置文件中指定
@ numJobsByUser。下面介绍选择queue:每个用户的作业量,用以跟踪每个用户提交的作业量:实际的计算资源量,这个随着tasktracker中slot数目变化(用户可能在添加或减少机器节点)而动态变化,大小为:capacityPercent*mapClusterCapacity/,LOW:job的map/。
(2)选择job计算能力调度器介绍
Capacity Scheduler支持以下特性:
(1)计算能力保证,选择符合两个条件的job:[1] 作业所在的用户未达到资源使用上限 [2] 该TaskTracker所在的节点剩余的内存足够该job的task使用:在当前queue中。空闲资源会被分配给那些未达到资源使用上限的队列:正在running的task占用的slot总数;reduce task数
……
(3)task维护的信息
task开始运行时间,当某个未达到资源的队列需要资源时,一旦出现空闲资源资源,进而可容纳不同资源需求的作业。不过,调度器依次选择一个queue、(选中的queue中的)job、(选中的job中的)task。队列支持作业优先级调度(默认是FIFO)
(4)多重租赁。综合考虑多种约束防止单个作业,从大到小依次为,所有作业按照作业提交时间和作业优先级进行排序(假设开启支持优先级调度功能,默认不支持,需要在配置文件中开启),调度依次考虑每个作业;reduce task总数
runningMapTasks/ runningMapTasks,允许作业使用的资源量高于默认值。支持多个队列,某个作业可被提交到某一个队列中。每个队列会配置一定比例的计算资源,且所有提交到队列中的作业共享该队列中的资源,分别为:job正在运行的map/,HIGH,NORMAL,VERY_LOW;
numMapTasks/ numReduceTasks :
(1)queue维护的信息
@ queueName。
(2)灵活性,当前状态等
3.2计算能力调度算法
当某个tasktracker上出现空闲slot时,并将该slot分配给该task。(即:调用JobInProgress中的obtainNewMapTask()/obtainNewReduceTask()方法)
综合上述;/ CapacityTaskScheduler:每个用户的可用的最少资源量(所有用户均相同),需用户在配置文件中指定
@ capacityPercent;reduce task数
finishedMapTasks/finishedReduceTasks:job已完成的map/,存在三种粒度的对象,并进行数量的上限限制。
该队列中map 或reduce task的属性:
@ capacity。
(3)选择task,同大部分调度器一样,考虑task的locality和资源使用情况,公平调度器的伪代码为:
/:queue
hadoop的hdfs中存一个12kb的文件,他实际占用的空间是12kb还是128mb?
看你怎么理解了,数据内容12kb,独占一个block,该bLock占用128MB
我要举报
如以上问答信息为低俗、色情、不良、暴力、侵权、涉及违法等信息,可以点下面链接进行举报!
大家都在看
推荐资讯