hivetez引擎和mr引擎的区别

答案:3 悬赏:0 手机版

解决时间 2021-03-15 18:39

提问者网友：蓝莓格格巫
2021-03-14 19:45

hivetez引擎和mr引擎的区别

最佳答案

五星知识达人网友：爱难随人意
2021-03-14 21:14

MapReduce：是一种离线计算框架，将一个算法抽象成Map和Reduce两个阶段进行处理，每个阶段都是用键值对（key/value）作为输入和输出，非常适合数据密集型计算。Map/Reduce通过把对数据集的大规模操作分发给网络上的每个节点实现可靠性；每个节点会周期性地返回它所完成的工作和最新的状态。如果一个节点在设定的时间内没有进行心跳上报，主节点（可以理解为主服务器）就会认为这个节点down掉了，此时就会把分配给这个节点的数据发到别的节点上运算，这样可以保证系统的高可用性和稳定性。因此它是一个很好的计算框架。
TEZ：
是基于Hadoop YARN之上的DAG（有向无环图，Directed Acyclic Graph）计算框架。核心思想是将Map和Reduce两个操作进一步拆分，即Map被拆分成Input、Processor、Sort、Merge和Output， Reduce被拆分成Input、Shuffle、Sort、Merge、Processor和Output等。这样，这些分解后的元操作可以任意灵活组合，产生新的操作，这些操作经过一些控制程序组装后，可形成一个大的DAG作业，从而可以减少Map/Reduce之间的文件存储，同时合理组合其子过程，也可以减少任务的运行时间。
两者比较：

MR计算，会对磁盘进行多次的读写操作，这样启动多轮job的代价略有些大，不仅占用资源，更耗费大量的时间，
而采用TEZ计算框架，就会生成一个简洁的DAG作业，算子跑完不退出，下轮继续使用上一轮的算子，这样大大减少磁盘IO操作，从而计算速度更快。 TEZ比MR至少快5倍
相关资料链接：网页链接

全部回答

1楼网友：执傲
2021-03-14 23:06

这个是两个东西。spark主要是来做小批量和准实时的数据流计算，其本身也支持类sql计算，还可以用来作为计算引擎；而hadoop包含hive.hdfs.mr和yarn，各有自己的功能

2楼网友：罪歌
2021-03-14 22:00

hive中在做多表关联时,由于hive的sql优化引擎还不够强大

我要举报

如以上问答信息为低俗、色情、不良、暴力、侵权、涉及违法等信息，可以点下面链接进行举报！