永发信息网

为什么hive 里面group by 以后还是没有去重

答案:2 悬赏:10 手机版

解决时间 2021-04-06 12:00

提问者网友：孤凫
2021-04-06 02:00

为什么hive 里面group by 以后还是没有去重

最佳答案

五星知识达人网友：北方的南先生
2021-04-06 02:16

cGreat works are performed not by strength but by perseverance.

全部回答

1楼网友：一把行者刀
2021-04-06 02:51

hive distribute by 和group by 的区别： group by是对检索结果的保留行进行单纯分组，一般总爱和聚合函数一块用例如avg（），count（），max（），main（）等一块用。 distribute by是控制在map端如何拆分数据给reduce端的。hive会根据distribute by后面列，对应reduce的个数进行分发，默认是采用hash算法。sort by为每个reduce产生一个排序文件。在有些情况下，你需要控制某个特定行应该到哪个reducer，这通常是为了进行后续的聚集操作。distribute by刚好可以做这件事。因此，distribute by经常和sort by配合使用。注：distribute by和sort by的使用场景 1.map输出的文件大小不均。 2.reduce输出文件大小不均。 3.小文件过多。 4.文件超大。抛砖引玉，不足之处还望大神指正~

我要举报

如以上问答信息为低俗、色情、不良、暴力、侵权、涉及违法等信息，可以点下面链接进行举报！

大家都在看

关于雁门关的诗词,形容雁门关的诗句

你认为减肥好还是不好。对此写一篇英语作文

---It’scoldinthismeetingroom.---________A

如何看别人是否蹭网,如何查看别人已经用我的

二l婚在家岀嫁有什么不好

为什么别人需要帮助时我想办法去帮，到我需要

刘某欺人太盛，我欲何为？是关于刘某，跟我的

或然率是什么意思,"或然率"是什么意思

单选题Tom,remember________orangepillon__

新买的索立信平板电脑长时间没用怎么开不了机

途昂的雨刷感应器怎么设置

广东地区那里有收购鸡毛的厂家？和鸡毛的报价

北京到通辽多少公里,内蒙古通辽。离北京有多

2018年七月二六结婚日子可用吗

去蓬莱哪家旅行社工作好？

推荐资讯

求解y=(60-3x)(8- 2x)

大学毕业给老师的寄语,毕业时给老师的离别赠

人类弹跳高度的高度是多少？

令我感动的事评语,因为太害羞所以令男生对我

一秒破窗逃生器的作用是什么

中山大学第一附属医院妇科看哪个专家最好？急

双子座最契合哪个星座，

---I need some fresh air, so I’m going ou

你对台式电脑 CPU Corei5 怎么看待？

日语中です和あります两种用法有什么不同呢有

暗黑2,为啥不能全屏，谁能帮忙？！

钢琴老师对孩子的寄语,老师寄语怎么写给小学

正方形一边上任一点到这个正方形两条对角线的

阴历怎么看？

网站首页 | 关于我们 | 网站留言

联系永发信息网
Copyright © 2025 永发信息网版权所有