永发信息网

为什么hive 里面group by 以后还是没有去重

答案:2  悬赏:10  手机版
解决时间 2021-04-06 12:00
为什么hive 里面group by 以后还是没有去重
最佳答案
cGreat works are performed not by strength but by perseverance.
全部回答
hive distribute by 和group by 的区别: group by是对检索结果的保留行进行单纯分组,一般总爱和聚合函数一块用例如avg(),count(),max(),main()等一块用。 distribute by是控制在map端如何拆分数据给reduce端的。hive会根据distribute by后面列,对应reduce的个数进行分发,默认是采用hash算法。sort by为每个reduce产生一个排序文件。在有些情况下,你需要控制某个特定行应该到哪个reducer,这通常是为了进行后续的聚集操作。distribute by刚好可以做这件事。因此,distribute by经常和sort by配合使用。 注:distribute by和sort by的使用场景 1.map输出的文件大小不均。 2.reduce输出文件大小不均。 3.小文件过多。 4.文件超大。 抛砖引玉,不足之处还望大神指正~
我要举报
如以上问答信息为低俗、色情、不良、暴力、侵权、涉及违法等信息,可以点下面链接进行举报!
大家都在看
关于雁门关的诗词,形容雁门关的诗句
你认为减肥好还是不好。对此写一篇英语作文
---It’scoldinthismeetingroom.---________A
如何看别人是否蹭网,如何查看别人已经用我的
二l婚在家岀嫁有什么不好
为什么别人需要帮助时我想办法去帮,到我需要
刘某欺人太盛,我欲何为?是关于刘某,跟我的
或然率是什么意思,"或然率"是什么意思
单选题Tom,remember________orangepillon__
新买的索立信平板电脑长时间没用怎么开不了机
途昂的雨刷感应器怎么设置
广东地区那里有收购鸡毛的厂家?和鸡毛的报价
北京到通辽多少公里,内蒙古通辽。离北京有多
2018年七月二六结婚日子可用吗
去蓬莱哪家旅行社工作好?
推荐资讯
求解y=(60-3x)(8- 2x)
大学毕业给老师的寄语,毕业时给老师的离别赠
人类弹跳高度的高度是多少?
令我感动的事评语,因为太害羞所以令男生对我
一秒破窗逃生器的作用是什么
中山大学第一附属医院妇科看哪个专家最好?急
双子座最契合哪个星座,
---I need some fresh air, so I’m going ou
你对台式电脑 CPU Corei5 怎么看待?
日语中です和あります两种用法有什么不同呢有
暗黑2,为啥不能全屏,谁能帮忙?!
钢琴老师对孩子的寄语,老师寄语怎么写给小学
正方形一边上任一点到这个正方形两条对角线的
阴历怎么看 ?