栏目分类:
子分类:
返回
终身学习网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
终身学习网 > IT > 前沿技术 > 大数据 > 大数据系统

Order By、Sort By、distribute by 、cluster by的区别

大数据系统 更新时间:发布时间: 百科书网 趣学号
Order By

order by 排序出来的数据是全局有序的,在hive mr引擎中将会只有1个reduce

Sort By

sort by 排序出来的数据是局部有序的,但是全局无序。即partition内部是有序的,但是partition与partition之间的数据是没有顺序关系的

distribute by

类似 MapReduce 中 partition,采集 hash 算法,在 map 端将查询的结果中 hash 值相同的结果分发到对应的 reduce 文件中。需要结合sort by使用。
注意: Hive要求 distribute by 语句要写在 sort by 语句之前。

cluster by

当 distribute by 和 sort by 字段相同时,可以使用 cluster by 方式
除了 distribute by 的功能外,还会对该字段进行排序,所以 cluster by = distribute by + sort by

转载请注明:文章转载自 www.051e.com
本文地址:http://www.051e.com/it/700072.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 ©2023-2025 051e.com

ICP备案号:京ICP备12030808号