栏目分类:
子分类:
返回
终身学习网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
终身学习网 > IT > 前沿技术 > 大数据 > 大数据系统

数仓工具—Hive进阶之归档(13)

大数据系统 更新时间:发布时间: 百科书网 趣学号
归档

读者交流群已经开通了,有需要的可以私信进入读者交流群

由于 HDFS 的设计,文件系统中文件的数量直接影响 namenode 中的内存消耗。虽然通常对于小型群集而言不是问题,但是当文件数大于 50 到 1 亿时,内存使用量可能会达到一台计算机上可访问内存的限制。在这种情况下,具有尽可能少的文件是有利的。

关于这一点我们前面也提到过一个解决方案那就是处理小文件,你可以参考Hive进阶之优化小文件问题

使用Hadoop Archives是减少分区中文件数量的一种方法。 Hive 具有内置支持,可将现有分区中的文件转换为 Hadoop 存档(HAR),这样一个曾经由 100 个文件组成的分区只能占用约 3 个文件(取决于设置)。然而,权衡是由于从 HAR 读取时的额外开销,查询可能会变慢。

Hive中的Archive实际上就是使用Hadoop Archive (HAR),关于这个你可以参考Hadoop Archives

Hadoop Archive

Hadoop Archive是一种特殊的归档格式,Hadoop Archive映射到文件系统目录,一个HAR以扩展名.har结尾,一个HAR目录包含元数据(以_index和_masterindex的形式)和data

转载请注明:文章转载自 www.051e.com
本文地址:http://www.051e.com/it/600919.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 ©2023-2025 051e.com

ICP备案号:京ICP备12030808号