实用工具小学数学练习字帖生成在线画板函数绘制拼音字母表在线词典黄历查询中国历史 Excel函数模拟请求 json格式化

栏目分类:

子分类:

终身学习网

终身学习网用户登录

快速导航

当前搜索

当前分类

前沿技术软件开发系统运维产品运营生活办公面试经验考试题库

实用工具

学习工具小学数学练习字帖生成在线画板函数绘制拼音字母表在线词典黄历查询亲戚关系计算安全期计算中国历史 Excel函数模拟请求 json格式化浏览器指纹

热门搜索

北京印刷学院排名北方工业大学排名北京航空航天大学排名首都经济贸易大学排名中国传媒大学排名首都师范大学排名中国地质大学(北京)排名北京信息科技大学排名中央民族大学排名中国戏曲学院排名河北政法职业学院排名河北经贸大学排名天津中德应用技术大学排名天津医学高等专科学校排名天津美术学院排名天津音乐学院排名天津工业大学排名北京工业大学耿丹学院排名北京警察学院排名天津科技大学排名铁岭卫生职业学院排名沈阳北软信息职业技术学院排名吉林艺术学院排名吉林体育学院排名白城师范学院排名通化师范学院排名吉林农业大学排名长春电子科技学院排名吉林工业职业技术学院排名吉林司法警官职业学院排名

终身学习网 > IT > 前沿技术 > 大数据 > 大数据系统

数仓工具—Hive进阶之归档(13)

大数据系统更新时间：2026-03-14 19:04:38发布时间：1567天前百科书网趣学号

归档

读者交流群已经开通了，有需要的可以私信进入读者交流群

由于 HDFS 的设计，文件系统中文件的数量直接影响 namenode 中的内存消耗。虽然通常对于小型群集而言不是问题，但是当文件数大于 50 到 1 亿时，内存使用量可能会达到一台计算机上可访问内存的限制。在这种情况下，具有尽可能少的文件是有利的。

关于这一点我们前面也提到过一个解决方案那就是处理小文件，你可以参考Hive进阶之优化小文件问题

使用Hadoop Archives是减少分区中文件数量的一种方法。 Hive 具有内置支持，可将现有分区中的文件转换为 Hadoop 存档(HAR)，这样一个曾经由 100 个文件组成的分区只能占用约 3 个文件(取决于设置)。然而，权衡是由于从 HAR 读取时的额外开销，查询可能会变慢。

Hive中的Archive实际上就是使用Hadoop Archive (HAR),关于这个你可以参考Hadoop Archives

Hadoop Archive

Hadoop Archive是一种特殊的归档格式，Hadoop Archive映射到文件系统目录，一个HAR以扩展名.har结尾，一个HAR目录包含元数据（以_index和_masterindex的形式）和data

转载请注明：文章转载自 www.051e.com

本文地址：http://www.051e.com/it/600919.html

上一篇 JAVA 日期增加一个月遇到一月遇到二月遇到三月怎么计算日期

下一篇 Scala/Java - 本地执行 Unsupported major.minor version 52.0

大数据系统相关栏目本月热门文章

热门相关搜索

北京印刷学院排名北方工业大学排名北京航空航天大学排名首都经济贸易大学排名中国传媒大学排名首都师范大学排名中国地质大学(北京)排名北京信息科技大学排名中央民族大学排名中国戏曲学院排名河北政法职业学院排名河北经贸大学排名天津中德应用技术大学排名天津医学高等专科学校排名天津美术学院排名天津音乐学院排名天津工业大学排名北京工业大学耿丹学院排名北京警察学院排名天津科技大学排名铁岭卫生职业学院排名沈阳北软信息职业技术学院排名吉林艺术学院排名吉林体育学院排名白城师范学院排名通化师范学院排名吉林农业大学排名长春电子科技学院排名吉林工业职业技术学院排名吉林司法警官职业学院排名吉林警察学院排名长春健康职业学院排名吉林水利电力职业学院排名大庆师范学院排名黑龙江大学排名哈尔滨剑桥学院排名哈尔滨铁道职业技术学院排名哈尔滨应用职业技术学院排名黑龙江民族职业学院排名七台河职业学院排名黑龙江生态工程职业学院排名华东师范大学排名上海健康医学院排名华东理工大学排名上海交通大学排名同济大学排名复旦大学排名上海杉达学院排名上海戏剧学院排名上海音乐学院排名

关于我们文章归档网站地图联系我们

版权所有 ©2023-2025 051e.com

ICP备案号：京ICP备12030808号