
知道HDFS是什么,掌握其基本原理即可,不需要深挖源代码(个人而言)。
当然对于大数据工程师来说还是要的!
HDFS集群是标准的主从架构集群,一般一个HDFS集群是由一个NameNode(主节点)和一定数目的DataNode(从节点)组成,两种Node各司其职,协调完成分布式的文件存储服务
默认3副本存储策略
(1)主要由NameNode负责,核心记住一句话:外部想要访问HDFS,NameNode是唯一入口
(2)此外,还有个secondaryNameNode,它是NameNode的Backup
工作中通常直接使用命令操作HDFS,这个UI界面不经常用,知道有这个概念就行
6 PipLine管道