栏目分类:
子分类:
返回
终身学习网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
终身学习网 > IT > 前沿技术 > 大数据 > 大数据系统

HDFS分布式文件系统 (随笔

大数据系统 更新时间:发布时间: 百科书网 趣学号

思维特点(
              数据量大 
              类型繁多
              价值密度低
              处理速度快
              )

HDFS技术原理
          存储
          查询
          处理
          采集
分布式文件系统 (多个袋子装)
拆分数据 分到不同结点存储

client  DataNode多实例部暑
NameNode单实例部署   不允许出现多个  
               主备进行部署(解决单点故障)  集群运行时只有主在工作 备什么也不做 
               NameNode选举    一主一备
               当集群运行 向ZooKeeper 写自己的信息 谁先写完谁主
主备倒换:主实时的Zookeeper之间进行心跳  当一段时间没有心跳   将备提升为主

主备之间进行数据同步的条件 
    1 .每做一个操作写一个操作      edltlog.new文件
    当文件到64M 就会将文件传到JN 上   备NameNode 到JN下载
    2 .当时间间隔达到一小时  
    edltlog.new 日志文件  记录所做过的操作
    fsimage快照文件   当前文件系统的状态
当两个条件都不满足 没有同步时  会进行慢慢恢复

访问入口    切分 client
把数据写到硬盘 DataNode(数据结点)                    DataNode写元数据

一共12T       两个只能存储10T                 |
切分 数据会被切分成多个128mb的数据块|-----最小化磁盘寻址时间

记录数据存储位置 和 块之间的关系  每个数据块都会产生一个150K的元数据 用来记录
                                                                                              |
                                                                                    由DataNode管理
                                                       NameNode如果想知道元数据  由DataNode汇报
数据在存储的时候会进行备份   默认备份3份

ZooKeeper为什么有三个  互相进行投票
存活条件 是半数以上的结点存活时  集群才能正常使用     3个存活两个
                                                                                     四个存活三个   都容灾一个


 

转载请注明:文章转载自 www.051e.com
本文地址:http://www.051e.com/it/601094.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 ©2023-2025 051e.com

ICP备案号:京ICP备12030808号