《深入理解大数据：大数据处理与编程实践》一一3.2　HDFS可靠性设计

更新时间：2021-11-06 16:15:56

本节书摘来自华章计算机《深入理解大数据：大数据处理与编程实践》一书中的第3章，第3.2节,作者主　编：黄宜华（南京大学）副主编：苗凯翔（英特尔公司），更多章节内容可以访问云栖社区“华章计算机”公众号查看。

3.2　HDFS可靠性设计

Hadoop能得到如此广泛的应用，和背后默默支持它的HDFS是分不开的。作为一个能在成百上千个节点上运行的文件系统，HDFS在可靠性设计上做了非常周密的考虑。
3.2.1　HDFS数据块多副本存储设计
作为一个分布式文件系统，HDFS采用了在系统中保存多个副本的方式保存数据（以下简称多副本），且同一个数据块的多个副本会存放在不同节点上，如图3-2所示。采用这种多副本方式有以下几个优点：1）采用多副本，可以让客户从不同的数据块中读取数据，加快传输速度；2）因为HDFS的DataNode之间通过网络传输数据，如果采用多个副本可以判断数据传输是否出错；3）多副本可以保证某个DataNode失效的情况下，不会丢失数据。
《深入理解大数据：大数据处理与编程实践》一一3.2　HDFS可靠性设计

图3-2　HDFS数据块多副本存储
HDFS按照块的方式随机选择存储节点，为了可以判断文件是否出错，副本个数默认为3（注：如果副体个数为1或2的话，是不能判断数据对错的）。出于数据传输代价以及错误恢复等多方面的考虑，副本的保存并不是均匀分布在集群之中的，关于副本保存分布和维持DataNode负载均衡的更详细的内容，可以参考后面3.4.4节关于balancer的介绍。
3.2.2　HDFS可靠性的设计实现
1.?安全模式
HDFS刚刚启动时，NameNode会进入安全模式（safe mode）。处于安全模式的NameNode不能做任何的文件操作，甚至内部的副本创建也是不允许的。NameNode此时需要和各个DataNode通信，获得DataNode保存的数据块信息，并对数据块信息进行检查。只有通过了NameNode的检查，一个数据块才被认为是安全的。当认为安全的数据块所占的比例达到了某个阈值（可配置），NameNode才会退出。
2.?SecondaryNameNode
Hadoop中使用SecondaryNameNode来备份NameNode的元数据，以便在NameNode失效时能从SecondaryNameNode恢复出NameNode上的元数据。SecondaryNameNode充当NameNode的一个副本，它本身并不处理任何请求，因为处理这些请求都是NameNode的责任。
NameNode中保存了整个文件系统的元数据，而SecondaryNameNode的作用就是周期性（周期的长短也是可以配置的）保存NameNode的元数据。这些元数据中包括文件镜像数据FsImage和编辑日志数据EditLog。FsImage相当于HDFS的检查点，NameNode启动时候会读取FsImage的内容到内存，并将其与EditLog日志中的所有修改信息合并生成新的FsImage；在NameNode运行过程中，所有关于HDFS的修改都将写入EditLog。这样，如果NameNode失效，可以通过Secondary NameNode中保存的FsImage和EditLog数据恢复出NameNode最近的状态，尽量减少损失。
3.?心跳包（HeartBeats）和副本重新创建（re-replication）
如果HDFS运行过程中，一部分DataNode因为崩溃或是掉线等原因，离开了HDFS系统，怎么办？为了保证NameNode和各个DataNode的联系，HDFS采用了心跳包（Heart beat）机制。位于整个HDFS核心的NameNode，通过周期性的活动来检查DataNode的活性，就像跳动的心脏一样，所以，这里把这些包就叫做心跳包。NameNode周期性向管理的各个DataNode发送心跳包，而收到心跳包的DataNode则需要回复。因为心跳包总是定时发送的，所以NameNode就把要执行的命令也通过心跳包发送给DataNode，而DataNode收到心跳包，一方面回复NameNode，另一方面就开始了与用户或者应用的数据传输。
如果侦测到了DataNode失效，那么之前保存在这个DataNode上的数据就变成不可用的。那么，如果有的副本存储在失效的DataNode上，则需要重新创建这个副本，放到另外可用的地方。其他需要创建副本的情况包括数据块校验失败等。
4.?数据一致性
一般来讲，DataNode与应用数据交互的大部分情况都是通过网络进行的，而网络数据传输带来的一大问题就是数据是否能原样到达。为了保证数据的一致性，HDFS采用了数据校验和（CheckSum）机制。创建文件时，HDFS会为这个文件生成一个校验和，校验和文件和文件本身保存在同一空间中。传输数据时会将数据与校验和一起传输，应用收到数据后可以进行校验，如果两个校验的结果不同，则文件肯定出错了，这个数据块就变成了无效的。如果判定数据无效，就需要从其他DataNode上读取副本。
5.?租约
在Linux中，为了防止出现多个进程向同一个文件写数据的情况，采用了文件加锁的机制。而在HDFS中，同样也需要一种机制来防止同一个文件被多个人写入数据。这种机制就是租约（Lease）。每当写入文件之前，一个客户端必须要获得NameNode发放的一个租约。NameNode保证同一个文件只会发放一个允许写的租约，那么就可以有效防止出现多人写入的情况。
不过，租约的作用不止于此。如果NameNode发放租约之后崩溃了，怎么办？或者如果客户端获得租约之后崩溃了，又怎么办？第一个问题可以通过前面提到的恢复机制解决。而第二个问题，则通过在租约中加入时间限制来解决。每当租约要到期时，客户端需要向NameNode申请更新租约，NameNode“审核”之后，重新发放租约。如果客户端不申请，那就说明客户端不需要读写这一文件或者已经崩溃了，NameNode收回租约即可。
6.?回滚
HDFS与Hadoop一样处于发展阶段。而某个升级可能会导致BUG或者不兼容的问题，这些问题还可能导致现有的应用运行出错。这一问题可以通过回滚回到旧版本解决。HDFS安装或者升级时，会将当前的版本信息保存起来，如果升级之后一段时间内运行正常，可以认为这次升级没有问题，重新保存版本信息，否则，根据保存的旧版本信息，将HDFS恢复至之前的版本。

上一篇 : ：搜索引擎：MapReduce实战----倒排索引下一篇 : 平安城市建设各地城市如何展现城市形象？

相关阅读

推荐文章