HDFS

发布人：张子卓发布时间：2019-12-12 浏览次数:629

HDFS是Hadoop分布式文件系统，能提供高吞吐量的数据访问，为海量数据提供存储。HDFS是一个高度容错性的系统，适合部署在廉价的机器上；能提供高吞吐量的数据访问，非常适合大规模数据集上的应用；提供了高可用（HA）架构保证了集群的稳定可靠。

适合带有大型数据集的应用程序，适用于高吞吐量，而不适合低时间延迟的访问。

从读写方式方面来看，适合流式读取的方式，不适合多用户写入一个文件（一个文件同时只能被一个客户端写），以及任意位置写入（不支持随机写）；更加适合写入一次，读取多次的应用场景。

从计算场景方面来看，适合数据密集型并行计算（数据量极大，但是计算相对简单的并行处理），如大规模Web信息搜索；适合计算密集型并行计算（数据量相对不是很大，但是计算较为复杂的并行计算），如3D建模与渲染、气象预报和科学计算；适合数据密集与计算密集混合型的并行计算，如3D电影的渲染。

1. 处理超大文件

这里的超大文件通常是指百MB、甚至数百TB大小的文件。目前在实际应用中，HDFS已经能用来存储管理PB级的数据了。

2. 运行于廉价的X86服务器上

Hadoop设计对硬件需求比较低，只须运行在低廉的商用硬件集群上，而无需昂贵的高可用性机器上。

3. 流式数据访问

HDFS的设计建立在更多地响应一次写入、多次读取任务的基础上。这意味着一个数据集一旦由数据源生成，就会被复制分发到不同的存储节点中，然后响应各种各样的数据分析任务请求。在多数情况下，分析任务都会涉及数据集中的大部分数据，也就是说，对HDFS来说，请求读取整个数据集要比读取一条记录更加高效。

4. 高吞吐

比关注数据访问的低延迟问题，更关键的在于数据访问的高吞吐。

5. 高可用

提供对高可用性的支持，当活动 NameNode失效，备用NameNode就会接管它的任务并开始服务于来自客户端的请求，而不会有任何明显的中断。

6. 数据安全

支持对存储在HDFS上的数据进行加密，保证数据的安全存储。

7. 增强的HDFS联邦

HDFS的元数据信息，包括文件信息，块信息等，都存储在NameNode中，一般当存储的文件数大于1亿时，NameNode就成为瓶颈。通过增强，每次扩容一对NameNode，在保障可靠性的同时突破文件存储数量的限制，最终可达到10亿以上的文件存储。