HDFS
发布人:张子卓  发布时间:2019-12-12   浏览次数:629

官方网站链接:http://hadoop.apache.org

简介

HDFSHadoop分布式文件系统,能提供高吞吐量的数据访问,为海量数据提供存储。HDFS是一个高度容错性的系统,适合部署在廉价的机器上;能提供高吞吐量的数据访问,非常适合大规模数据集上的应用;提供了高可用(HA)架构保证了集群的稳定可靠。

应用场景

适合带有大型数据集的应用程序,适用于高吞吐量,而不适合低时间延迟的访问。

从读写方式方面来看,适合流式读取的方式,不适合多用户写入一个文件(一个文件同时只能被一个客户端写),以及任意位置写入(不支持随机写);更加适合写入一次,读取多次的应用场景。

从计算场景方面来看,适合数据密集型并行计算(数据量极大,但是计算相对简单的并行处理),如大规模Web信息搜索;适合计算密集型并行计算(数据量相对不是很大,但是计算较为复杂的并行计算),如3D建模与渲染、气象预报和科学计算;适合数据密集与计算密集混合型的并行计算,如3D电影的渲染。

功能特性

1.        处理超大文件

这里的超大文件通常是指百MB、甚至数百TB大小的文件。目前在实际应用中,HDFS已经能用来存储管理PB级的数据了。

2.        运行于廉价的X86服务器上

Hadoop设计对硬件需求比较低,只须运行在低廉的商用硬件集群上,而无需昂贵的高可用性机器上。

3.        流式数据访问

HDFS的设计建立在更多地响应一次写入、多次读取任务的基础上。这意味着一个数据集一旦由数据源生成,就会被复制分发到不同的存储节点中,然后响应各种各样的数据分析任务请求。在多数情况下,分析任务都会涉及数据集中的大部分数据,也就是说,对HDFS来说,请求读取整个数据集要比读取一条记录更加高效。

4.        高吞吐

比关注数据访问的低延迟问题,更关键的在于数据访问的高吞吐。

5.        高可用

提供对高可用性的支持,当活动 NameNode失效,备用NameNode就会接管它的任务并开始服务于来自客户端的请求,而不会有任何明显的中断。

6.        数据安全

支持对存储在HDFS上的数据进行加密,保证数据的安全存储。

7.        增强的HDFS联邦

HDFS的元数据信息,包括文件信息,块信息等,都存储在NameNode中,一般当存储的文件数大于1亿时,NameNode就成为瓶颈。通过增强,每次扩容一对NameNode,在保障可靠性的同时突破文件存储数量的限制,最终可达到10亿以上的文件存储。


 
copyright@2022长安大学 | 高性能计算平台