hadoop特点(hadoop特点包括)
本篇文章给大家谈谈hadoop特点,以及hadoop特点包括对应的知识点,希望对各位有所帮助,不要忘了收藏本站喔。
本文目录一览:
hadoop有哪些优缺点
一、HDFS缺点:
1、不能做到低延迟:由于hadoop针对高数据吞吐量做了优化,牺牲了获取数据的延迟,所以对于低延迟数据访问,不适合hadoop,对于低延迟的访问需求,HBase是更好的选择,
2、不适合大量的小文件存储:由于namenode将文件系统的元数据存储在内存中,因此该文件系统所能存储的文件总数受限于namenode的内存容量,根据经验,每个文件、目录和数据块的存储信息大约占150字节。
3、不适合多用户写入文件,修改文件:Hadoop2.0虽然支持文件的追加功能,但是还是不建议对HDFS上的 文件进行修改,因为效率低。
4、对于上传到HDFS上的文件,不支持修改文件,HDFS适合一次写入,多次读取的场景。
5、HDFS不支持多用户同时执行写操作,即同一时间,只能有一个用户执行写操作。
二、HDFS优点:
1、高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。
2、高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。
3、高效性。Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。
4、高容错性。Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。
5、低成本。与一体机、商用数据仓库以及QlikView、Yonghong Z-Suite等数据集市相比,hadoop是开源的,项目的软件成本因此会大大降低。
6、Hadoop带有用Java语言编写的框架,因此运行在 Linux 生产平台上是非常理想的。Hadoop 上的应用程序也可以使用其他语言编写,比如 C++。
一、 Hadoop 特点
1、支持超大文件:一般来说,HDFS存储的文件可以支持TB和PB级别的数据。
2、检测和快速应对硬件故障:在集群环境中,硬件故障是常见性问题。因为有上千台服务器连在一起,故障率高,因此故障检测和自动恢复hdfs文件系统的一个设计目标芹氏。
3、流式数据访问:HDFS的数据处理规模比较大,应用一次需要大量的数据,同时这些应用一般都是批量处理,而不是用户交互式处理,应用程序能以流的形式访问数据库。
4、简化的一致性模型:对于外部使用用户,不需要了解hadoop底层细节,比如文件的切块,文件的存储,节点的管理。
5、高容错性:数据自动保存多个副本,副本丢失后自动恢复。可构建在廉价机上,实现线性(横向)扩展,当集群增加新节点之后,namenode也可以感知,将数据分发和备份到相应的节点上。
6、商用硬件:Hadoop并不需要和野运行在昂贵且高可靠的硬件上,它是设计运行在商用硬件的集群上的,因此至少对于庞唤首喊大的集群来说,节点故障的几率还是非常高的。HDFS遇到上述故障时,被设计成能够继续运行且不让用户察觉到明显的中断。
Hadoop到底是干什么用的?
用途:将单机的工作携耐任务进行分拆,变成协同工作的集群。用以解决日益增加的文件存储量和数据量瓶颈。
通俗应用解释:
比如计算一个100M的文本文件中的单词的个数,这个文本文件有若干行,每行有若干个单辩皮春词,每行的单词与单词之间都是以空格键分开的。对于处理这种100M量级数据的计算任务,把这个100M的文件拷贝到自己的电脑上,然后写个计算程序就能完成计算。
关键技术:
HDFS(Hadoop Distributed File System):
既可以是Hadoop 集群的一部分,也可以是一个独立的分布式文件系统,是开源免费的大数据处理文件存储系统。
HDFS是Master和Slave的主从结构(是一种概念模型,将设备分为主设备和从设备,主设备负责分配工作并整合结果,或作为指令的来源;从设备负责完成工作,一般只能和主设备通信)。主要由Name-Node、Secondary NameNode、DataNode构成。
Name-Node:分布式文件系统中的管理者,主要负责管理文件系统的命名空间、集群配置信息和存储块的复制等
Secondary NameNode:辅助 NameNode,分担其工作,紧急情况可以辅助恢复
DataNode:Slave节点,实际存储数据、执行数据块的读写并汇报存储信息给NameNode
HDFS客户端的存储流程:当客户需要写数据时,先在NameNode 上创建文件结构并确定数据块副本将要写道哪几个 datanode ,然后将多个代写 DataNode 组成一个写数据管道,保证写入过程完整统一写入。
读取数据时则先通过 NameNode 找到存储数据块副本的所有 DataNode ,根据与握做读取客户端距离排序数据块,然后取最近的。
[img]hadoop是什么意思?
Hadoop是一个由Apache基金会所开发的分布式系统基亩瞎运础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。
Hadoop实现了一个分布式文件系统( Distributed File System),其中一个组件是HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且神镇它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。
扩展资料:
Hadoop的优点:
1、高可靠性:Hadoop按位存储和处理数据的能力值得人们信赖。
2、高扩展性:迅梁Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。
3、高效性:Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。
4、高容错性:Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。
5、低成本:与一体机、商用数据仓库以及QlikView、Yonghong Z-Suite等数据集市相比,hadoop是开源的,项目的软件成本因此会大大降低。
参考资料来源:
百度百科-hadoop
关于hadoop特点和hadoop特点包括的介绍到此就结束了,不知道你从中找到你需要的信息了吗 ?如果你还想了解更多这方面的信息,记得收藏关注本站。