hadoop是什么(Hadoop是什么?其核心由两大部分组成,分别是什么?)
本篇文章给大家谈谈hadoop是什么,以及Hadoop是什么?其核心由两大部分组成,分别是什么?对应的知识点,希望对各位有所帮助,不要忘了收藏本站喔。
本文目录一览:
Hadoop到底是干什么用的?
用途:将单机的工作携耐任务进行分拆,变成协同工作的集群。用以解决日益增加的文件存储量和数据量瓶颈。
通俗应用解释:
比如计算一个100M的文本文件中的单词的个数,这个文本文件有若干行,每行有若干个单辩皮春词,每行的单词与单词之间都是以空格键分开的。对于处理这种100M量级数据的计算任务,把这个100M的文件拷贝到自己的电脑上,然后写个计算程序就能完成计算。
关键技术:
HDFS(Hadoop Distributed File System):
既可以是Hadoop 集群的一部分,也可以是一个独立的分布式文件系统,是开源免费的大数据处理文件存储系统。
HDFS是Master和Slave的主从结构(是一种概念模型,将设备分为主设备和从设备,主设备负责分配工作并整合结果,或作为指令的来源;从设备负责完成工作,一般只能和主设备通信)。主要由Name-Node、Secondary NameNode、DataNode构成。
Name-Node:分布式文件系统中的管理者,主要负责管理文件系统的命名空间、集群配置信息和存储块的复制等
Secondary NameNode:辅助 NameNode,分担其工作,紧急情况可以辅助恢复
DataNode:Slave节点,实际存储数据、执行数据块的读写并汇报存储信息给NameNode
HDFS客户端的存储流程:当客户需要写数据时,先在NameNode 上创建文件结构并确定数据块副本将要写道哪几个 datanode ,然后将多个代写 DataNode 组成一个写数据管道,保证写入过程完整统一写入。
读取数据时则先通过 NameNode 找到存储数据块副本的所有 DataNode ,根据与握做读取客户端距离排序数据块,然后取最近的。
Hadoop 是什么,有什么用?
Hadoop是由Java语言编写的,在分布式服务器集群上存储海量数据并运行分布式分析应用的开源框架,其核心部件是HDFS与MapReduce
HDFS是一个分布式文件系统,引入存放文件元数据信息的慎颂服务器Namenode和实际存放数据的服务器Datanode,对数据进行分布式储存和灶如读取。
MapReduce是一个计算框架,MapReduce的核心思想是把计算任务分配给集群内的服务器里执行。通过对计算隐孝启任务的拆分(Map计算/Reduce计算)再根据任务调度器(JobTracker)对任务进行分布式计算
总之Hadoop最核心的两个部分是:HDFS(提供分布式海量数据存储)和MapReduce(分布式计算殷勤),一个提供大数据存储,一个提供大数据计算
2 有什么特点?
根据权威组织统计,Hadoop相关组件已经打包几十个,用简单的一句话概括主要的一些组件:
以上只罗列了Hadoop的一些基本组件,应为我只会这几个,其他的还不是很了解。Hadoop家族是大数据处理的基本框架,大家有兴趣可以自己再了解
hadoop什么意思
hadoop是一款开源软件,主要用于分布蔽中和式存储和计算,他由HDFS和MapReduce计算框架组成的,他们分别是Google的GFS和MapReduce的开源实现。由于hadoop的易用性和可扩展性,因此成为最近流行的海量培敏数宏盯据处理框架。hadoop这个单词来源于其发明者的儿子为一个玩具大象起的名字。
[img]关于hadoop是什么和Hadoop是什么?其核心由两大部分组成,分别是什么?的介绍到此就结束了,不知道你从中找到你需要的信息了吗 ?如果你还想了解更多这方面的信息,记得收藏关注本站。