hadoop是做什么的（hadoop是什么意思）

by intanet.cn ca 大数据 on 2024-03-19

本篇文章给大家谈谈hadoop是做什么的，以及hadoop是什么意思对应的知识点，希望对各位有所帮助，不要忘了收藏本站喔。

本文目录一览：

1、hadoop是干什么用的?
2、Hadoop到底是干什么用的?
3、Hadoop：是什么，如何工作，可以用来做什么
4、hadoop是做什么的？

hadoop是干什么用的?

提供海量数据存储和计算的。需要java语言基础。

Hadoop实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS。有高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上；而且它提供高吞吐量来访问应用程序的数据，适合那些有着超大数据集（large data set）的应用程序。

Hadoop的框架最核心的设计就是：HDFS和MapReduce。HDFS为海量的数据提供了存储，而MapReduce则为海量的数据提供了计脊旅算。

扩展资料

Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。能够对大量数据进行分布式处理的软件框架Hadoop 以一种可靠、高效、可伸缩的方式进行数据处理。

Hadoop 是可靠的，因为它假设计算元素和存储会失败，因此它维护多个工作数据厅野念副本，确保能够针对失败的节点扮困重新分布处理。Hadoop 是高效的，因为它以并行的方式工作，通过并行处理加快处理速度。

参考资料：百度百科-Hadoop

[img]

Hadoop到底是干什么用的?

用途：将单机的工作携耐任务进行分拆，变成协同工作的集群。用以解决日益增加的文件存储量和数据量瓶颈。

通俗应用解释：

比如计算一个100M的文本文件中的单词的个数，这个文本文件有若干行，每行有若干个单辩皮春词，每行的单词与单词之间都是以空格键分开的。对于处理这种100M量级数据的计算任务，把这个100M的文件拷贝到自己的电脑上，然后写个计算程序就能完成计算。

关键技术：

HDFS（Hadoop Distributed File System）：

既可以是Hadoop 集群的一部分，也可以是一个独立的分布式文件系统，是开源免费的大数据处理文件存储系统。

HDFS是Master和Slave的主从结构（是一种概念模型，将设备分为主设备和从设备，主设备负责分配工作并整合结果，或作为指令的来源；从设备负责完成工作，一般只能和主设备通信）。主要由Name-Node、Secondary NameNode、DataNode构成。

Name-Node：分布式文件系统中的管理者，主要负责管理文件系统的命名空间、集群配置信息和存储块的复制等

Secondary NameNode：辅助 NameNode，分担其工作，紧急情况可以辅助恢复

DataNode：Slave节点，实际存储数据、执行数据块的读写并汇报存储信息给NameNode

HDFS客户端的存储流程：当客户需要写数据时，先在NameNode 上创建文件结构并确定数据块副本将要写道哪几个 datanode ，然后将多个代写 DataNode 组成一个写数据管道，保证写入过程完整统一写入。

读取数据时则先通过 NameNode 找到存储数据块副本的所有 DataNode ，根据与握做读取客户端距离排序数据块，然后取最近的。

Hadoop：是什么，如何工作，可以用来做什么

Hadoop主要是分布式计算和存储的框架，所以Hadoop工作过程主要依赖于HDFS(Hadoop Distributed File System)分布式存储系统和Mapreduce分布式计算框架。

分布式存储系统HDFS中工作主要是一个主节点namenode(master)（hadoop1.x只要一个namenode节点，2.x中可以有多个节点）和若干个从节点Datanode(数据节点)相互配合进行工作,HDFS主要是存储Hadoop中的大量的数据，namenode节点主要负责的是：

1、接收client用户的操作请求，这种用户主要指的是开发工程师的Java代码或者是命令客户端操作。

2、维护文件系统的目录结构，主要就是大量数据的关系以及位置信息等。

3、管理文件系统与block的关系，Hadoop中大量的数据为了方便模带搭存储和管理主要是以block块（64M）的形式储存。一个文件被分成大量的block块存储之后，block块之间都是有顺序关系的，这个文件与block之间的关系以及block属于哪个datanode都是有namenode来管理旦拿。

Datanode的主要职责是：

1、存储文件。

2、将数据分成大量的block块。

3、为保证数据的安全，对数据进行备份，一般备份3份。当其中的一份出现问题时，将由其他的备份来对数据进行恢复。

MapReduce主要也是一个主节点JOPtracker和testtracker组成，主要是负责hadoop中的数据处理过程中的计算问题。

joptracker主要负责接收客户端传来的任务，并且把计算任务交给很多testtracker工作，同时joptracker会不断的监控testtracker的执行情况。

testtracker主要是执行joptracker交给它的任务具体计算，例行察如给求大量数据的最大值，每个testtracker会计算出自己负责的数据中的最大值，然后交给joptracker。

Hadoop的主要两个框架组合成了分布式的存储和计算，使得hadoop可以很快的处理大量的数据。