hadoophbase(hadoop hbase hive spark 关系)

本篇文章给大家谈谈hadoophbase,以及hadoop hbase hive spark 关系对应的知识点,希望对各位有所帮助,不要忘了收藏本站喔。

本文目录一览:

Hadoop生态系统-新手快速入门(含HDFS、HBase系统架构)

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。

用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。

Hadoop实现悉晌激了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。

Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,而MapReduce则为海量的数据提供了计算。

广义的Hadoop,一般称为Hadoop生态系统,如下所示。

Hadoop生态系统中这些软件的作用:

HDFS 采用了主从(Master/Slave)结构模型,一个HDFS集群包括一个名称节点(NameNode)和若干个数据节点(DataNode)。

HDFS采用Java语言开发,因此任何支持JVM的机器都可以部署名称节点和数据节点。

在配置好Hadoop 集群之后,可以通过浏览器访问 http://[NameNodeIP]:9870,查询HDFS文件系统。通过该Web界面,可以查看当前文件系统中各个节点的分布信息。

HBase系统架构如下所示,包括客户端、Zookeeper服务器、Master主服务器、Region服务器。一般而言,HBase会采用HDFS作为底层数据存储。

在HBase服务器集群中,包含了一个Master和多个Region服务器,Master是HBase集群的“总管”,它必须知道Region服务器的状态。

HBase中可以启动多个Master,但是Zookeeper 可以帮助选举出一个Master 作为集群的总管,并保证在任何时刻总有唯一一个Master在运行,这样可以避免Master单点失效的问题。谨核

Region服务器是HBase中最核心的模块,负责维护分配给自己的Region,并响应用户的读写请求。

Store是Region服务器的核心。每个Store对应了表中的一个列族的存储。每一个Store包含了一个MemStore缓存和若干个StoreFile文件。

HBase采用HLog来保证系统发生故障时,能够恢复到正确的状态。HLog是磁盘上面的记录文件,它记录着所有的更新操作。

HBase系统为每个Region服务器配置了一个HLog文件,它是一种预写式日志(Write Ahead Log),也就是说,用户更新数睁袜据必须首先被记入日志后,才能写入MemStore缓存。

此外,Pig和Hive还为HBase提供了高层语言支持,使得在HBase上进行数据统计处理变的非常简单。 Sqoop则为HBase提供了方便的RDBMS数据导入功能,使得传统数据库数据向HBase中迁移变的非常方便。

注意:Hadoop 安装完成之后,只包含HDFS和MapReduce,并不含HBase,因此需要在Hadoop 之上继续安装HBase。

[img]

Hadoop、Hbase、Hive版本兼容性

当我们想整合hadoop,hbase,hive,zookeeper的时候,如果刚入门,可能认为这是比较简单的问题。但是当你自己真正想整合的时候,却会遇到很多的问题。1.hadoop与hbase哪些版本兼容?2.hadoop与hive哪些版本兼容?3.hbase与hive哪些版本兼容?4.hbase与zookeeper哪些版本兼容?所以当我们真正想做整合的时候,我们需要解决上面四个问题,有些同学,忽略上面问题,直接部署,导致产生各种问题。所以我们现在就要解决上面问题。第一个问题,hadoop与hbase哪些版本兼容。

这里的每一个问题,当然我们需要引用官网的内容。

"S" = supported

这时候你就能找到hbase与hadoop的兼容信息了。如果你还是找不到,有下面两种方式:1.about云论坛提问,会有比较多的热心人帮助2.此版本内容会录制视频,欢迎捐助hadoop生态系统零基础入门及大数据实战第一个问题算是解决,接着我们看第二个问题2.hadoop与hive哪些版本兼容?

hadoop与hive版本对应关系

hive版本

2.0.0

支持hadoop版本Hadoop 2.x.y

hive版本

1.2.1

支持hadoop版本Hadoop 1.x.y, 2.x.y

hive版本

1.0.1, 1.1.1

支持hadoop版本Hadoop 1.x.y, 2.x.yhive版本

1.1.0

支持hadoop版本Hadoop 1.x.y, 2.x.yhive版本 1.0.0

支持hadoop版本Hadoop 1.x.y, 2.x.y

hive版本0.13.1

支持hadoop版本

Hadoop 0.20.x, 0.23.x.y, 1.x.y, 2.x.y

hive版做闭本0.13.0

支持hadoop版本

Hadoop 0.20.x, 0.23.x.y, 1.x.y, 2.x.y

hive版本0.12.0

支持hadoop版本芦敬

Hadoop 0.20.x, 0.23.x.y, 1.x.y, 2.x.y

hive版本0.11.0

支持hadoop版本

Hadoop 0.20.x, 0.23.x.y, 1.x.y, 2.x.y

hive版本0.10.0

支持hadoop版本

Hadoop 0.20.x, 0.23.x.y, 1.x.y, 2.x.y

上面是今年2016年更新内容.

那么我们该如何随着版本的更新,知道版本兼容?

收下我们打开下面网址:

网址:陪胡慎

Hadoop, HBase, Hive, ZooKeeper默认端口说明

组件 |Daemon |端口 |配置 |说明

--|

HDFS |DataNode |50010 |dfs.datanode.address |datanode服务端口,用于数据传输

| |50075 |dfs.datanode.http.address |http服务的端口

| |50475 |dfs.datanode.https.address |https服务的端口

| |50020 |dfs.datanode.ipc.address |ipc服毁州务的端口

|NameNode |50070 |dfs.namenode.http-address |http服务的端口

| |50470 |dfs.namenode.https-address |https服务的端口

| |8020 |fs.defaultFS |接收Client连接的RPC端口,用于获取文件系统metadata信息。

|journalnode |8485 |dfs.journalnode.rpc-address |RPC服务

| |8480 |dfs.journalnode.http-address |HTTP服冲返务

|ZKFC |8019 |dfs.ha.zkfc.port |ZooKeeper FailoverController,用于NN HA

YARN |ResourceManager |8032 |yarn.resourcemanager.address |RM的applications manager(ASM)端口

| |8030 |yarn.resourcemanager.scheduler.address |scheduler组件的IPC端口

| |8031 |yarn.resourcemanager.resource-tracker.address |IPC

| |8033 |yarn.resourcemanager.admin.address |IPC

| |8088 |yarn.resourcemanager.webapp.address |http服务端口

|NodeManager |8040 |yarn.nodemanager.localizer.address |localizer IPC

| |8042 |yarn.nodemanager.webapp.address |http服务端口

| |8041 |yarn.nodemanager.address |NM中container manager的端口

|JobHistory Server |10020 |mapreduce.jobhistory.address |IPC

| |19888 |mapreduce.jobhistory.webapp.address |http服务端口

HBase |Master |60000 |hbase.master.port |IPC

| |60010 |hbase.master.info.port |http服务端口

|RegionServer |60020 |hbase.regionserver.port |IPC

| |60030 |hbase.regionserver.info.port |http服务端口

|HQuorumPeer |2181 |hbase.zookeeper.property.clientPort |HBase-managed ZK mode,使用独立的ZooKeeper集群则不会启用该端口。

| |2888 |hbase.zookeeper.peerport |HBase-managed ZK mode,使用独立的ZooKeeper集群则散余饥不会启用该端口。

| |3888 |hbase.zookeeper.leaderport |HBase-managed ZK mode,使用独立的ZooKeeper集群则不会启用该端口。

Hive |Metastore |9083 |/etc/default/hive-metastore中export PORT=port来更新默认端口 |

|HiveServer |10000 |/etc/hive/conf/hive-env.sh中export HIVE_SERVER2_THRIFT_PORT=port来更新默认端口 |

ZooKeeper |Server |2181 |/etc/zookeeper/conf/zoo.cfg中clientPort=port |对客户端提供服务的端口

| |2888 |/etc/zookeeper/conf/zoo.cfg中server.x=[hostname]:nnnnn[:nnnnn],标蓝部分 |follower用来连接到leader,只在leader上监听该端口。

| |3888 |/etc/zookeeper/conf/zoo.cfg中server.x=[hostname]:nnnnn[:nnnnn],标蓝部分 |用于leader选举的。只在electionAlg是1,2或3(默认)时需要。

所有端口协议均基于TCP。

而特定的Daemon又有特定的URL路径特定相应信息。

更多说明

关于hadoophbase和hadoop hbase hive spark 关系的介绍到此就结束了,不知道你从中找到你需要的信息了吗 ?如果你还想了解更多这方面的信息,记得收藏关注本站。

标签列表