hadoophbase(hadoophbase命令)

本篇文章给大家谈谈hadoophbase,以及hadoophbase命令对应的知识点,希望对各位有所帮助,不要忘了收藏本站喔。

本文目录一览:

Hadoop, HBase, Hive, ZooKeeper默认端口说明

组件 |Daemon |端口 |配置 |说明

--|

HDFS |DataNode |50010 |dfs.datanode.address |datanode服务端口,用于数据传输

| |50075 |dfs.datanode.http.address |http服务的端口

| |50475 |dfs.datanode.https.address |https服务的端口

| |50020 |dfs.datanode.ipc.address |ipc服毁州务的端口

|NameNode |50070 |dfs.namenode.http-address |http服务的端口

| |50470 |dfs.namenode.https-address |https服务的端口

| |8020 |fs.defaultFS |接收Client连接的RPC端口,用于获取文件系统metadata信息。

|journalnode |8485 |dfs.journalnode.rpc-address |RPC服务

| |8480 |dfs.journalnode.http-address |HTTP服冲返务

|ZKFC |8019 |dfs.ha.zkfc.port |ZooKeeper FailoverController,用于NN HA

YARN |ResourceManager |8032 |yarn.resourcemanager.address |RM的applications manager(ASM)端口

| |8030 |yarn.resourcemanager.scheduler.address |scheduler组件的IPC端口

| |8031 |yarn.resourcemanager.resource-tracker.address |IPC

| |8033 |yarn.resourcemanager.admin.address |IPC

| |8088 |yarn.resourcemanager.webapp.address |http服务端口

|NodeManager |8040 |yarn.nodemanager.localizer.address |localizer IPC

| |8042 |yarn.nodemanager.webapp.address |http服务端口

| |8041 |yarn.nodemanager.address |NM中container manager的端口

|JobHistory Server |10020 |mapreduce.jobhistory.address |IPC

| |19888 |mapreduce.jobhistory.webapp.address |http服务端口

HBase |Master |60000 |hbase.master.port |IPC

| |60010 |hbase.master.info.port |http服务端口

|RegionServer |60020 |hbase.regionserver.port |IPC

| |60030 |hbase.regionserver.info.port |http服务端口

|HQuorumPeer |2181 |hbase.zookeeper.property.clientPort |HBase-managed ZK mode,使用独立的ZooKeeper集群则不会启用该端口。

| |2888 |hbase.zookeeper.peerport |HBase-managed ZK mode,使用独立的ZooKeeper集群则散余饥不会启用该端口。

| |3888 |hbase.zookeeper.leaderport |HBase-managed ZK mode,使用独立的ZooKeeper集群则不会启用该端口。

Hive |Metastore |9083 |/etc/default/hive-metastore中export PORT=port来更新默认端口 |

|HiveServer |10000 |/etc/hive/conf/hive-env.sh中export HIVE_SERVER2_THRIFT_PORT=port来更新默认端口 |

ZooKeeper |Server |2181 |/etc/zookeeper/conf/zoo.cfg中clientPort=port |对客户端提供服务的端口

| |2888 |/etc/zookeeper/conf/zoo.cfg中server.x=[hostname]:nnnnn[:nnnnn],标蓝部分 |follower用来连接到leader,只在leader上监听该端口。

| |3888 |/etc/zookeeper/conf/zoo.cfg中server.x=[hostname]:nnnnn[:nnnnn],标蓝部分 |用于leader选举的。只在electionAlg是1,2或3(默认)时需要。

所有端口协议均基于TCP。

而特定的Daemon又有特定的URL路径特定相应信息。

更多说明

[img]

HBase和oracle,Hadoop的区别?

Hbase作为Hadoop下的一个子项目,目前发展比较强大,和传统的关系型数据库oracle来比,两者各有优缺点,我们先看一个简单的表格。

数据维护:比如更新,只是按照key值插入新的记录,旧版本还在,会在storefile合并凳塌过程中进行删除数据维护:增删查改非常方便,直接修改

以上简单罗列了Hbase和Oracle两者的区别,还有其他更细节的地方这里就没有描述,可以从上面的对比看出,两者完全应用于不同个场景。

在Hbase架构中,由于底层的HDFS不支持追加,更新。所以在Hbase中,所有的操作都是写入,写操作都是先写入Memstore内存中,当达到阀值时,才穷flashcache进程写入storefile,每次写入都会形成一个新的storefile,当需要更新,删除的时候,根据key值按照时间戳插入一个新的记录,老版本记录依旧存在,可以通过时间戳查询老版本的记录,当storefile达到一定的阀值,渣粗缺系统会进行合并,合并过程中会进行版本合并和删除工作,形成更大的storefile。

Oracle在插入,写操作的时候,一般情况下也会先写入内存,然后由DBWR进程调度写入到数据文件,如果在插入的时候使用append追加,则数据不会通过SGA,直接追加到数据文件,在如辩Hbase中没有此功能。

试比较hadoop中的数据库hbase和传统关系数据库的不同

答:主要体现在以下几个方面:1.数据类型。关系数据库采用关系模型,具有丰富的数据类型和储存方式。HBase则采用了更返滚手加简单的数据模型,它把数据储存为未经解释的字符串,用户可以把不同格式的结构化数据和非结构化数据都序列化成字符串保存到HBase中,用户需要自己编写程序把字符串解析成不同的数据类型。

2.数据操作。关系数据库中包含了丰富的操作,如插入、删除、更新、查询等,其中会涉及复杂的多表连接,通常是借助多个表之间的主外键关联来实现的。HBase操作则不存在复杂的表与表之间的关系,只有简单的插入、查询、删除、清空等,因为HBase在设计上就避免了复杂的表与表之间的关系,通常只采用单表的主键查询,所以它无法实现像关系数据库中那样的表与表之间的连接操作。

3.存储模式。关系数据库是基于行模式存储的,元祖或行会被连续地存储在磁盘页中。在读取数据时,需要顺序扫描每个元组,然后从中筛选出查询所需要的属性。如果每个元组只有少量属性的值对于查询是有用的,那么基于行模式存储就会浪费许多磁盘空间和内存带宽。HBase是基于列存储的,每个列族都由几个文件保存,不同列族的文件是分离的,它的优点是:可以降低I/O开销,支持大量并发用户查询,因为仅需要处理可以回答这些查询的列,而不是处理与查询无关的大量数据行;同一个列族中的数据会被一起进行压缩,由于同一列族内的数据相似度较高,因此可以获得较高的数据压缩比。

4.数据索引。关系数据库通常可以针对不同列构建复杂的多个索引,以提高数据访问性能。与关系数据库不同的是,HBase只有一个索引——行键,通过巧妙的设计,HBase中所有访问方漏嫌法,或者通过行键访问,或者通过行键扫描,从而使整个系统不会慢下来。由于HBase位于Hadoop框架之上,因此可以使用Hadoop MapReduce来快速、高效地生成索引表。

6.数据维护。在关系数据库中,更新操作会用最新的当前值去替换记录中原来的旧值,旧值被覆盖后就不会存在。而在HBase中执行更新操作时,并不会删除数据旧的版本,而是备肆生成一个新的版本,旧有的版本仍旧保留。

7.可伸缩性。关系数据库很难实现横向扩展,纵向扩展的空间也比较有限。相反,HBase和BigTable这些分布式数据库就是为了实现灵活的水平扩展而开发的,因此能够轻易地通过在集群中增加或者减少硬件数量来实现性能的伸缩。

但是,相对于关系数据库来说,HBase也有自身的局限性,如HBase不支持事务,因此无法实现跨行的原子性。

注:本来也想来问这个问题,然后复制一下的。结果找不到,只好自己手打了,麻烦复制拿去用的同学点下赞呗。

2019.3.27-16:40

Hadoop生态系统-新手快速入门(含HDFS、HBase系统架构)

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。

用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。

Hadoop实现悉晌激了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。

Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,而MapReduce则为海量的数据提供了计算。

广义的Hadoop,一般称为Hadoop生态系统,如下所示。

Hadoop生态系统中这些软件的作用:

HDFS 采用了主从(Master/Slave)结构模型,一个HDFS集群包括一个名称节点(NameNode)和若干个数据节点(DataNode)。

HDFS采用Java语言开发,因此任何支持JVM的机器都可以部署名称节点和数据节点。

在配置好Hadoop 集群之后,可以通过浏览器访问 http://[NameNodeIP]:9870,查询HDFS文件系统。通过该Web界面,可以查看当前文件系统中各个节点的分布信息。

HBase系统架构如下所示,包括客户端、Zookeeper服务器、Master主服务器、Region服务器。一般而言,HBase会采用HDFS作为底层数据存储。

在HBase服务器集群中,包含了一个Master和多个Region服务器,Master是HBase集群的“总管”,它必须知道Region服务器的状态。

HBase中可以启动多个Master,但是Zookeeper 可以帮助选举出一个Master 作为集群的总管,并保证在任何时刻总有唯一一个Master在运行,这样可以避免Master单点失效的问题。谨核

Region服务器是HBase中最核心的模块,负责维护分配给自己的Region,并响应用户的读写请求。

Store是Region服务器的核心。每个Store对应了表中的一个列族的存储。每一个Store包含了一个MemStore缓存和若干个StoreFile文件。

HBase采用HLog来保证系统发生故障时,能够恢复到正确的状态。HLog是磁盘上面的记录文件,它记录着所有的更新操作。

HBase系统为每个Region服务器配置了一个HLog文件,它是一种预写式日志(Write Ahead Log),也就是说,用户更新数睁袜据必须首先被记入日志后,才能写入MemStore缓存。

此外,Pig和Hive还为HBase提供了高层语言支持,使得在HBase上进行数据统计处理变的非常简单。 Sqoop则为HBase提供了方便的RDBMS数据导入功能,使得传统数据库数据向HBase中迁移变的非常方便。

注意:Hadoop 安装完成之后,只包含HDFS和MapReduce,并不含HBase,因此需要在Hadoop 之上继续安装HBase。

Hadoop、Hbase、Hive版本兼容性

当我们想整合hadoop,hbase,hive,zookeeper的时候,如果刚入门,可能认为这是比较简单的问题。但是当你自己真正想整合的时候,却会遇到很多的问题。1.hadoop与hbase哪些版本兼容?2.hadoop与hive哪些版本兼容?3.hbase与hive哪些版本兼容?4.hbase与zookeeper哪些版本兼容?所以当我们真正想做整合的时候,我们需要解决上面四个问题,有些同学,忽略上面问题,直接部署,导致产生各种问题。所以我们现在就要解决上面问题。第一个问题,hadoop与hbase哪些版本兼容。

这里的每一个问题,当然我们需要引用官网的内容。

"S" = supported

这时候你就能找到hbase与hadoop的兼容信息了。如果你还是找不到,有下面两种方式:1.about云论坛提问,会有比较多的热心人帮助2.此版本内容会录制视频,欢迎捐助hadoop生态系统零基础入门及大数据实战第一个问题算是解决,接着我们看第二个问题2.hadoop与hive哪些版本兼容?

hadoop与hive版本对应关系

hive版本

2.0.0

支持hadoop版本Hadoop 2.x.y

hive版本

1.2.1

支持hadoop版本Hadoop 1.x.y, 2.x.y

hive版本

1.0.1, 1.1.1

支持hadoop版本Hadoop 1.x.y, 2.x.yhive版本

1.1.0

支持hadoop版本Hadoop 1.x.y, 2.x.yhive版本 1.0.0

支持hadoop版本Hadoop 1.x.y, 2.x.y

hive版本0.13.1

支持hadoop版本

Hadoop 0.20.x, 0.23.x.y, 1.x.y, 2.x.y

hive版做闭本0.13.0

支持hadoop版本

Hadoop 0.20.x, 0.23.x.y, 1.x.y, 2.x.y

hive版本0.12.0

支持hadoop版本芦敬

Hadoop 0.20.x, 0.23.x.y, 1.x.y, 2.x.y

hive版本0.11.0

支持hadoop版本

Hadoop 0.20.x, 0.23.x.y, 1.x.y, 2.x.y

hive版本0.10.0

支持hadoop版本

Hadoop 0.20.x, 0.23.x.y, 1.x.y, 2.x.y

上面是今年2016年更新内容.

那么我们该如何随着版本的更新,知道版本兼容?

收下我们打开下面网址:

网址:陪胡慎

关于hadoophbase和hadoophbase命令的介绍到此就结束了,不知道你从中找到你需要的信息了吗 ?如果你还想了解更多这方面的信息,记得收藏关注本站。

标签列表