hive部署（hive部署常见属性）

by intanet.cn ca 大数据 on 2024-03-19

本篇文章给大家谈谈hive部署，以及hive部署常见属性对应的知识点，希望对各位有所帮助，不要忘了收藏本站喔。

本文目录一览：

1、CDH Hive 配置HiveServer2
2、hadoop分布式计算中，使用Hive查询Hbase数据慢的问题
3、白泽 Byzer-lang 集成 Hive 3.1.2
4、程序中的Hive具体是干什么用的呢？

CDH Hive 配置HiveServer2

翻译：　

版本：　5.14.2

在使用HiveServer2之前，您必须进行以下配置更改。不这样做可能会掘悄导致不可预知的行为。

警告： HiveServer1在CDH 5.3起不推荐使用，并且将在未来的CDH版本中删除。HiveServer1的用户应该尽快升级到 HiveServer2 。

重要提示：这些数字只是一般性指导，可能会受到诸如列数，分区，复杂联接和客户端活动等因素的影响。根据您的预期部署，通过测试进行优化以达到您的环境的判吵渣最佳值。

有关为HiveServer2配置堆以及Hive Metastore和Hive客户端的信息，请参阅 Hive组件的堆大小和垃圾收集以及以下视频：

解决HiveServer2服务崩溃问题

当您启动视频，请点击YouTube上在播放器窗口的右下角看它在YouTube上，你可以调整它的大小更清晰的观看。（!--）

您必须正确配置并启用Hive的表锁管理器。这需要安装ZooKeeper并设置一个ZooKeeper集合; 请参阅 ZooKeeper安装。

重要提示：如果不这样做将会阻止HiveServer2处理并发查询请求，并可能导致数据损坏。

通过设置属性启用锁管理器 /etc/hive/碰尺conf/hive-site.xml 如下所示（用实例中的实际ZooKeeper节点名替换）：

重要提示：启用表锁管理器而不指定有效的Zookeeper法定节点列表将导致不可预知的行为。确保两个属性都已正确配置。

（如果您仍在使用HiveServer1，还需要上述设置。不推荐使用HiveServer1;尽快迁移到HiveServer2。）

如果ZooKeeper没有使用ClientPort默认值，你需要设置 hive.zookeeper.client.port 与ZooKeeper使用的值相同。检查/etc/zookeeper/conf/zoo.cfg 以找到ClientPort值。如果ClientPort 设置为除2181（默认值）以外的任何值，设置hive.zookeeper.client.port 。例如，如果ClientPort 设置为2222，设置 hive.zookeeper.client.port 也是2222：

HiveServer2和HiveServer1的连接URL格式和驱动程序类别不同：

HiveServer2可以配置为验证所有连接; 默认情况下，它允许任何客户端连接。HiveServer2支持 Kerberos 或 LDAP 身份验证; 配置属性为hive.server2.authentication 。您还可以配置可插入身份验证，它允许您为HiveServer2使用自定义身份验证提供程序; 和 HiveServer2 Impersonation ，它允许用户以连接用户的身份执行查询和访问HDFS文件，而不是启动HiveServer2守护进程的超级用户。有关更多信息，请参阅 Hive安全配置。

警告：由于并发和安全问题，HiveServer1和Hive CLI在CDH 5中不推荐使用，并且将在未来版本中删除。Cloudera建议您尽快迁移到 Beeline 和 HiveServer2 。如果您使用HiveServer2的Beeline，则不需要Hive CLI。

HiveServer2和HiveServer1可以在同一个系统上并发运行，共享相同的数据集。这允许您运行HiveServer1以支持使用本机HiveServer1 Thrift绑定的Perl或Python脚本。

默认情况下，HiveServer2和HiveServer1都绑定到端口10000，所以至少其中一个必须配置为使用不同的端口。您可以通过hive -site.xml中的hive.server2.thrift.port 设置HiveServer2的端口属性。例如：

您也可以通过设置这些环境变量来指定端口（以及HiveServer2的主机IP地址）：

hadoop分布式计算中，使用Hive查询Hbase数据慢的问题

首先，节点规模上去，或者硬件配置上去才能让hadoop引擎转模首起来。

配置很低碰知，一看就知道是科技项目，或者小作坊的做法，你的需求是很不合笑码消理的。在这配置下是没优化空间。

另一方面，HIVE原理上只是基本的SQL转义，换句话说，当你云计算规模上去后，HIVE优化的本质就是让你优化SQL，而不是HIVE多强。

白泽 Byzer-lang 集成 Hive 3.1.2

Ubuntu 20.04 单机部署, JDK 8，汪液各应用介绍如下。Hadoop Hive均正常运行。本文介绍白泽以 Client 模式部署至 Yarn，并读写 Hive 数据。以 hadoop 账号执行操作。

hive 配置放置到 $SPARK_HOME/conf

配置 HiveMetastore

Spark 3.1.1 默认匹配 Hive 2.3.7; 与我们的环境不符，因而手动配置。坦陵哗

注意：拷贝 hive 3.1.2 hivemetastore 及其依赖包。

验证 spark 可以访问 hive 表

需要先在 HDFS 创建 Delta 目录让行

前面已经打通了 Hadoop Spark Hive，可以启动 Byzer-lang 了。按照以下脚本启动。

执行后，Byzer-lang log 出现以下信息，表示启动成功

然后启动 Notebook, 配置和启动脚本这里不再赘述。登录 Notebook，在 Data Catalog 里看到 Hive 表 zjc_11

程序中的Hive具体是干什么用的呢？

Hive是基于Hadoop平台的数仓工具，具有海量数据存储、水平可扩展、离线批量处理的优点，解决了传统关系型数仓不能支持海量数据存储、水平可扩展性差等问题，但是由于Hive数据存储和数据处理是依赖于HDFS和MapReduce，因此在Hive进行数据离线批量处理时，需将查询语言先转换成MR任务，由MR批量处理返回结果，所以Hive没法满足数据实时查询分析的需求。

Hive是由FaceBook研发并开源，当时FaceBook使用Oracle作为数仓，由于数据量越来越大，Oracle数仓性能越来越差，没法实现海量数据的离线批量分析，因此基于Hadoop研发Hive，并开源给Apacha。

由于Hive不能实现数据实时查询交互，Hbase可拿如高提供实时在线查询能力，因此Hive和Hbase形成了良性互补。Hbase因为其海量数据存储、水平扩展、批量数据处理等优点，也得到了广泛应用。

Pig与HIVE工具类似，都可以用类sql语言对数据进行处理。但是他们应用场景有区别，Pig用于数据仓库数据的ETL，HIVE用于数仓消尺数据分析。

从架构图当中，可看出Hive并没有完成数据的存储和处理，它是由HDFS完成数据存储，MR完成数据处理，其只是提供了用户查询语言的能力。Hive支持类sql语言，这种SQL称为Hivesql。用户可用Hivesql语言查询，其驱动可将Hivesql语言转换成MR任务，完成数据处理。

【Hive的访问接口】

CLI：是hive提供的命令行工具

HWI：是Hive的web访问接口

JDBC/ODBC：是两种的标准的应用程序编程访问接口

Thrift Server：提供异构语言，进行远程RPC调用Hive的能力。

因此Hiv具备丰富的访问接口能力，几乎能满足各种开发应用场景需求。

【Driver】

是HIVE比较核心的驱动模块，包含编译器、优化器、执行器，职责为把用户输入的Hivesql转换成MR数据处理任务

【Metastore】

是HIVE的元数据存储模块，数据的访问和查找，必须要先访问元数据。Hive中的元数据一般使用单独的关系型数据库存储，常用的是Mysql，为了确保高可用，Mysql元数据库还需主备部署。

架构图上面Karmasphere、Hue、Qubole也是访问HIVE的工具，其橡斗中Qubole可远程访问HIVE，相当于HIVE作为一种公有云服务，用户可通过互联网访问Hive服务。

Hive在使用过程中出现了一些不稳定问题，由此发展出了Hive HA机制，

[img]

关于hive部署和hive部署常见属性的介绍到此就结束了，不知道你从中找到你需要的信息了吗？如果你还想了解更多这方面的信息，记得收藏关注本站。

handbrakemac（handbrakemac版本cpu使用率很高）首页大数据（首页大数据中国好口碑瓜子）

hive部署（hive部署常见属性）

CDH Hive 配置HiveServer2

hadoop分布式计算中，使用Hive查询Hbase数据慢的问题

白泽 Byzer-lang 集成 Hive 3.1.2

程序中的Hive具体是干什么用的呢？

最近发表

文章归档

标签列表

hive部署（hive部署常见属性）

CDH Hive 配置HiveServer2

hadoop分布式计算中，使用Hive查询Hbase数据慢的问题

白泽 Byzer-lang 集成 Hive 3.1.2

程序中的Hive具体是干什么用的呢？

相关阅读

碧兴物联科技（碧兴物联什么时候上市）

库布里克人工智能（人工智能电影库布里克）

flink是什么（apacheflink是什么）

kafka多线程消费同一个topic（kafka多线程消费同一个分区）

人工智能的社会价值（人工智能的社会价值和挑战优秀作文）

数据安全能力建设（数据安全能力建设实施指南）

最近发表

文章归档

标签列表