hiveconcat（hiveconcat_ws用分号连接）

by intanet.cn ca 数据库 on 2024-03-18

本篇文章给大家谈谈hiveconcat，以及hiveconcat_ws用分号连接对应的知识点，希望对各位有所帮助，不要忘了收藏本站喔。

本文目录一览：

1、hive - concat_ws 函数
2、hive关于行转列，列转行的使用
3、Hive中常用的字符串操作
4、Hive常用查询函数
5、hive 两字段合并成一个字段例如：字段a和字段b合并成a-b，请问如何实现、
6、hive - concat 函数

hive - concat_ws 函数

concat_ws 函洞敬历数在连接字符串的时候，只要有一个字符串不是NULL，就不会返回NULL，concat_ws 函数需要指定分隔符。

hive select concat_ws('-','a','b');

a-b

hive select concat_ws('-','a','纳搜b',null);

a-b

hive select concat_ws('','a','b'稿明,null);

[img]

hive关于行转列，列转行的使用

行转列：

定义：就是把形如

id --------- name

1 --------- a

2 --------- a

3 --------- a

4 --------- a

的数据转换为

id ------------- name

1，2，3，4 --------- a

这里把四行的数据卜颂瞎变成了由一行显示，这就是行转列。

首先要用到的是collect_set或者collect_list，前者去重，后者不去重，一般配合group使用，能把形如：

id --------- name

1 --------- a

2 --------- a

3 --------- a

4 --------- a

转换为

id --------- name

["1","2","3","4"] --------- a

然后需要用到的是concat_ws函数，这个函数需要传递指定分隔符，以及字符串或者字符串数组。能起到把多个字符串拼接到一起的作用。

形如：

id --------- name

["1","2","3","4"] --------- a

通过concat_ws(',',[1,2,3,4])转换为

id --------- name

1，2，3，4 --------- a

连起来就完成了行转列

一般sql为:

列转行

定义：就是把形如

id ------------- name

1，2，3，4 --------- a

的数据樱败转换为

id --------- name

1 --------- a

2 --------- a

3 --------- a

4 --------- a

这里把一行的数据变成了由四行显示，这就是列转行。

首先要用到split函数，这个行数可以把字符串按照指定的规则切分为字符串数组。

形如：

id --------- name

1，2，3，4 --------- a

通过split('1,2,3,4',',')转换为

id --------- name

["1","2","3","4"] --------- a

然后是explode函数，这个行数可以把数组的每个元素转换为一行。

形如

["1","2","3","4"]

通过explode(["1","2","3","4"] )转换为

最后为了拼接其它字段，还需要用到lateral view把explode获得的行当虚拟表来用型空。

使用方法为 lateral view explode(split(["1","2","3","4"] , ',')) tmptable as new_id ;

其中new_id元素为转换为行后的字段名。

把以上综合起来就完成了列转行

一般sql为:

Hive中常用的字符串操作

创建虚表：

语法: length(string A)

返回值: int

说明：返回字符串A的长度

语法: reverse(string A)

返回值: string

说明：返回字符串A的反转结果

语法: concat(string A, string B…)

返回值: string

说明：返回输入字符串连接后的结果，支持任意个输入字符串

语法: concat_ws(string SEP, string A, string B…)

返回值: string

说明：返回输入字符串连接后的结果，SEP表示各个字符串间的分隔符

语法: substr(string A, int start),substring(string A, int start)

返回值: string

说明：返回字符串A从start位置到结尾的字符串租谈

语法: substr(string A, int start, int len),substring(string A, int start, int len)

返回值: string

说明：返回字符串A从start位置开始，长度为len的字符串

语法: upper(string A) ucase(string A)

返回值: string

说明：返回字符串A的大写格式

语法: lower(string A) lcase(string A)

返回值: string

说明：返回字符串A的小写格式

语法: trim(string A)

返回值: string

说明：去除字符串两边的空格

语法: ltrim(string A)

返回值: string

说明：去除字符串左边的空格

语法: rtrim(string A)

返回值: string

说明：去除字符串右边的空格

语法: regexp_replace(string A, string B, string C)

返回值: string

说明：将字符串A中的符合java正则表达式B的部分替换为C。注意，在有些梁型芦情况下要使用转义字符,类似oracle中的regexp_replace函数。

语法: regexp_extract(string subject, string pattern, int index)

返回值: string

说明：将字符串subject按照pattern正则表达式的橡带规则拆分，返回index指定的字符。

第三个参数:

0 是显示与之匹配的整个字符串

1 是显示第一个括号里面的

2 是显示第二个括号里面的字段

语法: parse_url(string urlString, string partToExtract [, string keyToExtract])

返回值: string

说明：返回URL中指定的部分。partToExtract的有效值为：HOST, PATH, QUERY, REF, PROTOCOL, AUTHORITY, FILE, and USERINFO.

语法: get_json_object(string json_string, string path)

返回值: string

说明：解析json的字符串json_string,返回path指定的内容。如果输入的json字符串无效，那么返回NULL。

语法: space(int n)

返回值: string

说明：返回长度为n的空字符串

语法: repeat(string str, int n)

返回值: string

说明：返回重复n次后的str字符串

语法: ascii(string str)

返回值: int

说明：返回字符串str第一个字符的ascii码

语法: lpad(string str, int len, string pad)

返回值: string

说明：将str进行用pad进行左补足到len位

语法: rpad(string str, int len, string pad)

返回值: string

说明：将str进行用pad进行右补足到len位

语法: split(string str, string pat)

返回值: array

说明: 按照pat字符串分割str，会返回分割后的字符串数组

语法: find_in_set(string str, string strList)

返回值: int

说明: 返回str在strlist第一次出现的位置，strlist是用逗号分割的字符串。如果没有找该str字符，则返回0

返回:int。substr在str中第一次出现的位置，若任何参数为null返回null，若substr不在str中返回0，Str中第一个字符的位置为1

说明：C1 被搜索的字符串

C2 希望搜索的字符串

I 搜索的开始位置,默认为1

J 出现的位置,默认为1

24、使用两个分隔符将文本拆分为键值对：str_to_map(text[, delimiter1, delimiter2])

返回：map

Delimiter1将文本分成K-V对，Delimiter2分割每个K-V对。对于delimiter1默认分隔符是','，对于delimiter2默认分隔符是'='

25、unix_timestamp() 返回当前时间戳。另外，current_timestamp() 也有同样作用。

unix_timestamp(string date) 返回 date 对应的时间戳，date 格式必须为 yyyy-MM-dd HH:mm:ss。

unix_timestamp(string date, string format) 返回 date 对应的时间戳，date 格式由 format 指定。

26、from_unixtime(int/bigint timestamp) 返回 timestamp 时间戳对应的日期，格式为 yyyy-MM-dd HH:mm:ss。

from_unixtime(int/bigint timestamp, string format) 返回 timestamp 时间戳对应的日期，格式由 format 指定。

Hive常用查询函数

函数说明：

NVL ：给值为 NULL 的数据赋值，

它的格式是

NVL( string1, replace_with)。

它的功能是如果string1 为 NULL，则 NVL 函数返回 replace_with 的值，否则返回 string1 的值，如果两个参数都为 NULL ，则返回NULL。

date_format:格式化时间

date_add:时间跟天数相加

date_sub:时间跟天数相减，类似与add，使用一个就ok

select date_sub('2019-06-29',5);

datediff:两个时间相减

select datediff('2019-06-29','2019-06-24');

CONCAT(string A/col, string B/col…)：返回输入字符串连接后的结果，支持任意个输入字符串;

CONCAT_WS(separator, str1, str2,...)：它是一个特殊形式的 CONCAT()。第一个参数剩余参数间的分隔符。

分隔符可以是与剩余参数一样的字符串。如果分隔符是 NULL，返回值也将为 NULL。

这个函数会跳过分隔符参数后的任何 NULL 和空字符串。分隔符将被加到被连接的字符串之间;

select concat_ws('-',str1,str2) from XX; //str为string类型的列名

COLLECT_SET(col)：函数只接受基本数据类型，它的主要作用是将某字段的值进行去重汇总，

产生 array 类芹毁型字段。

练习：把星座和血型一样的人归类到一起

第一步转换：

白羊座,A 孙悟空

射手座,A 大海

白羊座,B 宋宋

白羊座,A 猪八戒

射手座,A 凤姐

合并销前

EXPLODE(col)：将hive 一嫌斗备列中复杂的 array 或者 map 结构拆分成多行。

LATERAL VIEW //侧写

用法：LATERAL VIEW udtf(expression) tableAlias AS columnAlias

解释：用于和 split, explode 等UDTF 一起使用，它能够将一列数据拆成多行数据，在此基础上可以对拆分后的数据进行聚合。

练习：将电影分类中的数组数据展开

select explode(category) from movie_info;

OVER()：指定分析函数工作的数据窗口大小，这个数据窗口大小可能会随着行的变化而变化；

/ 在over(里面使用) /

CURRENT ROW：当前行；

n PRECEDING：往前 n 行数据；

n FOLLOWING：往后 n 行数据；

UNBOUNDED：起点，

UNBOUNDED PRECEDING 表示从前面的起点，UNBOUNDEDFOLLOWING 表示到后面的终点；

/* 在over外面使用*/

LAG(col,n)：往前第n 行数据；

LEAD(col,n)：往后第 n 行数据；

NTILE(n)：把有序分区中的行分发到指定数据的组中，各个组有编号，编号从 1 开始，

对于每一行，NTILE 返回此行所属的组的编号。注意：n 必须为 int 类型。

数据：

一、查询在 2017 年 4 月份购买过的顾客及总人数

group分组一组一个值，over给每一条数据独立开窗

查询顾客的购买明细及购买总额

要将 cost 按照日期进行累加

先排序

再累加

查询顾客上次的购买时间

下次的购买时间

查询前 20%时间的订单信息

RANK() 排序相同时会重复，总数不会变，可以并列

DENSE_RANK() 排序相同时会重复，总数会减少

ROW_NUMBER() 会根据顺序计算

练习：计算每门学科成绩排名

计算每门学科成绩排名

hive 两字段合并成一个字段例如：字段a和字段b合并成a-b，请问如何实现、

使用函数concat

select concat(a,'-',b) from就可以实现穗核了。

hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功者族肆能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。

Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具，可以用来进行数据提取转化加载（ETL），这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言，称为 HQL，它允许熟悉 SQL 的用户查询数据。同时，这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer 无法完成的复杂的分析工作。

Hive 是一种底层封装了Hadoop 的数据仓库处理工具，使用类SQL 的HiveQL 语言实现数据查询，所有Hive 的数据都存储在Hadoop 兼容的文件系统（例如，Amazon S3、HDFS）中。Hive 在加载数据过程中不会对数据进行任何的修改，只是将数据移动到HDFS 中Hive 设定的目录下，因此，Hive 不支持对数据的改写和添加，所有的数据都是在加载的时候确定的。Hive 的设计特点如下。

● 支持索引，加快数据查询。

● 不同的存储类型，例如，纯文本文件、HBase 中的文件。

● 将元数据保存在关系数据库中，大大减少了在查询过首轿程中执行语义检查的时间。

● 可以直接使用存储在Hadoop 文件系统中的数据。

● 内置大量用户函数UDF 来操作时间、字符串和其他的数据挖掘工具，支持用户扩展UDF 函数来完成内置函数无法实现的操作。

● 类SQL 的查询方式，将SQL 查询转换为MapReduce 的job 在Hadoop集群上执行。

hive - concat 函数

concat 函数在连接字符串的时候，只要察团其中一个裂汪是NULL，那么将返回NULL

hive select concat('a','b');

hive select concat('a','肆没仔b',null);

NULL

关于hiveconcat和hiveconcat_ws用分号连接的介绍到此就结束了，不知道你从中找到你需要的信息了吗？如果你还想了解更多这方面的信息，记得收藏关注本站。

vuebeforedestroy的简单介绍关于jsuint8array的信息

hiveconcat（hiveconcat_ws用分号连接）

hive - concat_ws 函数

hive关于行转列，列转行的使用

Hive中常用的字符串操作

Hive常用查询函数

hive 两字段合并成一个字段例如：字段a和字段b合并成a-b，请问如何实现、

hive - concat 函数

最近发表

文章归档

标签列表

hiveconcat（hiveconcat_ws用分号连接）

hive - concat_ws 函数

hive关于行转列，列转行的使用

Hive中常用的字符串操作

Hive常用查询函数

hive 两字段合并成 一个字段 例如：字段a和字段b合并成a-b，请问如何实现、

hive - concat 函数

相关阅读

k8sredis（k8sredis乱码解决方法）

关于json.org的信息

ajaxjson（ajaxjson自定义成功方法）

redisbigkeys的简单介绍

包含oracle17002的词条

关于oracle17002的信息

最近发表

文章归档

标签列表

hive 两字段合并成一个字段例如：字段a和字段b合并成a-b，请问如何实现、