hivejson(hivejson数组)

本篇文章给大家谈谈hivejson,以及hivejson数组对应的知识点,希望对各位有所帮助,不要忘了收藏本站喔。

本文目录一览:

hive 非正确json格式字段造成查询错误

hive查询报错:

错误发生在对表dw.rec_click_jv的查询,该表直接野帆加载json格式的hdfs文件,建表语句:

进一步追踪,发现在查询字段algInfo时才会出现此错误,该字段格式为:mapSTRING,STRING,遇到数据内容为非法json时便会抛出皮裂异常:

将dw.rec_click_jv表的algInfo字段的数据类型修改为STRING,即燃脊闭可解决查询异常问题,但下游表仍有将该字段的数据类型定义为mapSTRING,STRING的需求,可以通过hive函数str_to_map直接将STRING类型的字段转换为map后写入。

下游表定义:

str_to_map函数定义如下:

需要注意的是,在使用str_to_map前 ,需要将数据中的json字符串中的花括号、双引号、逗号、冒号等替换掉:

[img]

Hive处理Json数据

Json 数据格式是我们比较常用的的一种数据格式,例如埋点数据、业务端的数据、前后端调用都采用的是这种数据格式,所以我们很有必要学习一下这种数据格式的处理方法

cat json.data

创建hive表并且加载数据

json_tuple 不支持json 的嵌套处理,但是支持一次性获取多个顶级的key对应的值

get_json_object 不支持一次获取多个值,但是支持复杂json 的处理

用法:get_json_object(string json_string, string path) 前面我们介绍过如何查看函数的用法 desc function get_json_object

返回值:String

说明:解析json的字符串json_string,返回path指定的内容。如果输入的json字符串无效,那么返回NUll,这个函数每次只能返回一个数据项。

具体示例: get_json_object(value,’$.id’)

select get_json_object(text,"$.movie") from ods.ods_json_data;

这个函数的不足之处是,它只能返回一个值,就是我们不能一次性从json 中提取多个值,如皮扰果要提取多个值的话,就要多次调用这个函数,但是我们下面介绍的json_tuple 就可以,但是这不是说这个函数不强或者怎么样,记住这个函数的api 可以帮你节约很多时间

用法:json_tuple(jsonStr, p1, p2, ..., pn) 整理的pn 就是我们要提取的键

返回值:tuple(v1,...vn) 这里租握启的返回值v1 ... vn 和 键p1 .... pn 是相对应的

select json_tuple(text,'movie','rate','timeStamp','uid') from ods.ods_json_data;

json_tuple相当于get_json_object的优势就是 一次可以解析多个Json字段 。

前面我们说了json_tuple不支持嵌套JSON 的处理

这个时候时候你发现我提取的都是json 数组中的 website ,有没有什么简弊如单的办法呢,理论上get_json_object 只能有一个返回值,无论如何都需要写多个,那你有没有想过一个问题,我要是这个数组里面有100个元素都是json,我需要每一个json 的website 那我是不是需要写100次了,这个时候你要是仔细阅读这个函数的api 的话,你就会发现了另外一个符号*

这下你知道了,get_json_object 是只能返回一个元素,不是只能返回一个字符串,上面本来就是一个json 数组,那要是我们是从json 里面解析出来的数组怎么处理呢?

需要注意下面这样操作之后你拿到的就是一个json 字符串了,这下你就可以按照上面的方式再处理一次了

但是有时候我们希望直接获取,而不是通过这样嵌套的方式,这个时候其实就是将上面的嵌套的get_json_object函数的path 参数进行组合

这个时候如果我们再上 * 进行加持,那就很简单了

其实到这里我们学习了指定一个数组的某个下标获取一个元素,指定* 获取全部元素,那就如我就想获取前三个或者偶数个或者奇数个呢,哈哈,如果你回过头去看api 你就是知道了提供了一个 Union operator ,指定任意你想组合的下标即可,获取

下面我们尝试获取一下偶数个,或者奇数个或者是一定范围内的奇数个或者偶数个,其实就是上面提供的数组切片,你可以参考api 进行使用

但是我尝试了一下,发现这个功能有bug,不能做到切片的效果,每次都是全部返回

对于上面json.data 的数据,我们能不能在load 数据到hive 的时候就处理,而不是load 完之后再到使用的时候去处理,尤其是针对这种嵌套结构不是很复杂的这种json 格式

这种方法需要注意的是你的数据类型和字段名称都要匹配,否则就会报错或者不能获取到值,那要是复杂一点的嵌套结构呢,其实也可以,在上面的数据基础上添加了一个嵌套的字段也是可以的

如何在Hive中使用Json格式数据

hive中有提供一个函数get_json_object来获取json格式的数据。败笑贺但是json数组,嵌套需要自定义函数处理。也可以把json当作单纯字符串来处理。使用substring_index(),

regexp_extract等函数来升纳处理察派。

Hive解析Json数据

HIVE直接读入json的函数有两个:

(1)get_json_object(string json_string, string path)

返回值: string

说明:解析json的字符串json_string,返回path指定的内容。如果输入的json字符串无效,那么返回NULL。

举例:

hive select get_json_object(‘{“store”:{“fruit”:[{"weight":8,"type":"apple"},{"weight":9,"type":"pear"}], “bicycle”:{“price”:19.95,”color”:”red”}}, “email”:”amy@only_for_json_udf_ test.net ”, “owner”:”amy” } ‘,’$.owner’) from dual;

结果:差改amy

这个函数每次只能返回一个数据项。

(2)json_tuple(jsonStr, k1, k2, ...)

参数为一组键k1,k2……粗庆李和JSON字符串,返回值的元组。该方法比 get_json_object 高效,因为可以在一次调用中输入多个键

select a.timestamp, b.*

from log a lateral view json_tuple(a.appevent, 'eventid', 'eventname') b as f1, f2;

处理数据样例:

{"GPS_LAT":39.8965125,"GPS_LONG":116.3493225,"GPS_SPEED":20.9993625,"GPS_STATE":"A","GPS_TIME":"2014-01-02 00:00:16","IMEI":"岩迟508597","after_oxygen_sensor":132,"air_condion_state":3,"bdoneNo_after_mileage":0,"bdoneNo_zero_mileage":8044,"db_speed":22,"direction_angle":358.2585,"front_oxygen_sensor":64,"instant_fuel":233,"speed":1210,"torque":33,"total_fuel":0}

处理HIVE语句:

create table 2014jrtest as select json_tuple(line,'GPS_LAT','GPS_LONG','GPS_SPEED','GPS_STATE','GPS_TIME','IMEI','after_oxygen_sensor','air_condion_state','bdoneNo_after_mileage','bdoneNo_zero_mileage','db_speed','direction_angle','front_oxygen_sensor','instant_fuel','speed','torque','total_fuel') from 2014test;

关于hivejson和hivejson数组的介绍到此就结束了,不知道你从中找到你需要的信息了吗 ?如果你还想了解更多这方面的信息,记得收藏关注本站。

标签列表