数据湖(数据湖架构)
本篇文章给大家谈谈数据湖,以及数据湖架构对应的知识点,希望对各位有所帮助,不要忘了收藏本站喔。
本文目录一览:
数据管理,数据治理,数据中心,数据中台,数据湖都是什么意思,有什么关系呢?
数据治理和数据管理
简单来说治理就是管理的管理。
管理你得遵循一定得标准规范体系,一定得流程,一定得组织角色分工,而这些内容就必须先通过数据治理定义清楚。管理只是根据数据治理规范体系去执行管理和监督得职责。
既管理执行得依据是治理规范体系。
:
数据中台和数据湖
这个要解释清楚不太容易,因此我尽量做简化。
数据湖一般是公有云服务商提出得一个概念,即企业得结构化,非结构化数据都可以全部采集和存储到我这里来。数据湖就是一个大得存储站,这个存储是分布式可无限扩展得,存储过来得数据也不会去清洗和加工,尽量保持原样。
在存过来后,数据湖再困橡提供一些标准得开放接口给你使用数据,这些接口包括了查询SQL类接口,计算引擎接口,流处理接口等。提供接口得目的也很简单,你能够方便得使粗物用你存储过来得数据。
数据湖得存储一般是分布式对象存储或分布式文件存储,即使你是结构化数据库采集过来得数据,仍然会转成统一的存储方法,方便扩展。
数据中台简单来说企业共享数据能力下沉并对外开放。
数据中台包括了底层数据技术平台(可以是我们熟悉的大数据平台能力),中间的数据资产层,上层的数据对外能力开放。
核心的资产层本身也分层,从最底层的贴源数据,到分域应用数据,再到上层的数据仓库和数据标签库。而数据湖更多对应到数据中台概念里面的数据贴源层。
企业实际在建数据中台的时候实际很少用数据湖汪凳旁这个概念。
两者的对比映射如下:
数据中心
对于数据中心这个词,原来在BI系统应用里面也经常出现。
但是现在数据中心一般特指IT基础设施,大的公有云数据机房等,在BI系统或数据中台里面都很少用这个词。即数据中心这个词偏IT硬件基础设施层面了。
[img]数据湖是什么意思
数据湖(DataLake)是一个集中式存储库,一个以原生格式存储各种大规模原始数据团册集的数据库,它允许以任何规模存储所有结构化和非枝咐结构化数据。数据湖的概念最初是由大数据厂商提出的。从表面上看,数据被加载到基于HDFS的廉价存储硬件上,这些硬塌搭宏件可以扩展。
数据湖、数据仓库、数据中台,有什么区别?
数据湖、数据仓库和数据中台,他们并没有直接的关系,只是他们为业务产生价值的形式有不同的侧重。
数据湖作为一个集中的存储库,可以在其中存储任意规模的所有迹此扰结构化和非结构化数据。在数据湖中,可以存储数据不需要对其进行结构化,就可以运行不同类型的分析。
数据仓库,也称为企业数据仓库,是一种数据存储扒正系统,它将来自不同来源的结构化数据聚合起来,用于业务智能领域的比较和分析,数据仓库是包含多种数据的存储库,并且是高度建模的。
数据中台是一个承接技术,引领业务,构建规范定义的、全域可连接萃取的、智慧的数据处理平台,建设目标是为了高效满足前台数据分析和应用的需求。数据中台距离业务更近,能更快速的相应业务和应用开发的需求,可追溯,更精准。
数据湖、数据仓库更多地是面向不同对象的不同形态的数据资产。而数据中台更多强调的是服务于前台,实姿旦现逻辑、标签、算法、模型的复用沉淀。
数据中台像一个“数据工厂”,涵盖了数据湖、数据仓库等存储组件,随着数据中台的发展,未来很有可能数据湖和数据仓库的概念会被弱化。
小结
数据空间持续增长,为了更好地发挥数据价值,未来数据技术趋于融合,同时也在不断创新。
关于数据湖和数据湖架构的介绍到此就结束了,不知道你从中找到你需要的信息了吗 ?如果你还想了解更多这方面的信息,记得收藏关注本站。