华宇智能数据

值得信赖的智慧信息服务专家

立即咨询

一文说清楚不同行业主数据,数据仓库和数据中台

2021-02-03

实践之前先搞清概念,先看看三者的含义后想必答案也慢慢形成,不辨也明。

先简单说明一下,主数据是解决一定范围内对某个对象共识,就像秦始皇统一文字度量衡一样,天津人管西红柿叫火柿子,西红柿就是主数据,相对的还有参考数据,感觉更像编程中的枚举,这个枚举也是标准化的,它们可以作为数仓的维度。

数仓主要是用于存储应用系统的交易型或事务型的数据。把数据放入数仓主要是为了在企业层面进行数据分析,以前主要是结构化数据,数据进入前要经过ETL,数据分析或数据挖掘的结果基本都是以报表呈现给高级用户的。不过它也在进化,逐渐在演变为数据湖,开始对数据划分周期,兼容非结构化数据,ETL也在变为ELT,分析的应用场景更广阔了。

数据中台,个人理解更贴近业务,以前都是业务决定数据,但是随着技术进步,发现数据反过来可以影响业务决策,改进业务,创新业务,为了实现复用,逐渐沉淀成数据中台。个人理解数据中台更像是原来数仓的数据集市与信息市场,只不过不再是仅未中高层提供报表,而是近实时的提供数据服务。

一、主数据是什么?
多年前,当我们开始“玩主数据”的时候,客户领导担心业务部门不能正确理解,把它称为“公共数据”——这个名称虽不够准确,却为普及主数据和主数据管理奠定了良好的基础。

不知啥时候开始,主数据好像又成了热门词汇,主数据项目层出不穷。这当然并不奇怪,时代发展到今天,数据驱动业务不再是空话,当数据“司机”发现企业“这辆车”四处漏油、零件叮当作响时,你肯定不能任由“这辆车罢工”而坐视不管。

举个主数据质量低劣造成的典型场景:

集团公司希望统筹全集团的“人财物”,集中采购就成为重要抓手。但是流程梳理整合了,SRM系统上线了,集中采购却“跑”不起来。各家下属企业各说各话、鸡同鸭讲,集团难以通过SRM统一全集团的物资采购。其中的核心原因,就是主数据。如果该集团提前规划,将“人财物”这类高频使用的业务数据纳入集团主数据范畴,就是另一种结局了。

从企业运营或业务流程的角度来说,主数据通常表示可交易的实体。以从订单到收款的流程为例,客户使用某种资产(如自助终端)在某个零售店的位置购买公司的产品,其中客户、产品、位置、资产都是主数据,销售记录中的账户、在零售店工作的员工也是主数据。保存主数据的系统一般不记录交易信息,但它们应保持一致的实体信息,确保业务流程能够正常运转。


一个好用的主数据管理系统,应具备将实施服务成果落地的能力,并满足客户不仅仅是技术层面的需求,因此应像亿信华辰EsMDM主数据管理平台一样,实现以下价值:

1、实现主数据统一管理,统一标准规范,各司其职;

2、满足主数据业务需求,可根据业务需要灵活定义模型及业务流程;

3、保障主数据高质量,及时发现、修复质量问题,为各类应用场景提供唯一、准确、权威的主数据支撑;

4、构建主数据高效共享,多种分发方式自主选择,直接使用;

5、降低主数据管理成本,快速识别、全界面管理,数据自动流转减少运维压力;

6、提升企业运营效率,一体化主数据管控,一次录入,多方受用

同时,我们在建设主数据系统的时候,不能只纠结于某个功能点,更应构建起一个完善的功能架构。

1.jpeg

△图为亿信EsMDM主数据管理平台架构

二、数据仓库是什么?

1)数仓的历史
我们首先简单看下数仓的历史由来。在IT行业刚开始起步时,企业中最先考虑的是建设各类应用系统来满足业务开展,这个时候需要一种专门的工具来存储业务数据,由此就展开了关于业务数据如何存储的理论研究和实践,最终关系型数据库系统诞生,范式模型也成为了业务系统的主要数据存储模型。

后来,企业逐渐有了数据分析的需求,虽然业务系统的范式模型也能满足一部分的分析需求,但是存在很多的缺陷,比如表关联复杂、查询效率低、一些需求需要跨系统取数等等,于是人们转而寻找更合适的数据模型来满足分析型应用的需求,在研究发展过程中,数仓的概念就诞生了。

那么我们先看一下数仓是什么?

2)数仓的构成
数仓是什么呢?从字面上来看,其实就是存放数据的仓库,这些数据怎么存,存什么样的格式,怎么取怎么用,这个就需要一套体系去组织和管理,这整套体系就形成了数仓的一系列理论。

那它和数据库有什么区别?数据库负责组织存储数据,存储的载体就是我们熟悉的各种数据库表,它不太管你表是怎么组织的,有什么字段,你给他什么样的表它就给你存什么样。数据仓库就是使用数据库来存数据仓库里的表模型和数据,可以说,数据仓库本质上是一种特殊的数据组织形式,是一种特殊的数据库。

对数仓有个基本的认识后,我们就来看看数仓涉及到哪些理论需要我们去掌握和学习吧!

首先,数仓中的模型如何设计?需要我们掌握建模理论,目前有两种主流的数仓建模方式,一种是范式建模方法,一种是维度建模方法。在实际项目中,这两种都有使用,但是维度建模会更多一些,更多的实际情况是两种建模方式结合使用。

数仓建模需要遵循一些基本的设计原则,像一致性维度、一致性事实、总线架构等。学习多维建模,必须理解和掌握的基础概念还包括各种维度表比如单级维、层级维、缓慢变化维等,各种事实表,事务粒度事实表、周期快照表、累计快照表、度量和指标的概念,各类模型如星型模型、雪花模型等。

通过这些建模方法我们可以建立很多的模型,那么怎么管理这些模型呢?这就需要在架构上做分层,通过将不同作用的表放在不同的分层上进行组织和分类,让数仓中的模型更容易被管理。一般数仓中分层包括ODS层(贴源层)、整合层、汇总层、集市层等,有些企业可能分层会分的更细一些,但是总体分层思路大体是相同的。这里理论基本在网上都被大家分析的很透彻了,大家可以搜索资料学习。

上面所讲的基本是模型层面的一些理论,除了建模,数仓还有个比较重要的工作是就是为这些模型填充数据,这就要用到ETL了。ETL就是把数据从源系统中抽取出来,通过各种加工和数据处理,从而形成我们模型所需的数据灌到模型表中。做ETL需要掌握一些技术知识,比如数据库基本概念、SQL、ETL工具、操作系统相关知识等。

数仓建设过程中需要一些产出文档,一些比较重要的文档如数据源分析文档、需求文档、模型设计文档、ETLMAPPING文档、运维文档等。


最后总结一下,如果想要入门数仓的话,一个学习路线是,学习数仓建模各种理论,不求能深入理解,至少有基本认识,然后加入到实际项目中,结合理论去学习项目中的模型,同时也要加强各种技术能力的学习。

另外,学习不是闭门造车,我们需要更多的技术人一起探讨交流,可以多关注一些技术微博、微信公众号,加入一些学习群组,多阅读一些书籍等。最后放张图,方便大家整理规划自己的学习路线。

2.jpeg

最后的最后,推荐一款数仓工具-亿信数据工厂系统EsDataFactory,集建模和ETL于一体,内置经典的数仓分层理念和丰富的数据处理组件,同时结合十多年的数仓实施经验,开发了批量建模、ETL快捷建模等多种建模方式,有效提升开发效率,更贴近实际数仓建设场景,可以快速帮助企业搭建数仓模型,完成 ETL敏捷开发。

三、数据中台是什么?

“中台”早期是由美军的作战体系演化而来的,使用“中台”这种作战体系,目的就在于给予前方高效、灵活和强大炮火支持。2015年,阿里巴巴率先提出了“中台战略”,以及其有名的“大中台、小前台”的机制。2018年8月,阿里发布“双中台+ET”数字化转型方法论,阿里的双中台包括了数据中台和业务中台。

在阿里中台概念的引领下,很多企业也提出了自己的“中台战略”。如把内部一些通用性技术平台、支撑系统打包在一起,称之为技术中台;把一些大的业务服务系统,逻辑上集中起来称之为业务中台;或干脆把现有的数据仓库、数据治理平台、数据运维平台整合称之为数据中台;还有一种更简单的方式,就是把以前内部IT支撑系统的后台直接改名,与数据相关的部分就叫数据中台,与业务耦合度较紧密的就叫业务中台。

当下,人人都在谈论数字化转型,但怎么转,做什么,中台有可能成为企业推进数字化转型的有效方法之一。

我们先来看下网易严选的数据体系(下图),就更清楚数据中台的定位了。

3.jpeg


  • 数据中台的下层是数据平台,数据平台主要解决跟业务无关的问题,主要是大数据的存储和计算问题。

  • 数据中台的上层就是数据前台,主要包括 BI 报表、数据产品和业务系统。

  • 数据中台首先赋能分析师通过 BI 报表的形式来驱动业务精细化运营。

可以看到,数据中台的主要作用在于将企业内部所有数据统一处理形成标准化数据,挖掘出对企业最有价值的数据,构建企业数据资产库,对内对外提供一致的、高可用大数据服务。下面重点来看看亿信华辰根据多年大数据经验的累积及数据中台的项目实践总结出来的数据中台技术架构,主要分为以下5个部分:

4.jpeg


1)数据汇聚

数据中台不产生数据,数据其实来源于各个业务系统、数据库、网络环境等,是日常操作所产生的数据,多数存储在网络环境和存储平台中,且各个系统之间独立存在,很难直接使用,需要去进行数据抽取、采集、整合和处理,将异构数据采集到统一的平台进行存储,进而通过建模将数据进行加工处理,变为对业务有用的数据,只有这样才能有效汇聚数据,形成数据中台的统一数据资源。

2)数据存储计算

将采集补录、抽取整合的业务数据汇聚后,以数据形态存储,当下大数据发展的节奏让数据库技术也由传统关系型数仓架构,向Hadoop分布式架构演变,并随着业务实时性决策需要,推动融合MPP、SQL on Hadoop、流处理等大数据技术服务的实时流式计算存储应用,实现海量数据高效统一管理,为企业提供实时数据支撑。

3)数据治理

数据平台建好后,业务数据可能杂乱无章,数据质量低,需要经过一系列的治理提高数据质量,将数据统一起来进行管控,这个过程中就包括数据模型管理、数据标准管理、元数据管理、数据质量管理、生命周期管理、数据安全管理。

数据模型管理是根据业务对数据进行分层、整合处理,方便数据的分析应用;元数据管理方便技术人员进行分析数据来龙去脉以及对数据库底层数据质量进行把控;数据标准用来指定一系列标准,对元数据进行标准的检查;数据质量是根据一系列规则,对库表数据进行校验和整改;数据生命周期和安全贯穿整个流程,为数据保驾护航。

4)数据资产管理

经过数据汇聚、数据治理,已经形成的数据资源需要有统一的地方去进行管理,方便业务人员理解数据,这时就需要建立数据资产管理体系,需要先根据业务先形成资产目录,数据拥有者将自己的数据资产挂到对应的类目树,梳理成一套完整的资产目录,将数据资产开放出去,展示给业务人员或外部人员,提供企业的数据意识。

5)数据服务

经过前期一系列梳理工作,数据还没有真正发挥它的价值,而数据服务则是将数据资产转化成一种服务能力,那么如果我们需要调用某个数据资产要怎么操作使用?数据提供方又如何将数据资产提供给别人使用?这就是我们说的数据服务功能,帮助用户实现数据规划咨询,数据资产服务开放及数据可视化展示应用等。

数据中台是一个运营迭代的过程,通过业务闭环不断完善,使业务的场景化应用效果越来越好,最终达到数据业务价值的最大化。


立即免费定制解决方案 立即定制
分享:
更多
免费商务咨询
您点击 “提交”,表明您已理解并同意接受本网站隐私政策和用户协议