华宇智能数据

值得信赖的智慧信息服务专家

立即咨询

数据治理之血缘分析如何辅助业务分析升级

2021-01-20

什么是血缘分析

血缘分析是一种技术手段,用于对数据处理过程的全面追踪,从而找到某个数据对象为起点的所有相关元数据对象以及这些元数据对象之间的关系。元数据对象之间的关系特指表示这些元数据对象的数据流输入输出关系。

目的:根据集成的数据库或视图,通过血缘追踪,获得结果数据的来源信息;更新数据时能够反映原始数据库的变化,查看数据在数据流中变化过程。

1.什么是血统分析

血统分析采用图形方式展示了以某个元数据为终止节点,其前与其有关系的所有元数据,反应数据的来源与加工过程,使用血统分析可分析数据来源和数据质量问题的定位。如果数据从A表变化到B表然后再变化到C表,查看C表的血统分析时,就会显示下方的图片。
1.png

2.什么是影响分析

影响分析采用图形方式展示了以某个元数据为起始节点,其后与其有关系的所有元数据,反应数据的流向与加工过程,使用影响分析可分析数据流向和数据转换中错误的定位。如果我们查看A表的影响分析时,就会显示上方的图片。

3.什么是全链分析

全链分析采用图形方式展示了以某个元数据为目标节点,其前后与其有关系的所有元数据,反应数据的来源与加工过程,使用全链分析可分析数据来源和数据质量问题的定位。如果我们查看B表的全链分析时,就会显示上方的图片。

血缘分析带来的创新价值

血缘分析能够提供丰富的创新,其唯一的限制元素在于想象力。首先我们先看看在传统意义上,血缘分析可以帮助我们解决什么样的问题。

1.问题定位分析

类似于影响分析,当程序运行出错时,可以方便找到问题的节点,并判断出问题的原因以及后续的影响。

2.差异分析

通过对元数据对象关联的其他对象或参与过程、不同元数据对象之间进行分析,就可以看到它们之间的差异和关联情况,包括名字、属性以及数据血缘对系统其他部分的影响等。通过差异分析,业务人员可以对相似的指标从业务定义、数据生成将各个方向进行分析;技术人员可以针对相似的物理对象进行信息辨别。

3.指标波动分析

当某个指标出现较大的波动时,可进行溯源分析,判断是由哪条数据发生变化所导致的。

4.数据体检

判定系统和数据的健康情况,是否存在大量的冗余数据、无效数据、无来源数据、重复计算、系统资源浪费等问题。

5.数据评估

通过血缘分析和元数据,可以从数据的集中度、分布、冗余度、数据热度、重要性等多角度进行评估分析,从而初步判断数据的价值。

6.案例分析

加速数据处理

很多银行在生成各类全局指标的过程中,需要大量的计算工作,往往只能满足T+1.5(1T代表1天)的要求,昨天的数据,要等到明天中午才能看。尽管这样的效率已经不能够让业务部门满意,技术部门因此承担着巨大的压力,最让技术部门烦恼的还不只是如此,而是原始采集的数据可能因为各种各样的问题,在数据处理中做很多调整。我们这些做技术的,都能理解技术部门烦恼的原因。试想一下,原本一个5个小时左右的处理任务,在运行4.5小时以后,即将完成,突然有人告诉你,最初给定的数据有问题,现在必须得改,而且还希望你能在1个小时内把数据算出来。借助血缘分析,这个方案有很大的提升空间。

2.png

如上图所示,在生成指标B的过程,输入表A进行了变更,如果通过血缘分析,了解到了A所影响的路径范围,那么完全不必要重新做一次所有计算任务,而只是把A到B之间影响到的节点重新加工即可。这样计算量可以大大缩减,而且提高任务的弹性时间,或许1小时内就能完成调整后的计算。

诊断业务发展问题

血缘分析并不是不仅限于技术层次的数据对象进行分析,如果把业务对象纳入到血缘分析的环境下,或许能得到意外的收获。快递消费品公司拥有全国连锁的门店网络,所销售的商品肯定种类繁多。但对于公司决策层来说,如何分析每个季度的业务发展情况是一件非常痛苦的事情,尤其是关键指标的波动情况到底是什么因素引起的,让数据分析团队每天要加班加点的去研究,非常受累,公司上层对团队的工作效率和绩效很不满意。

我们可以通过血缘分析能力的引入,去更好的理解不同指标之间的关系,以及产生指标的数据源头波动情况带来的影响。从而能够及时发现经营活动中存在的隐患,针对性的去解决问题。

血缘分析是对数据对象内在关系的一种映射,同时还结合了时间顺序、递次关系也能够反映出一定的相关性和它的前因后果。因此应用的范围可以说非常广泛,也是我们数据资产治理的核心利器。

立即免费定制解决方案 立即定制
分享:
更多
免费商务咨询
您点击 “提交”,表明您已理解并同意接受本网站隐私政策和用户协议