- 监管机构
- 银行
- 租赁
- 其他金融
时间:2021-01-20
讲到数据治理,我们经常提到的一个词就是血缘分析,那么什么是血缘分析呢?一句话来说血缘分析是保证数据融合(聚合)的一个手段,通过血缘分析实现数据融合处理的可追溯。
有时被概念瞎蒙了,不知道到底如何追溯,落不了地。本人接触的数据治理项目还主要是将各个来源的数据进行整理融合,形成人地事物组织几个业务大类数据。
在现实世界中,我们每个个体都是祖先通过生育关系一代代孕育而来,这样就形成了我们人类的各种血缘关系。在数据信息时代,我们庞大的数据在每时每刻产生,这些数据又经过各种加工组合、转换,又会产生新的数据,这些数据之间就存在着天然的联系,我们把这些联系称为数据血缘关系。
大数据数据血缘是指数据产生的链路。直白点说,就是我们这个数据是怎么来的,经过了哪些过程和阶段。举个例子,比如在生产系统如淘宝网中,客户在淘宝网页中购买物品后,数据就被存到后台数据库表A中。当我们领导需要查看某个月卖的最火的是哪些物品时,我们需要对存入的这些数据进行加工汇总,形成一张新的表B来存储我们处理的数据,最后我们会根据B表进一步处理成我们前台展现使用的表C。那么A表是C表数据最初的来源,是C表数据的祖先。从A表数据到B表数据在到C表数据,我们认为这条链路就是C表的数据血缘。
在数据的处理过程中,从数据源头到最终的数据生成,每个环节都可能会导致我们出现数据质量的问题。比如我们数据源本身数据质量不高,在后续的处理环节中如果没有进行数据质量的检测和处理,那么这个数据信息最终流转到我们的目标表,它的数据质量也是不高的。也有可能在某个环节的数据处理中,我们对数据进行了一些不恰当的处理,导致后续环节的数据质量变得糟糕。因此,对于数据的血缘关系,我们要确保每个环节都要注意数据质量的检测和处理,那么我们后续数据才会有优良的基因,即有很高的数据质量。
如上图所示,在生成指标B的过程,输入表A进行了变更,如果通过血缘分析,了解到了A所影响的路径范围,那么完全不必要重新做一次所有计算任务,而只是把A到B之间影响到的节点重新加工即可。这样计算量可以大大缩减,而且提高任务的弹性时间,或许1小时内就能完成调整后的计算。
华宇智能数据数据治理解决方案
华宇智能数据拥有专业的数据治理能力框架以及数据治理统一流程、数据治理成熟度评估模型等方法论和项目经验支撑。从数据治理实施落地路径上来讲,应该是自下而上推进,梳理系统数据现状,明确数据存在的问题,制定具体数据标准规范统一数据统计口径,完成数据整合管理等等,推进优化业务应用设计和数据模型,进而推动业务数据架构不断创新,形成闭环。
数据治理并没有严格的定义,通常为提高数据质量而开展的业务、技术和管理活动,这些都属于数据治理范畴。长期以来,由于银行(包括银行下属金融企业,下同)高度重视业务的电子化和信息化,外加监管对银行统计信息质量的高要求,各银行均重视数据治理问题,建立起高管层、信息委,以及专职或兼职的信息管理部门,归口负责数据的业务标准、数据质量和统计口径,信息技术部门则负责用技术手段落实标准、控制数据质量、提供数据开发和数据处理服务。但是这些工作基本停留在管理层面。
十三届全国人大四次会议在人民大会堂开幕,国务院总理李克强作政府工作报告(下称“报告”)。报告中对金融政策的表述,也得以让我们观察2021年金融政策新动向。
近年来,随着大数据、云计算、区块链、人工智能等新技术的快速发展,这些新技术与金融业务深度融合,释放出了金融创新活力和应用潜能,这大大推动了我国金融业转型升级,助力金融更好地服务实体经济,有效促进了金融业整体发展。在这一发展过程中,又以大数据技术发展最为成熟、应用最为广泛。