谈谈银行数据仓库的构建之路

时间:2021-01-21

数据仓库,对从事 IT 行业的从业者来说并不是个陌生的名词,这个概念由数据仓库之父 Bill Inmon 在 1991 年出版的“Building the Data Warehouse”中定义的——面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持决策管理。从定义可以了解到,数据仓库具有以下关键特性:

数据仓库,对从事 IT 行业的从业者来说并不是个陌生的名词,这个概念由数据仓库之父 Bill Inmon 在 1991 年出版的“Building the Data Warehouse”中定义的——面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持决策管理。从定义可以了解到,数据仓库具有以下关键特性:

  • 面向主题

数据仓库归集全行数据并按特定主题梳理,方便使用者按主题编目快速查找到所需数据并使用;

  • 数据集成

数据仓库归集全行数据,打破系统间数据孤岛的局面,从而为后续的决策管理与数据服务提供强大的数据支撑;

  • 相对稳定

建设数据应用时,最担忧是源系统的数据模型变更导致“牵一发而动全身”。每次模型变更都伴随着数据应用的影响分析和变更开发,既对开发团队造成极大的工作负担,又影响数据应用的稳定性。数据仓库可通过分层架构“内部消化”源系统模型变更带来的影响,且无需变更数据服务接口,保证数据应用的稳定性;

  • 反映历史变化

数据仓库会记录数据的历史轨迹,用于查询任意时点的数据快照从而分析特定时间范围的数据趋势,为决策管理提供数据支持。

理解了数据仓库的关键特性,相当于了解了建设数据仓库的正确方向,但是,并不代表就清楚数据仓库的建设目标和建设路径。特别对于银行机构,对数据的稳定性、准确性与时效性要求都比一般企业要高。那么,银行数据仓库的建设目标与建设路径分别是什么,接下来将分为三个章节去阐述。

银行数据仓库画像
1.png

互联网对于传统行业的冲击是全方位的,无论是百货、商场、菜市场等零售行业,还是银行、财务公司等金融行业,都对其经营模式进行“降维打击”,迫使传统行业业务进行线上化转型。尤其是银行,在互联网发展前,基本都是躺着赚钱,是大家眼中的金饭碗,结果在互联网发展后,尤其是互联网金融逐渐的壮大,都被迫喊出“银行是弱势群体”的话语,其程度可想而知。互联网经营模式对比银行传统的经营模式领先是多方面的,以下列表仅从数据的角度进行分析。
2.png

上述对比的结果,揭示了互联网经营模式领先的要点之一是数字化的业务运营,所以银行经营模式想要跟上时代的步伐,关键点是 数字化转型
3.png

在银行逐渐认识到数据价值后,也开展了自身的数字化转型之路。然而在迈向的过程中,却发现犹如进入迷宫一样,资源是大力投入了,成效却远远未达到预期想象,甚至还影响到原有业务开展。

  • 业务数据仍以 数据孤岛 的方式存在,大量的数据仍未形成合力,难以产生巨大的价值;
  • 由于数据孤岛的存在,数据应用 只能局限于系统内,可发挥的空间不大;
  • 数据孤岛的各自为政,造成各个系统的数据都拥有一套独立的标准,使得系统间的数据联系更加复杂与困难。且标准各异的数据难以测量数据质量,数据治理 势必成为下一阶段的工作重心;
  • 缺乏统一的 数据管理,无法有效发挥数据的使用价值,也无法互相分享数据成果,从而导致另一个问题——烟囱式建设。

解决上述数字化转型遇到的痛点,需要打破数据孤岛、形成数据合力、建设数据质量体系,这时就需要一个数据管理核心,来支撑全行数据应用。这个数据管理核心就是数据仓库。
4.png

细化数据仓库目标,描绘出数据仓库的画像。

  • 全行数据归集

将全行数据归集到数据仓库中,从而打破数据孤岛,实现数据集中管理及关联分析,产生 1+1>2 的价值;

  • 数据质量体系

主要分为两个方面,其一是建设数据统一标准。标准各异的数据会对数据梳理整合造成巨大的阻碍,数据统一标准应从业务属性、技术属性及操作属性三方面进行。其二是做好元数据管理,元数据是系统建设过程产生的描述数据,包含系统设计、数据模型、数据字典、运行日志等,管理好元数据有助于系统维护及可持续发展;

  • 数据价值挖掘

基于全行数据的关联与分析,挖掘数据间的联系与价值,实现智能营销与风控;

  • 商业智能决策

使用可视化的数据分析工具把数据图形化、直观化呈现,帮助业务人员了解数据的变化与趋势,从而快速高效形成决策;

  • 数据服务支撑

提供统一、共享的数据接口满足全行应用系统的数据服务需求;

  • 数据资产管理

数据仓库既属于数据管理核心,也属于数据资产核心。对内而言,数据仓库将全行数据进行归集并整合,为全行业务应用提供数据服务;对外而言,涉及营销与风控的价值数据,比如客户画像、欺诈名单、老赖名单,对其他银行具有强大的吸引力,可通过有偿查询的方式形成创新业务。

银行数据仓库的画像清晰了,建设目标也明确了,但,该如何构建数据仓库?
浅谈数据仓库建设

宏观理解银行数据仓库的整体架构,有利于下一步理解数据仓库的建设路径。从整体架构,主体模块的功能说明与职责分工如下所示:

  • 数据总线

数据仓库作为数据管理核心,必须拥有统一标准的数据输入接口与数据输出通道,才能保证数据输入输出的稳定性。但是数据输入输出会造成数据仓库的资源损耗,尤其是 IO 与网络,所以建设数据总线系统可把数据输入输出功能与数据仓库解耦,让数据仓库专注于数据的整合与计算任务。

  • 数据仓库分层

数据仓库分层架构为 ODM 层、SDM 层、FDM 层及 ADM 层。对上述分层方式可能有童鞋会有这样的疑问:为什么没有共性模型层?每个数据层的定义与职责,以及共性模型层的疑问将在下文逐步介绍,有兴趣的童鞋也可以查阅作者的文章《浅谈银行的数据仓库:分层架构篇》;

  • 数据服务

分为 SOA 接口与文件接口两种方式,分别提供实时与离线的数据服务。由于应用系统调用数据服务接口同样会造成数据仓库的 IO 与网络资源损耗,所以建设数据服务系统可把调用数据服务功能与数据仓库解耦,同时也避免应用系统直接访问数据仓库所造成的数据安全风险;

  • 调度管理

负责数据仓库所有作业(含数据总线的 ETL 作业)的调度配置、依赖配置、日切机制及执行监控;

  • 元数据管理

负责对元数据的录入与查询。对数据仓库而言,比较重要的元数据有数据字典、血缘关系、指标口径、数据映射(mapping)及参考数据(码表与系统参数);

  • 质量管理

负责两大功能——数据核检质量评分

数据核检分为表内核检与表间核检两种方式。表内核检主要是数据格式核检,依据数据标准对数据的长度、格式、范围、非空等维度进行检查。除了数据格式核检外,还有表内数据勾稽关系核检,保证表内统计结果的一致性。表间核检主要是检查跨系统的数据勾稽关系,比如总账科目与交易明细的总分核对。所有的核检结果均以日志的方式输出,便于数据治理团队推进数据质量提升的工作。

质量评分依赖数据核检结果,对各个源系统的数据质量进行综合评分,主要用于考核源系统的数据质量完善程度,并对开发团队实施奖惩机制,推进数据质量提升的工作。

  • 安全管理

负责两大功能——数据生命周期管理数据安全策略

数据生命周期管理主要是设定数据的有效期及自动处理策略。当数据达到有效期时,会自动把过期数据进行文本导出、分表、清理等操作,避免数据存储过大造成的一系列系统问题。

数据安全策略主要设定数据的权限,包括查询、下载、分享、补录等权限,避免敏感数据泄露。

(部分内容来源网络,如有侵权请联系删除)
分享:
更多
华宇智能数据助力行业数字化转型
业务咨询
不被时代淘汰
行业数字化转型迫在眉睫!
华宇智能数据面向金融、财税、医疗卫生、应急、政务行业提供专业咨询规划与技术支持服务,打造数十个行业智能数据解决方案,为客户提供值得信赖、智慧的信息化服务。
部级单位为国家50余个部级单位提供产品和服务
金融企业3家金融监管单位,两大政策性银行与100多家商业金融机构
省市级单位覆盖全国各地税务、卫生部门及若干省市级单位
世界500强为超过20%的世界500强在华企业提供数据服务
业务数字化转型咨询请点击
免费商务咨询
您点击 “提交”,表明您已理解并同意接受本网站隐私政策和用户协议