六个方面教你数据治理如何治理?

时间:2020-11-06

​众所周知,数据成为了核心发展里。数据已成为企业的核心资产和重要的生产要素。在数据驱动的信息化时代,企业只有管理好核心业务数据,才能从中优化产品、开拓市场新渠道,打造企业核心竞争力。

探索与数据相关的开发技术、应用场景和商业模式时,并非所有项目都能取得预期效果,许多预期需求无法实现,重要原因之一就是数据质量因素导致的。而数据治理正是企业管理和提高数据质量的重要手段。加强数据治理已成为企业提升管理能力的重要任务。数据质量的评估,主要围绕着以下六个方面进行。

(1)数据完整性

这个其实比较好理解,通俗上来讲,就是我们常说的数据全不全嘛。但如何用指标来衡量呢,通常看一份数据的总记录数是否正常。比如成交记录是1万条,但数据表只有9000条,这就是不完整的。当然了,再细一些,可以看到表中具体字段。比如总条数是1万,但是用户ID字段有2000是空的,这也是不完整的。

(2)数据唯一性

唯一性也比较容易理解,就是没有重复的。这个其实和数据完整性是相对的。完整性看的是数据少没少,数据唯一性看的是数据多没多。还是上面的例子,比如真实成交1万条,但数据表有3000重复了,成了1.3万条成交记录,这就不符合数据唯一性的评估。

(3)数据有效性

这个主要是看数据是否符合公司业务的真实情况。比如手机号字段,取值是32988,明显是脏数据。这里列举了几个方面:代码值域约束:比如证件类型的代码值要包含在数据标准的公共代码中长度约束:比如约束身份证字段长度要等于18位取值范围约束:比如要求字段值不能是负数标志取值约束:比如要求字段取值只能是1、2、3通过以上方面,可以衡量数据内容的质量是否达

(4)数据一致性

数据一致性的含义,就是通过不同方式取出来的数据,不能是冲突的。这里强调的是多个表或者来源。只有多个对比,才有不一致的概念。这其实经常是我们交叉验证时的内容,经常会说的一句话:“这数对不上啊!”通常分为以下三个方面:

等值一致性:一个核验对象的数据取值必须与另外一个或多个核验对象在一定规则下相等。比如,“进出口经营权许可证号”长度13位,后9位应该与“组织机构代码证”一致

存在一致性:一个核验对象的数据值必须在另一个核验对象满足某一条件时存在。比如,“登录状态”是已登录,“登录日期”不能为空

逻辑一致性:一个核验对象上的数值必须与另一个核验对象的数据值满足某种逻辑关系。比如,“支票起号”小于等于“支票止号”

(5)数据准确性

多个表有不一致的概念,单个数据表呢?这就是数据准确性了。这个比较容易理解,比如用户的实际地址是青岛市,但数据表存的是烟台市。一般原始数据不准的情况不多,都是统计表、汇总表容易出现数据不准的情况。比如统计用户最近30天的成交金额出现偏差。另外值得注意的是,准确性强调数据是否与真实世界值一致。这个校验有时候不容易进行。

(6)数据及时性

这个也比较容易理解,主要是满足时效性的。这里也划分到了数据质量的范畴。比如一份数据是统计离线T-1日的,结果都是第二天下午甚至第三天才能统计完,这种数据的应用价值就会大打折扣了。
众所周知,数据成为了核心发展里。数据已成为企业的核心资产和重要的生产要素。在数据驱动的信息化时代,企业只有管理好核心业务数据,才能从中优化产品、开拓市场新渠道,打造企业核心竞争力。

(部分内容来源网络,如有侵权请联系删除)
分享:
更多
华宇智能数据助力行业数字化转型
业务咨询
不被时代淘汰
行业数字化转型迫在眉睫!
华宇智能数据面向金融、财税、医疗卫生、应急、政务行业提供专业咨询规划与技术支持服务,打造数十个行业智能数据解决方案,为客户提供值得信赖、智慧的信息化服务。
部级单位为国家50余个部级单位提供产品和服务
金融企业3家金融监管单位,两大政策性银行与100多家商业金融机构
省市级单位覆盖全国各地税务、卫生部门及若干省市级单位
世界500强为超过20%的世界500强在华企业提供数据服务
业务数字化转型咨询请点击
免费商务咨询
您点击 “提交”,表明您已理解并同意接受本网站隐私政策和用户协议