- 监管机构
- 银行
- 租赁
- 其他金融
时间:2020-11-06
探索与数据相关的开发技术、应用场景和商业模式时,并非所有项目都能取得预期效果,许多预期需求无法实现,重要原因之一就是数据质量因素导致的。而数据治理正是企业管理和提高数据质量的重要手段。加强数据治理已成为企业提升管理能力的重要任务。数据质量的评估,主要围绕着以下六个方面进行。
这个其实比较好理解,通俗上来讲,就是我们常说的数据全不全嘛。但如何用指标来衡量呢,通常看一份数据的总记录数是否正常。比如成交记录是1万条,但数据表只有9000条,这就是不完整的。当然了,再细一些,可以看到表中具体字段。比如总条数是1万,但是用户ID字段有2000是空的,这也是不完整的。
唯一性也比较容易理解,就是没有重复的。这个其实和数据完整性是相对的。完整性看的是数据少没少,数据唯一性看的是数据多没多。还是上面的例子,比如真实成交1万条,但数据表有3000重复了,成了1.3万条成交记录,这就不符合数据唯一性的评估。
这个主要是看数据是否符合公司业务的真实情况。比如手机号字段,取值是32988,明显是脏数据。这里列举了几个方面:代码值域约束:比如证件类型的代码值要包含在数据标准的公共代码中长度约束:比如约束身份证字段长度要等于18位取值范围约束:比如要求字段值不能是负数标志取值约束:比如要求字段取值只能是1、2、3通过以上方面,可以衡量数据内容的质量是否达
数据一致性的含义,就是通过不同方式取出来的数据,不能是冲突的。这里强调的是多个表或者来源。只有多个对比,才有不一致的概念。这其实经常是我们交叉验证时的内容,经常会说的一句话:“这数对不上啊!”通常分为以下三个方面:
等值一致性:一个核验对象的数据取值必须与另外一个或多个核验对象在一定规则下相等。比如,“进出口经营权许可证号”长度13位,后9位应该与“组织机构代码证”一致
存在一致性:一个核验对象的数据值必须在另一个核验对象满足某一条件时存在。比如,“登录状态”是已登录,“登录日期”不能为空
逻辑一致性:一个核验对象上的数值必须与另一个核验对象的数据值满足某种逻辑关系。比如,“支票起号”小于等于“支票止号”
多个表有不一致的概念,单个数据表呢?这就是数据准确性了。这个比较容易理解,比如用户的实际地址是青岛市,但数据表存的是烟台市。一般原始数据不准的情况不多,都是统计表、汇总表容易出现数据不准的情况。比如统计用户最近30天的成交金额出现偏差。另外值得注意的是,准确性强调数据是否与真实世界值一致。这个校验有时候不容易进行。
这个也比较容易理解,主要是满足时效性的。这里也划分到了数据质量的范畴。比如一份数据是统计离线T-1日的,结果都是第二天下午甚至第三天才能统计完,这种数据的应用价值就会大打折扣了。
众所周知,数据成为了核心发展里。数据已成为企业的核心资产和重要的生产要素。在数据驱动的信息化时代,企业只有管理好核心业务数据,才能从中优化产品、开拓市场新渠道,打造企业核心竞争力。
中央第一份关于要素市场化配置的文件《中共中央、国务院关于构建更加完善的要素市场化配置体制机制的意见》(以下简称“《意见》”)正式发布。《意见》指出了土地、劳动力、资本、技术、数据五个要素领域改革的方向,明确了完善要素市场化配置的具体措施。数据作为一种新型生产要素,成为了《意见》中备受关注的内容。
伴随着新基建的热潮,国家密集出台了一系列的支持政策,明确指向传统经济要借助人工智能、大数据、云计算等科技的赋能,实现转型,并引导社会资本和资源持续对这些领域加注。而大数据对传统经济一项重要的赋能工具就是BI(Business Intelligence,商业智能),BI是企业开展系统性数字化改革的关键,它的应用可以帮助企业提高决策水平、优化运营效率以及实现数据货币化,对企业商业价值的提升有诸多助力。
数据分析是一门长期存在的学科,其中训练有素的统计学家和数据科学家使用复杂的软件程序来分析具有统计意义(即大)的样本集,以识别模式和趋势。这种分析使洞察有助于做出更好的决策,主要是围绕客户互动。