- 监管机构
- 银行
- 租赁
- 其他金融
时间:2020-11-10
大数据行业中一直存在着一个悖论:最重要的往往被认为是最简单的,于是最容易被忽略,而这就是数据清理。无论是各类教材还是专业培训给出的技能树,还是高大上咨询公司的专业顾问或者公司内部的资深大数据专家给出的战略规划和专业建议,都会忽略数据清理这一环节。这就有点像做一顿大餐的大厨,不管菜谱、搭配、原料采集和粗加工等一系列过程,只负责将设计好、搭配好、采购好和处理好的原材料放进锅里炒那么几下。不是说最后煎炒那几下不重要,而是说煎炒前面的各种过程太重要了。
由此极端得认为,一个大数据项目,应该花超过50%以上的时间和精力来做好数据清理。数据清理包括:脏数据清洗、数据结构化、数据定义、数据统计方法确定以及未来的扩展等等。甚至更极端的观点,会把是否将数据清理作为核心工作当成了重要判断标准,评估某人在大数据方面的经验和水平。因为凡是真正经历过几场大数据实战的人都会明白,把不同时间节点、不同各种维度以及不同来源的数据全部按照统一规则结构化,还要拼接在一起供各种同比环比以及更高阶的分析,最后还要兼容未来数据的增长,是多么一件有挑战的事情。如果不信,可以看看海外名校那些PhD的日常工作,只要涉及到实证研究的,不少时间就是在收集数据和清理数据。
曾经有朋友寻求给他们的大数据项目出谋划策,当时的建议是:再怎么重视数据清理都不过分。不过这位朋友很难理解,一个规模不大而且很早就开始使用各种ERP或者CRM等"高级系统"的传统消费品企业的数据有啥难清理的,数据应该是八九成就绪等待直接建设大数据体系了。
可是对于这样的传统企业,数据清理的过程中有各种各样的拦路虎:
1)数据存储方式的差异:纸质或者电子,数据库或者日志,原始数据或者编码
2)数据定义的差异:都是收入,可算法或许完全不一样,前后拉通了来找规律会很麻烦
3)统计方法的差异:即使是最顶尖的互联网公司,同一个算法但不同的程序来统计DAU,都会有一定的误差
4)分类原则的差异:销售区域或者事业部的划分经常变化,要做到彻底Apple to Apple的可比较状态并不容易
另外,大部分的BI方面的大数据系统而言,搭建起来之后,系统本身一般也只能解决四五成的需求,不少需求仍然需要BI的数据分析师通过跑SQL或者定制模型来完成,其中不少的工作量其实也不是在升级或者优化模型,而是因为随着企业的发展,各种数据定义、统计方法或者分类原则发生变化,需要重新清理数据然后灌入到原有的模型,否则只能是Garbage In Garbage Out。所以一个无需SQL清洗的工具符合时代发展的需要。由此也是从另外一个角度证明数据清理的难度和重要性。
甚至可以说,一个在数据清理方面做得很极致的大数据BI系统,有人说数据分析师在工具方面只要熟练使用SQL和Excel就能解决大部分的问题。有人说较之那些动不动将Hadoop或者Spark等一堆名词挂在嘴边的“大数据专家”还不如踏踏实实学Excel,但是我想说Excel能够满足大部分需求的话,那么BI工具就不会诞生了。
说到数据分析,不得不谈到的数据仓库和BI工具,今天我们从一个角度,数仓的角度来看看商业智能的发展,还有解决的实际问题。
数据分析是一门长期存在的学科,其中训练有素的统计学家和数据科学家使用复杂的软件程序来分析具有统计意义(即大)的样本集,以识别模式和趋势。这种分析使洞察有助于做出更好的决策,主要是围绕客户互动。
加快政务信息系统整合步伐,统筹政务内网、政务外网建设和应用,推动省市县三级网络会议系统、视频监控系统接入统一平台管理,健全省、市两级政务信息资源共享交换平台,推进政务数据跨区域、跨部门、跨层级的交换共享。到2023年,全省政务云服务体系基本完善,形成“一片云、两张网”管理模式。