最难or最简单的“数据清洗”,你说Excel还是BI?

时间:2020-11-10

大数据行业中一直存在着一个悖论:最重要的往往被认为是最简单的,于是最容易被忽略,而这就是数据清理。无论是各类教材还是专业培训给出的技能树,还是高大上咨询公司的专业顾问或者公司内部的资深大数据专家给出的战略规划和专业建议,都会忽略数据清理这一环节。

大数据行业中一直存在着一个悖论:最重要的往往被认为是最简单的,于是最容易被忽略,而这就是数据清理。无论是各类教材还是专业培训给出的技能树,还是高大上咨询公司的专业顾问或者公司内部的资深大数据专家给出的战略规划和专业建议,都会忽略数据清理这一环节。这就有点像做一顿大餐的大厨,不管菜谱、搭配、原料采集和粗加工等一系列过程,只负责将设计好、搭配好、采购好和处理好的原材料放进锅里炒那么几下。不是说最后煎炒那几下不重要,而是说煎炒前面的各种过程太重要了。
摄图网_401629565_wx_科技城市(企业商用).jpg

由此极端得认为,一个大数据项目,应该花超过50%以上的时间和精力来做好数据清理。数据清理包括:脏数据清洗、数据结构化、数据定义、数据统计方法确定以及未来的扩展等等。甚至更极端的观点,会把是否将数据清理作为核心工作当成了重要判断标准,评估某人在大数据方面的经验和水平。因为凡是真正经历过几场大数据实战的人都会明白,把不同时间节点、不同各种维度以及不同来源的数据全部按照统一规则结构化,还要拼接在一起供各种同比环比以及更高阶的分析,最后还要兼容未来数据的增长,是多么一件有挑战的事情。如果不信,可以看看海外名校那些PhD的日常工作,只要涉及到实证研究的,不少时间就是在收集数据和清理数据。

曾经有朋友寻求给他们的大数据项目出谋划策,当时的建议是:再怎么重视数据清理都不过分。不过这位朋友很难理解,一个规模不大而且很早就开始使用各种ERP或者CRM等"高级系统"的传统消费品企业的数据有啥难清理的,数据应该是八九成就绪等待直接建设大数据体系了。

可是对于这样的传统企业,数据清理的过程中有各种各样的拦路虎:

1)数据存储方式的差异:纸质或者电子,数据库或者日志,原始数据或者编码
2)数据定义的差异:都是收入,可算法或许完全不一样,前后拉通了来找规律会很麻烦

3)统计方法的差异:即使是最顶尖的互联网公司,同一个算法但不同的程序来统计DAU,都会有一定的误差

4)分类原则的差异:销售区域或者事业部的划分经常变化,要做到彻底Apple to Apple的可比较状态并不容易

另外,大部分的BI方面的大数据系统而言,搭建起来之后,系统本身一般也只能解决四五成的需求,不少需求仍然需要BI的数据分析师通过跑SQL或者定制模型来完成,其中不少的工作量其实也不是在升级或者优化模型,而是因为随着企业的发展,各种数据定义、统计方法或者分类原则发生变化,需要重新清理数据然后灌入到原有的模型,否则只能是Garbage In Garbage Out。所以一个无需SQL清洗的工具符合时代发展的需要。由此也是从另外一个角度证明数据清理的难度和重要性。

甚至可以说,一个在数据清理方面做得很极致的大数据BI系统,有人说数据分析师在工具方面只要熟练使用SQL和Excel就能解决大部分的问题。有人说较之那些动不动将Hadoop或者Spark等一堆名词挂在嘴边的“大数据专家”还不如踏踏实实学Excel,但是我想说Excel能够满足大部分需求的话,那么BI工具就不会诞生了。

(部分内容来源网络,如有侵权请联系删除)
分享:
更多
华宇智能数据助力行业数字化转型
业务咨询
不被时代淘汰
行业数字化转型迫在眉睫!
华宇智能数据面向金融、财税、医疗卫生、应急、政务行业提供专业咨询规划与技术支持服务,打造数十个行业智能数据解决方案,为客户提供值得信赖、智慧的信息化服务。
部级单位为国家50余个部级单位提供产品和服务
金融企业3家金融监管单位,两大政策性银行与100多家商业金融机构
省市级单位覆盖全国各地税务、卫生部门及若干省市级单位
世界500强为超过20%的世界500强在华企业提供数据服务
业务数字化转型咨询请点击
免费商务咨询
您点击 “提交”,表明您已理解并同意接受本网站隐私政策和用户协议