首页
智慧金融

监管机构

大数据分析平台

智能数据治理平台

银行

银行智能数据治理平台

银行业务自助查询服务

银行风险管控服务

银行管理驾驶舱

银行数据质量管理

银行通用数据仓库服务

银行通用大数据服务

银行数据资产管理

银行统一监管报表平台

租赁

租赁智能数据治理平台

租赁数据资产管控

租赁智能监管报送

租赁管理驾驶舱

租赁资金管理服务

租赁报表管理系统

租赁资产监督管控

其他金融

金融通用智能监管报送

金融智能数据治理平台
智慧财税

局端税务

税务数据集中治理平台

纳税人发票数据风险管控平台

税收大数据分析应用平台

税务局风险应对指挥平台

个人所得税微观模拟测算模型

税收收入监控分析系统

企业税务

企业税务信息管理系统

财政领域

财政大数据财源监控平台

财政预算管理平台
智慧政务

大数据局

政务大数据分析决策系统

政务智能数据治理平台

政务信用信息采集与公共服务平台

政务数据共享交换服务

政务数据资源运营平台
智慧医疗

卫生

省级数据管理与服务平台

地市级统计直报与决策方案

省级卫生统计分析与决策支持平台

省级卫生统计直报平台

医疗

医院数据治理与运营分析平台
HOT

疫情防控大数据方案
HOT

医院运营管理辅助决策支持系统
智慧应急

能源集团

能源集团大数据资产平台

煤矿安监

煤矿风险预警与防控平台
品牌服务

品牌服务

服务与支持

华宇直播
关于我们

关于我们

公司介绍

公司动态

签约新闻

行业资讯

联系我们
400-000-5910

最难or最简单的“数据清洗”，你说Excel还是BI?

时间：2020-11-10

大数据行业中一直存在着一个悖论：最重要的往往被认为是最简单的，于是最容易被忽略，而这就是数据清理。无论是各类教材还是专业培训给出的技能树，还是高大上咨询公司的专业顾问或者公司内部的资深大数据专家给出的战略规划和专业建议，都会忽略数据清理这一环节。

大数据行业中一直存在着一个悖论：最重要的往往被认为是最简单的，于是最容易被忽略，而这就是数据清理。无论是各类教材还是专业培训给出的技能树，还是高大上咨询公司的专业顾问或者公司内部的资深大数据专家给出的战略规划和专业建议，都会忽略数据清理这一环节。这就有点像做一顿大餐的大厨，不管菜谱、搭配、原料采集和粗加工等一系列过程，只负责将设计好、搭配好、采购好和处理好的原材料放进锅里炒那么几下。不是说最后煎炒那几下不重要，而是说煎炒前面的各种过程太重要了。
摄图网_401629565_wx_科技城市（企业商用）.jpg

由此极端得认为，一个大数据项目，应该花超过50%以上的时间和精力来做好数据清理。数据清理包括：脏数据清洗、数据结构化、数据定义、数据统计方法确定以及未来的扩展等等。甚至更极端的观点，会把是否将数据清理作为核心工作当成了重要判断标准，评估某人在大数据方面的经验和水平。因为凡是真正经历过几场大数据实战的人都会明白，把不同时间节点、不同各种维度以及不同来源的数据全部按照统一规则结构化，还要拼接在一起供各种同比环比以及更高阶的分析，最后还要兼容未来数据的增长，是多么一件有挑战的事情。如果不信，可以看看海外名校那些PhD的日常工作，只要涉及到实证研究的，不少时间就是在收集数据和清理数据。

曾经有朋友寻求给他们的大数据项目出谋划策，当时的建议是：再怎么重视数据清理都不过分。不过这位朋友很难理解，一个规模不大而且很早就开始使用各种ERP或者CRM等"高级系统"的传统消费品企业的数据有啥难清理的，数据应该是八九成就绪等待直接建设大数据体系了。

可是对于这样的传统企业，数据清理的过程中有各种各样的拦路虎：

1）数据存储方式的差异：纸质或者电子，数据库或者日志，原始数据或者编码
2）数据定义的差异：都是收入，可算法或许完全不一样，前后拉通了来找规律会很麻烦

3）统计方法的差异：即使是最顶尖的互联网公司，同一个算法但不同的程序来统计DAU，都会有一定的误差

4）分类原则的差异：销售区域或者事业部的划分经常变化，要做到彻底Apple to Apple的可比较状态并不容易

另外，大部分的BI方面的大数据系统而言，搭建起来之后，系统本身一般也只能解决四五成的需求，不少需求仍然需要BI的数据分析师通过跑SQL或者定制模型来完成，其中不少的工作量其实也不是在升级或者优化模型，而是因为随着企业的发展，各种数据定义、统计方法或者分类原则发生变化，需要重新清理数据然后灌入到原有的模型，否则只能是Garbage In Garbage Out。所以一个无需SQL清洗的工具符合时代发展的需要。由此也是从另外一个角度证明数据清理的难度和重要性。

甚至可以说，一个在数据清理方面做得很极致的大数据BI系统，有人说数据分析师在工具方面只要熟练使用SQL和Excel就能解决大部分的问题。有人说较之那些动不动将Hadoop或者Spark等一堆名词挂在嘴边的“大数据专家”还不如踏踏实实学Excel，但是我想说Excel能够满足大部分需求的话，那么BI工具就不会诞生了。

（部分内容来源网络，如有侵权请联系删除）

上一篇：如何看待杭州超越北上广，成数字治理第一城？

下一篇：快来建设数据标准啦！这篇文章应有尽有

华宇智能数据助力行业数字化转型

业务咨询

不被时代淘汰
行业数字化转型迫在眉睫！

华宇智能数据面向金融、财税、医疗卫生、应急、政务行业提供专业咨询规划与技术支持服务，打造数十个行业智能数据解决方案，为客户提供值得信赖、智慧的信息化服务。: 部级单位为国家50余个部级单位提供产品和服务; 金融企业3家金融监管单位，两大政策性银行与100多家商业金融机构; 省市级单位覆盖全国各地税务、卫生部门及若干省市级单位; 世界500强为超过20%的世界500强在华企业提供数据服务

业务数字化转型咨询请点击

您可能也想阅读

免费商务咨询

*需求描述

*姓名
公司行业

*电话
部门

*公司
职务

是否需要销售代表与您联系

您点击 “提交”，表明您已理解并同意接受本网站隐私政策和用户协议

最难or最简单的“数据清洗”，你说Excel还是BI?

华宇智能数据助力行业数字化转型

不被时代淘汰
行业数字化转型迫在眉睫！

业务数字化转型咨询请点击

您可能也想阅读

从数仓到商业智能，我们去一探究竟

大数据，小数据，我们如何做数据分析？

河北数字政务服务领先升级，加快“一网通办”“指尖办”

免费商务咨询

最难or最简单的“数据清洗”，你说Excel还是BI?

华宇智能数据助力行业数字化转型

不被时代淘汰行业数字化转型迫在眉睫！

业务数字化转型咨询请点击

您可能也想阅读

从数仓到商业智能，我们去一探究竟

大数据，小数据，我们如何做数据分析？

河北数字政务服务领先升级，加快“一网通办”“指尖办”

免费商务咨询

不被时代淘汰
行业数字化转型迫在眉睫！