医疗大数据的“欺骗性”我们如何处理“脏数据”

时间:2020-10-23

当前,针对医疗大数据的研究和应用越来越广泛,但毋庸置疑,医疗大数据本身具有一定欺骗性,在某些特殊场景下,可能会产生错误的结论和影响。

当前,针对医疗大数据的研究和应用越来越广泛,但毋庸置疑,医疗大数据本身具有一定欺骗性,在某些特殊场景下,可能会产生错误的结论和影响。本文从数据本身的欺骗性以及机器学习可能存在的陷阱展开,对医疗大数据产生欺骗性的原因进行分析;针对医疗大数据的欺骗性,从统计学角度阐述如何避免大数据陷阱;从模型角度分析模型被攻击的应对策略以及模型可解释性在医疗领域的重要性和方法。

数据的欺骗性

由于数据在结论展现前需经过取样、清洗、建模、分析以及应用等过程。Dallachiesa等提出通过数据清洗系统来减少“脏数据”,保障数据质量。

Rahm等认为,数据处理工作对提高数据质量至关重要,并且其阐述了数据清洗、处理的方法。即使通过清洗等方法清除部分异常数据,从统计学角度来看,大数据仍具有欺骗性,主要分为选择偏倚、结果的局限性和数据噪声。

典型的几类造成数据偏差的原因包括:

第一,选择误差。如果选择的数据样本分布不均匀即会出现选择误差。例如,在机场做问卷调查,期望对全民健康水平进行评估,则注定是失败的,因为机场人群的分布和全国人群分布不一致,不具有代表性,样本选择具有偏差。

第二,幸存者误差。若有些样本数据无法采集即会出现幸存者误差。例如,为评估某药物对患者的副作用,选取存活患者展开调查,因无法获取药物试验中已故患者的数据,而这些患者可能是发生药物副作用较多的人群。因此这样的采样并不全面,将导致分析结果不正确。

第三,数据真实性存疑。在研究中,参与者因个人利益等原因可能会出现一些欺骗行为,这会降低研究数据的质量。

因此,应尽可能增大研究的数据量,减小错误数据对研究结果的干扰。
115bd9629395976.png

华宇智能数据

1.图形化操作界面,全程零编码

采用全导航交互式设计界面,技术门槛低。不管是规则定义还是流程管理都无需编写sql或代码,通过图形化界面进行简单配置即可,使得非技术用户也能对定义过程和定义结果一目了然。

2.一站式轻松搞定质检全过程

亿信数据质量管理平台(EsDataClean)提供从标准定义、质量监控、绩效评估、质量分析、质量报告、重大问题及时告警、流程整改发起、系统管理等数据质量管理全过程的功能。

3.智能推进问题数据整改

智能数据质量检查调度;通过事先定义好的规则、调度时间、工作流程,自动完成数据的质量检查,极大的减少人力的投入和过程干预,提升效率,减少误差。

4.完善丰富的数据质量评估体系

华宇智能数据数据质量管理平台(EsDataClean)包含丰富的质量评价方法,并且易于扩展。

5.全方位的数据体检报告

多维度质量分析报表,辅助用户对问题数据进行质量分析,以便用户进行有针对性的质量改进;

让你的数据清澈如水。

(部分内容来源网络,如有侵权请联系删除)
分享:
更多
华宇智能数据助力行业数字化转型
业务咨询
不被时代淘汰
行业数字化转型迫在眉睫!
华宇智能数据面向金融、财税、医疗卫生、应急、政务行业提供专业咨询规划与技术支持服务,打造数十个行业智能数据解决方案,为客户提供值得信赖、智慧的信息化服务。
部级单位为国家50余个部级单位提供产品和服务
金融企业3家金融监管单位,两大政策性银行与100多家商业金融机构
省市级单位覆盖全国各地税务、卫生部门及若干省市级单位
世界500强为超过20%的世界500强在华企业提供数据服务
业务数字化转型咨询请点击
免费商务咨询
您点击 “提交”,表明您已理解并同意接受本网站隐私政策和用户协议