- 监管机构
- 银行
- 租赁
- 其他金融
时间:2020-10-23
当前,针对医疗大数据的研究和应用越来越广泛,但毋庸置疑,医疗大数据本身具有一定欺骗性,在某些特殊场景下,可能会产生错误的结论和影响。本文从数据本身的欺骗性以及机器学习可能存在的陷阱展开,对医疗大数据产生欺骗性的原因进行分析;针对医疗大数据的欺骗性,从统计学角度阐述如何避免大数据陷阱;从模型角度分析模型被攻击的应对策略以及模型可解释性在医疗领域的重要性和方法。
数据的欺骗性
由于数据在结论展现前需经过取样、清洗、建模、分析以及应用等过程。Dallachiesa等提出通过数据清洗系统来减少“脏数据”,保障数据质量。
Rahm等认为,数据处理工作对提高数据质量至关重要,并且其阐述了数据清洗、处理的方法。即使通过清洗等方法清除部分异常数据,从统计学角度来看,大数据仍具有欺骗性,主要分为选择偏倚、结果的局限性和数据噪声。
典型的几类造成数据偏差的原因包括:
第一,选择误差。如果选择的数据样本分布不均匀即会出现选择误差。例如,在机场做问卷调查,期望对全民健康水平进行评估,则注定是失败的,因为机场人群的分布和全国人群分布不一致,不具有代表性,样本选择具有偏差。
第二,幸存者误差。若有些样本数据无法采集即会出现幸存者误差。例如,为评估某药物对患者的副作用,选取存活患者展开调查,因无法获取药物试验中已故患者的数据,而这些患者可能是发生药物副作用较多的人群。因此这样的采样并不全面,将导致分析结果不正确。
第三,数据真实性存疑。在研究中,参与者因个人利益等原因可能会出现一些欺骗行为,这会降低研究数据的质量。
因此,应尽可能增大研究的数据量,减小错误数据对研究结果的干扰。
华宇智能数据
1.图形化操作界面,全程零编码
采用全导航交互式设计界面,技术门槛低。不管是规则定义还是流程管理都无需编写sql或代码,通过图形化界面进行简单配置即可,使得非技术用户也能对定义过程和定义结果一目了然。
2.一站式轻松搞定质检全过程
亿信数据质量管理平台(EsDataClean)提供从标准定义、质量监控、绩效评估、质量分析、质量报告、重大问题及时告警、流程整改发起、系统管理等数据质量管理全过程的功能。
3.智能推进问题数据整改
智能数据质量检查调度;通过事先定义好的规则、调度时间、工作流程,自动完成数据的质量检查,极大的减少人力的投入和过程干预,提升效率,减少误差。
4.完善丰富的数据质量评估体系
华宇智能数据数据质量管理平台(EsDataClean)包含丰富的质量评价方法,并且易于扩展。
5.全方位的数据体检报告
多维度质量分析报表,辅助用户对问题数据进行质量分析,以便用户进行有针对性的质量改进;
让你的数据清澈如水。
当前,针对医疗大数据的研究和应用越来越广泛,但毋庸置疑,医疗大数据本身具有一定欺骗性,在某些特殊场景下,可能会产生错误的结论和影响。
目前,随着人们对移动互联网技术和物联网技术的运用越发成熟,智慧医院、医疗大数据、互联网+医疗等概念也逐渐被提上建设日程,甚至有的医院已经正在建设和运用了。
直白的来讲,“业务”泛指非技术类所有工作,是企业的销售、产品、营销、市场、运营等工作的笼统称呼,这些都是直面B端/C端用户,“业务”最终的目的是“增加销量,换取利润,降低成本”,并且数据报告里得出分析结论也是提供给业务使用。