首页 > 新闻 > 国内 >

医疗大数据专家:浅谈医学大数据

2015-03-26 10:06:29   作者:   来源:36氪   评论:0  点击:


  A组数据和B组数据,在拥有海量的数据样本的情况下,相差已是十万八千里了。图十显示了偏差随样本量增加的变化情况。在样本数量为4236左右,偏差的增加还不明显。一过4236,偏差则出现了惊人的增长。

  图十

  所以依此为判断的话,我们可以说在数据样本量4000左右,A组和B组比较,差别可能不大。但数据样本量大于4000以后,A组和B组比较,可能就会相当不一样了。这个例子充分说明了大数据相比较小数据而言对数据偏差更容易进行识别,从而发现数据收集过程中的问题并加以改善。

  虚假相关(spurious correlation)

  虚假相关,我们用一个例子来加以解释说明。这儿还是以前面提到过的心血管数据为例。现在只收集了200个记录,但每条记录都有100个各方各面因素的信息。这样,我们想看是否这100个因素和“是否有心血管病”相关。如此,我们进行两两检验测试: 是否有心血管病和因素一进行检验,是否有心血管病和因素二进行检验……是否有心血管病和因素一百进行检验。

  每一个检验测试结果只会出现两种情况: 统计学上有意义和统计学上无意义。

  统计学上有意义,简单来说就是认为心血管病和该因素有关。统计学上无意义就是认为心血管病和该因素无关。 在此过程中,你可能发现,大约会有5次在统计学上被认为与心血管病相关的因素,实际上从常识和现实来判断是没有任何关联的,也就是说统计学上有意义是错误的。这就是虚假相关。

  为了让我们能知其然也知其所以然,这儿要解释一下“统计学上有意义”究竟是怎么界定的 。一般做检验测试时,我们会界定一个值,叫做第一类统计错误率。这个错误率通常被设定为5%,也就是说每100次检验测试,我们允许有5次在统计学上实际无意义的被错误判断为统计学上有意义(如果不允许统计错误率的存在,那就是100%的正确率,也就是说没有不确定性的存在。如果有这样的数据,就不需要做任何统计上的假设检验了)。

  也就是说,如果实际不存在相关性,我们允许100次假设检验中出现5次错误相关。这就是以上例子中出现虚假相关的原因。 在面对庞大的海量数据和超多维度的因素时,当同时对一个数据进行许多检验测试时,不可避免会出现虚假相关。如何处理这个问题,统计学上还在做着进一步的研究。

  无意义显著性(meaningless significance)

  还有一种情况我们称为无意义的显着性 (Lin, Lucas, & Shmueli, 2013)。当我们做两组数据的分析比较时,如果A组,B组各只有1000个数据记录,我们测试两组数据的平均值是否一样,结果告诉我们统计学上无意义。也就是说,这两组数据的平均值无统计学上的差异。但当数据记录达到上万上百万时,测试的结果告诉我们统计学上是有意义的了。

  这又是怎么回事?我们回到源头上去看,为什么要做两组数据的统计分析比较?不可以就算出两组的平均值,比一比他们是否相同吗?当然不可以,因为我们真正希望分析比较的结果是能够反映100%总体数量数据的客观现象。单纯孤立的比较两组各1000个记录的平均值,就是比大小,比出来的结论不能推广到100%总体数量数据的客观现象上。

  但这两组数据等同于100%总体数量数据吗? 当然不是,就算是海量的大数据也并不能100%等同于总体数量数据。这样我们分析总结出的这两组数据的一些统计指标就会和总体数量数据的统计指标有一定的偏差。这个偏差一般有一个下限和上限,我们称为置信区间。真实的总体数量数据的统计指标就落在样本数据统计指标的左边或右边的一定范围内(置信区间)。

  好了,我们实际要看的是A组总体数量数据和B组总体数量数据在平均值上是否一样,换种说法就是A组总体数量数据平均值减B组总体数量数据平均值是否等于零。现在我们只有A组样本数量数据平均值和B组样本数量数据平均值,表达符号就是和。要看的就是A组样本数量数据平均值减B组样本数量数据平均值的差值是否等于0: 但我们已经知道由于样本均分差的存在,样本平均值相减的差值不一定是零,而且这个差值有一定的置信区间。

  那么我们实际上更精确的说是看0是否落在样本差值的置信区间内(置信区间的上限和下限和上面提到的第一统计错误率是相一致的,有一个5%的概念在里面,这儿就不详细介绍了。反正是否落在置信区间里否也可以用来判断统计学上是有意义还是没有意义)。落在里面我们就说是统计学上是没有意义的也就是两组数据的平均值是一样。不落在里面我们就说是统计学上是有意义的也就是两组数据的平均值不一样。如图十一所示:

  图十一

  那为什么在样本数据量为1000和上万上百万的情况下结果会不一样。这儿我们进一步要讲的就是样本数量和置信区间之间的关系了。随着样本数量的增加,样本差值会和真实的总体数据差值接近(不一定就是0哦),同时不确定性会减小,置信区间会缩短,其实就是估计的差值越来越精准了。这种情况下,就算样本差值是非常接近0的一个数(就是说我们都觉得两组数据的平均值是一样的了),但是由于置信区间的缩小,0仍旧会落在置信区间的外面(如图十一,下部分2所示)。

  这样一来,结果就会是统计学上是有意义的:两组数据的平均值是不一样的。现有的统计方法运用在大数据时会带来这样的一种错误信息。这是因为现有的传统统计方法是针对小数据的,在被提出的时候,还没有面对过或想到数据量可以如此庞大。如何解决如何改进由于这样的数据特性带来的问题,我们还在研究的路上。

  羊群效应(herding effect)

  大数据时代,我们的社会已经在越来越多的把个人的观点数字化,汇总化,并依赖于此做出决策(比如根据收集到的评分来进行产品或服务的推荐)。这一现象在医疗界也渐渐的变的普遍起来。好多辅助医疗应用软件在移动平台上都会有使用者的评分,人们会根据评分来选择是否使用一下。某些医疗网络平台推出的服务,比如网络问诊,使用者也可以对提供服务的医疗人员进行满意度的评分,进而影响他人决定是否选择此医疗人员来进行问诊咨询。

  利用这种“众人的智慧”的一个关键要求是个人意见的独立性。然而,在现实的世界中,汇总收集的集体意见却很少是由互不相干的独立的个体意见所组成的。最近的实验研究证明先前已经存在的收集到的意见会歪曲随后个人的决策还有对质量及价值的认知。凸显出了一个根本的差异既: 我们从集体意见感知到的价值和产品本身固有的价值之间的差异。

  产生这种差异的原因在于“羊群效应” 。羊群效应简单的描述就是个体的从众跟风心理和行为。羊群是一种很散乱的组织,平时在一起也是盲目地左冲右撞,但一旦有一只头羊动起来,其他的羊也会不假思索地一哄而上,全然不顾前 面可能有狼或者不远处有更好的草。因此,“羊群效应”就是比喻一种从众效应,很容易导致盲从,而盲从往往会陷入认知偏差,决策偏差。

  IBM Watson 研究中心 (Wang & Wang, 2014) 使用大规模纵向的客户评分数据集(亚马逊的)并建立统计模型演示了评分和意见的产生不是独立,均匀的过程,而是创建了一个环境进而影响以后评分或意见的产生。体现在这种社会化的客户评分系统中的“羊群效应”具体表现为:高评分倾向于产生新的高评分同时抑制低评分的产生。

  接下来的问题就是:什么是真实的符合产品真正质量的评分如果我们能把“羊群效应”给剔除出去的话? 应用 IBM Watson 研究中心建立的统计模型能够部分回答这个问题。他们对亚马逊的四类产品数据(书籍,电子产品,电影电视,和音乐)进行了内在评分(剔出“羊群效应”)和外在(没有剔出“羊群效应”)测试。所有四个类别,50%以上的产品评分的差异大于0.5。这个差异,说明我们从集体评分中得来的感知和产品的真实价值之间存在着显着的差异。

  再深一步,鉴于产品现在的评分,如果我们施加一定的人为操纵,“羊群效应”会如何影响今后的评分?这样的预测分析对于很多领域都是相当有价值的,包括市场盈利估计,预算广告和欺诈操纵检测等。例如,在决定是否对以产品进行促销活动之前,市场分析师可能希望估计由于推广而出现的短期高评分对产品的长期影响。

  研究中心通过对两类产品(电影电视,和音乐)插入50个人为5星级的评分,预测到虽然这两种产品在受欢迎程度上遇到类似的短期高评分,从长远来看,推广对于电影及电视类产品有着更持久的影响(高评分消减的更慢)。这对于市场分析的决策提供了很有价值的情报。

  此类大数据中的“羊群效应”可以通过适当的统计方法加以消除,利用,以产生更有价值的信息用于决策分析中。

  以上的各个例子充分说明了在大数据时代,虽然数据库等操作建立需要专业计算机人才的贡献,统计专业人员的参与也是必不可少的。数据的管理分析并不仅仅是提取,检索,简单汇总,总结。数据本身的复杂性,使得分析的过程中充满了种种陷阱,误区。没有一定统计方面的理论知识结构,就会出现分析上的偏差,或者低效率的数据利用。在计算机算法的基础上去学习认识数据统计的性质,把算法和统计分析结合起来是未来大数据分析的一个主要方向。

  结论和展望

  本文浮光掠影地讲述了什么是大数据,有选择性地描述了大数据的一些特性,医疗大数据及其在北美医疗系统中的现况,揭示了大数据分析将会对医疗卫生保健领域带来巨大的影响和冲击。 大数据通过对临床及其他数据存储库进行数据管理和分析获得前所未有的洞察力并依此做出更明智的决策。

  在不久的将来,大数据分析的应用将会快速,广泛的涌现在整个医疗保健机构和医疗保健行业。本文描述的数据管理框架,数据统计分析揭示了大数据的有效应用是一个系统性的工程,需要一系列专业技能来保证大数据分析的成功,包括:处理,整合,分析复杂的数据并能帮助客户充分了解数据分析的结果。要做到这些 需要多方面的专业技能及特质,包括:

  • 计算机科学/数据开发的专业技能:扎实的计算机科学基础及运用能力,明了大数据的基础框架设施。
  • 分析和建模能力:在了解数据的基础上迅速分析并建立有效的统计模型。这不仅需要扎实的统计学,还需要有敏锐的思考和洞察力。
  • 好奇心和创意的思考能力:这需要对数据有着一种渴望激情,善于全面敏锐的思考并挖掘问题。一些机构寻找人才就是看谁能在讨论数据时能够灵光一现。
  • 突出的交流能力:整合数据和结果的分析报告,能清晰明了的用非专业语言帮助客户或公众正确理解数据分析结果并做出决定。

  当然,我们很难找到一个人才具有以上所有技能,但通过团队分工合作建立起高效的大数据小组是目前可行的方向。从而, 在这个大数据分析变得更加主流的时代,把握时机,脱颖而出或百尺竿头,更进一步。

  关于作者

  本文作者陈遵秋,美国俄勒冈州,健康科技大学,公共卫生预防系,美国统计协会认证统计分析师;陈漪伊,美国俄勒冈州,健康科技大学,公共卫生预防系,生物统计助理教授(交流微信号:2823095726)。

  陈遵秋和陈漪伊夫妇是美籍华人,现在美国定居。其二人是目前研究医疗大数据及生物样本大数据真正的专家。现将两位的文章进行公开发表,与大家一起探讨。

分享到: 收藏

专题