首页 > 新闻 > 国内 >

医疗大数据专家:浅谈医学大数据

2015-03-26 10:06:29   作者:   来源:36氪   评论:0  点击:


  医疗大数据的优势和应用场景

  有效的整合和利用数字化的医疗大数据对个体医生,康宝中心,大型医院,和医疗研究机构都有着显着的好处。

  潜在的利益包括 (W.Raghupathi & Raghupathi, 2014):

  1)更多更准确的数据使得疾病能在早期被监测到,从而使治疗更容易和有效。
  2)通过对特定个体或人群的健康管理,快速有效地监测保健诈骗。
  3)基于大量的历史数据,预测和估计特定疾病或人群的某些未来趋势,比如:预测特定病人的住院时间,哪些病人会选择非急需性手术, 哪些病人不会从手术治疗中受益,哪些病人会更容易出现并发症,等等。麦肯锡估计,单单就美国而言,医疗大数据的利用可以为医疗开支节省出3千亿美元一年。

  医疗大数据的利用可以从以下几方面减少浪费和提高效率 (Manyika, 以及其他人, 2011):

  临床操作: 相对更有效的医学研究,发展出临床相关性更强和成本效益更高的方法用来诊断和治疗病人。

  研究和发展:在药品和医疗器械方面,建立更低磨损度,更精简,更快速,更有针对性的研发产品线。统计工具和算法方面,提高临床试验设计和患者的招募,使得治疗方法可以更好地匹配个体患者的病症,从而降低临床试验失败的可能和加快新的治疗方法推向市场。分析临床试验和病人的病历,以确定后续的迹象,并在产品进入市场前发现病人对药物医疗方法的不良反应。

  公共卫生:分析疾病模式和追踪疾病暴发及传播方式途径,提高公共卫生监测和反应速度。更快更准确地研制靶向疫苗,例如:开发每年的流感疫苗。

  此外,医疗大数据的分析还有利于以下几方面的发展 (W.Raghupathi & Raghupathi, 2014):

  循证医学:结合和分析各种结构化和非结构化数据,电子病历,财务和运营数据,临床资料和基因组数据用以寻找与病症信息相匹配的治疗,预测疾病的高危患者或提供更多高效的医疗服务。

  基因组分析:更有效和低成本的执行基因测序,使基因组分析成为正规医疗保健决策的必要信息并纳入病人病历记录。

  提前裁定欺诈分析:快速分析大量的索赔请求,降低欺诈成功率,减少浪费和滥用。

  设备/远程监控:从住院和家庭医疗装置采集和分析实时大容量的快速移动数据,用于安全监控和不良反应的预测。

  病人的个人资料分析:全面分析病人个人信息(例如,分割和预测模型)从中找到能从特定健保措施中获益的个人。例如,某些疾病的高危患者(如糖尿病)可以从预防措施中受益。这些人如果拥有足够的时间提前有针对性的预防病情,那么大多数的危害可以降到最低程度,甚至可以完全消除。

  然而,根据一份针对美国和加拿大333家医疗机构及10家其他机构的调查(IHTT, 2013),2013年,医疗机构累积的数据量比2011年多出了85%, 但77%的医疗健康行政人员对自己机构在数据管理方面的能力评价为“C”。此外,仅有34%报告他们能从电子健康记录(EHR)中获取数据用来帮助病人,而有 43% 报告他们不能收集到足够多的数据来帮助病人。由此可见,在北美的医疗系统中,医疗大数据的管理使用准备工作还有一大段路要走。中国也是处在起步阶段。

  数据分析框架(传统数据分析框架,大数据分析框架)

  医疗大数据有着前面第一节提到的所有特征。在医疗大数据带来各种优势的同时,大数据随之带来的各种特性使得传统的数据处理和数据分析方法及软件捉襟见肘,问题多多。在大数据时代出现之前,受限于数据量的可获得性和计算能力的有限性,传统的数据管理和分析采用着不同的思路和流程。传统上,对于问题的研究建立在假设的基础上进行验证,进而研究事物的相关因果性,希望能回答“为什么”。

  而在大数据时代,海量数据的涌现提供了从不同角度更细致更全面观察研究数据的可能,从而打开了人们的好奇心,探索欲望,人们想知道到数据告诉了我什么,而不仅仅是我的猜想是否被数据验证了。人们越来越多地用大数据挖掘各种感兴趣的关联,非关联等相关性,然后再进一步比较,分析,归纳,研究(“为什么”变成一个选项而不是唯一终极目标)。大数据与传统数据思路上的不同导致了分析流程的不同,如图一所示:

  图一

  面对海量的数据和不同的分析思路,大数据的管理和分析与传统数据分析的差异日益加大。回答特定问题的单一预设结构化数据库明显不能完全胜任处理大数据的海量及混杂等问题。数据的混杂多样性具体可以从一些调查数据中表现出来。SAS 的一份调查报告显示机构内的非结构化数据最多可以占到总数据量的85%,而这些非数字,非结构化的数据却必须被量化分析和用到决策分析中(Troester, 2012)。

  另一份2013年进行的 SAS 调查报告显示在461个提供完整反馈信息的机构中只有26%的机构表示他们所拥有的大数据是结构化的(Russom, 2013)。 此外,在机构中,分析的数据一般不会只有一个单一的来源。Alteryx 的调查报告显示在200家被调查的机构中只有6%的机构表示他们的数据是只有一个来源,最为普遍的情况是5-10个来源, 具体分布如图二(Alteryx, 2014)。

  调查中还显示 90%的被调查样本表示有数据整合问题,37%表示需要等其他小组提供数据,30%表示不能得到他们想要的数据,一般估计是一个数据分析师的60%到80%的时间是花在数据处理准备阶段上的(Alteryx, 2014)。

分享到: 收藏

专题