首页 > 新闻 > 国内 >

医疗大数据专家:浅谈医学大数据

2015-03-26 10:06:29   作者:   来源:36氪   评论:0  点击:


  图二

  由此可见有效的数据管理,数据库建立及数据分析流程的重要性。传统的数据管理的过程包括抽取(Extraction),转换(Transformation)和载入(load)。通过 ETL,可以赋予数据一种合适恰当的结构用于特定的分析发现。具体数据准备分析流程如图三所示:1)抽取单个或多个来源的数据 。2)净化,格式化,标准化,聚合,添加,或遵循其他特定的数据处理规则。3)载入处理完的数据到特定的数据库或储存为特定的文件格式。4)采用各种方法进行数据分析。

  图三

  ETL 的中心内容仍旧适用于大数据,但由于大数据的大量性和多样性对数据库和数据管理及处理方法的要求越来越高,也越来越复杂,这样线性处理整个数据变得相当耗费人力,物力,和时间。

  此外,大数据的快速性,易变性也使得把数据储存在单一的中央数据库变的不太可行。 在这种情况下,最流行的思路是把数据分割处理,也就是把数据储存到多个储存节点(比如网络数据库),在每个节点单独处理数据(甚至处理完就接着进行初步分析, 但处理的程度依客户具体问题而调整),然后再汇总整合到一起,提供给单个或多个数据库,接着根据需要选择合适的分析方法获取有用结果。ETL 贯穿于整个大数据管理分析的流程中。图四演示了大致的大数据管理分析流程及一些大数据处理分析平台工具的名字。

  图四

  SAS的数据仓库研究院(TDWI)针对现今存在的大数据处理分析平台工具进行了一项调查以帮助人们在选择软硬件进行大数据分析时能做出更好的决策。针对大数据技术,特点,和使用者操作,调查提供了三个选择:1)现在使用中,并且会继续使用。2)会在三年中开始使用。3)没有计划使用。图五左侧显示了对于各种大数据分析平台工具,被调查人员的回复比例。图五的右侧显示了平台工具可能的潜在成长和对采用此工具做出承诺的被调查人员比例。

  图五

  根据潜在成长和承诺的综合考量,此调查还进一步把大数据分析平台, 工具分成4组:第一组为适度的承诺,中度到强的成长潜力;第二组为中度至强有力的承诺,适度增长潜力;第三组为弱到中度的承诺,适度增长潜力;第四组为中度至强有力的承诺,弱增长潜力。图六显示了这些组别的内容分布。限于篇幅,本文不详细介绍所列的每一平台工具的具体内容,感兴趣的读者可以参考文献获取更详细的介绍。

分享到: 收藏

专题