首页 > 新闻 > 专家观点 >

数据挖掘与隐私保护

2015-03-13 14:24:44   作者:吴伟   来源:工业和信息化部电信研究院   评论:0  点击:


  大数据领域的计算能力突飞猛进,要做到“大海捞针”不仅是可能的,而且已经成为现实。大数据技术使得数据科学家能够聚集海量数据,并且能够从中识别出异常点与数据模式。在这种发现的模型中,为了找到针,你得先有个大海;为了获得准确的洞见,你所需要的信息量得足够大。

  例如,麻省理工学院Broad研究所的基因科学家发现,海量的基因数据在识别遗传变异对疾病的影响中有着至关重要的作用。当样本的数据量“达到某个拐点时,一切都变了”, 统计学上的意义便突然显示出来。但是,对于更多数据的获取,尤其是像基因数据等私人敏感的数据,由于各种原因,对于这些研究者来已经成为一个巨大的挑战或者负担,其中一个主要的原因就是美国的隐私法律限制了他们对数据的访问。另一位医疗行业的科学家指出,当你的数据很有可能帮助医疗人员在更短的时间内做出更加精确的诊断,并且很可能在关键的时候能够救人一命。

  知识挖掘、机器学习、人工智能等技术的研究和应用使得大数据分析的力量越来越强大,同时也为对个人隐私的保护带来了更加严峻的挑战。当数据起初是与某个具体的人或者设备相关联时,一些隐私保护技术可以设法去除数据与个人身份之间的连接;同时,另外一些的技术在努力地把这些断开的连接复原。当知道一个人所关联的一些信息,就可以从不包括其个人识别信息的数据中推断出这个人的身份标识。

  一些大的互联网公司能够将大量的小数据结合在一起,从而构造出某个人清晰的行为图谱,进而预测他们的偏好与行为。这些数据在消费者市场上非常有价值,它能够精确地向确定的一些人主动推送某些产品或者服务。不幸的是,这种“完美的个性化”也会在价格、服务与机会方面造成微妙的或是不明显的歧视,有可能对个人造成真实的伤害。

  万维网的发明者Tim Berners-Lee教授认为,斯诺登事件之后,人们对互联网的隐私保护问题越来越关注,由于政府和一些大公司的对在线活动的控制,使得互联网的开放性和独立性受到了严重的威胁。他呼吁制定一个权利法案,以保护互联网的独立性,并确保用户隐私不受侵犯。

  由此可见,数据挖掘和隐私保护之间的技术博弈已经成为常态;仅靠技术手段保护用户隐私,是远远不够的;未来,隐私保护或许会变得十分昂贵。

  作者简介:

  吴伟,工业和信息化部电信研究院信息通信安全研究所高级工程师,工信部科技委互联网应用专题组成员,麻省理工学院计算机与人工智能实验室(CSAIL)访问学者,万维网联盟(W3C)研究员,麻省理工学院宇宙村(UV)研究项目顾问以及UV年会组委会成员,麻省理工学院中国创新创业论坛(MIT-CHIEF)顾问以及2014年创新大赛评委。主要从事移动网络、业务应用、物联网、信息安全领域的技术和标准研究,以及相关领域技术试验和测试、行业咨询和技术管理等方面的工作。曾长期担任中国通信标准化协会移动业务应用以及移动互联网应用平台工作组组长,负责国内通信行业标准中移动业务应用以及移动互联网领域行业标准制定和组织协调工作,牵头完成相关的行业标准以及研究报告40多项。多次获得部、院、所级科技进步奖,在各类学术期刊上发表文章三十余篇。

分享到: 收藏

专题