技术提取智慧：文本挖掘的三大应用

　　随着各种机构收集的非结构化数据不断增加，文本挖掘的价值定位和流行度也处于上升阶段。越来越多的机构意识到利用文本挖掘从他们的文本资源库中提取知识的重要性。

　　以下将展示文本挖掘模范式的应用类别中的一小部分。

　　市场营销应用

　　通过分析客服中心提供的非结构化数据，文本挖掘可以提高交叉销售和向上销售的业绩。由客服中心接线人员所做的记录整理而成的文本，以及转录的与顾客的对话可以被文本挖掘算法用来提取新颖、可操作的信息，旨在了解消费者对公司产品及服务的看法。此外，博客、产品评价以及网上讨论板块的帖子则是了解顾客情感的金矿。这些丰富的信息资源只要加以恰当的分析就能够被用于提高顾客满意度，延长顾客的整体忠诚度。

　　文本挖掘同时已经成为消费者关系管理不可或缺的工具。公司用文本挖掘分析丰富的非结构化数据，再联合企业数据库中相关的结构化数据，就可以预测消费者的观念以及后续的购买行为。举例来说，文本挖掘可以有效地提高数学模型的效用，以预测顾客流失率。这样，就能够对那些被列入最有可能流失的顾客及时使用“挽留技巧”来保留。

　　将产品看作一系列属性值对而不是原子实体，可以潜移默化地提高多种商业应用的有效性，例如，需求预测、分类优化、产品推荐、零售商与生产商间的分类比较，还有产品供应商选取。伽尼(Ghani)使用文本挖掘技术开发了一个系统来推测产品的显性和隐性属性，以加强零售商分析产品数据库的能力。系统以各种属性的形式展现产品，不需要多少人力就能够根据不同属性分配价值。系统通过将监控的和半监控的学习技术应用到零售商网站的产品描述上，以了解这些属性。

　　安保应用

　　文本挖掘在安保领域最广泛、最著名的应用要算是高机密的美国ECHELON监控系统了。传闻ECHELON能够识别电话、传真、邮件和其他各类形式数据的内容，拦截通过卫星、公共交换电话网和其他微波传送的信息。

　　2007年，欧洲刑警组织开发了一款综合系统以获取、储存、分析数量庞大的结构化和非结构化的数据源，追踪跨境的有组织犯罪。该系统被命名为“情报支持综合分析系统”，旨在整合当今市场上最先进的数据和文本挖掘技术。系统在跨境执法方面大大提高了欧洲刑警组织的效率。

　　在美国国家安全局的指导下，联邦调查局和中央情报局正联手开发超级计算机数据与文本挖掘系统。该系统旨在构建一个巨型数据仓库以及一批种类多样的数据和文本挖掘模块，并以此为联邦、各州和地方执法机构的知识发现提供支持。在这之前，联邦调查局和中央情报局也拥有各自独立的数据库，但是这些数据库之间基本没有什么关联。

　　另一个与安保有关的文本挖掘应用实例就是测谎。夫勒(Fuller)将文本挖掘与罪犯(或嫌疑犯)的真实供述相关联，研发出预测模型以区分谎言和实话。模型利用从文本陈述中提取的丰富线索预测不合作样本，准确率高达70%。考虑到线索仅仅来自于文本陈述，没有口头和视觉线索，这样的准确率算得上是有着重大意义的成功。此外，与测谎仪等其他测谎技术相比，这种方法避免了过多的中介物干扰，并且不仅可以用于文本，还可以用于语音录音脚本的可能性。

　　生物医学应用

　　文本挖掘在众多医学领域和某些生物医学领域有着巨大的应用前景。第一，该领域的出版发行文献和出版专营店(特别是随着“开源期刊的出现”)正以指数爆炸的速度增长；第二，与其他形式的文献相比，医学文献更加标准化，有秩序，更便于挖掘；最后，医学文献的术语相对统一固定，本体相当地标准化。一些教科书式的经典范例已经成功地利用文本挖掘技术从生物医学文献中提取了新型模式。

　　实验性技术，比如基因芯片技术分析、基因表达序列分析和质谱蛋白质组学的研究产生了大量与基因、蛋白质相关的数据。正如其他实验性方式，一般来说，在先前已知的生物实体信息情景下分析这些数据是必不可少的。文献资料在验证实验有效性和阐释实验方面意义重大。因此，研发自动文本挖掘工具以协助这类阐释是当今生物信息学研究所面临的主要挑战之一。

　　清楚细胞中蛋白质的位置有助于阐明蛋白质在生物作用中的角色，并确定它能否作为药物标靶。文献中包含了不计其数的定位预测系统，一些关注具体的生物，另一些则试图分析更大范围内的生物。沙特凯(shatkay)等人在2007年提出的一个综合系统能够利用几种基于序列和文本的特征来预测蛋白质的位置。该系统的创新点在于它选取文本来源和特征的方式，并能够将这些数据与基于序列的特征整合起来。沙特凯等人在先前的数据组和新的数据组上都测试了系统的预测能力，结果显示，新系统的效果远远地超过了原有系统。

　　春(chun)描述了一种能够通过美国医学索引从文献中提取致病基因关系的系统。他们在六个公共数据库的基础上建立了疾病与基因字典，用字典匹配提取候选的关系项。由于字典匹配会产生大量的假阳性结果，春等人又研发了基于机器学习的命名实体识别，以筛选出错误的疾病或基因名称。他们发现这种关系提取的成功与否主要取决于命名实体识别在筛选上的表现，筛选能够提高26.7%的提取准确性，而花费的代价仅仅是查全率上的微小滑坡。

　　对于掌握大型信息数据库的出版商们来说，文本挖掘可以用来产生索引以更好地进行信息检索。在科学性学科中，由于具体信息常包含在书面文本中，这点尤为突出。如《自然》杂志提倡的“开放式文本挖掘接口”和美国国家卫生研究院的“期刊出版文档类型定义”这样的新项目已经开始实施，预期能够为机器提供语义线索，以回答文本中的具体问询而不消除公共通道的出版商壁垒。

　　学术型机构也加入到了文本挖掘计划的行列中。英国曼彻斯特大学和利物浦大学联合成立了文本挖掘国家中心，为学术社区提供定制的文本挖掘工具，研究设备和文本挖掘专业意见。起初，文本挖掘的重点被放在了生物和生物医学上，但逐渐扩大到了社会科学。美国加州伯克利大学的信息学院正在开发一款名为Biotext的软件，以在文本挖掘和分析方面协助生物科学研究者。

评论排行

推荐阅读

专题