您当前的位置是:  首页 > 新闻 > 国内 >
 首页 > 新闻 > 国内 >

神州泰岳AI小讲堂:Ultra-NLP大揭秘

2017-11-20 15:33:19   作者:   来源:CTI论坛   评论:0  点击:


  今天我们要开启新一单元的课程啦——Ultra-NLP。呐,乍一看很是高深莫测呀,那么Ultra-NLP是什么呢?是在高深的学问下进行深入研究与拓展,还是颠覆与创新?别急,通过泰岳AI小课堂的认真学习,再多的问题都会迎刃而解哒!
  Ultra-NLP是神州泰岳人工智能研究院研发的集机器学习、统计学习、深度学习以及概念语义理解技术于一体的自然语言处理技术平台。该平台致力于打造一个业界持续领先的、完备的自然语言处理体系,以期快速、有效地解决自然语言处理领域中普遍存在的歧义理解、精准分类、高纯度聚类、精确信息提取、关联信息挖掘等难点、痛点问题。平台实现文本的语义理解和语义量化计算,提供高效的自然语言理解相关分析算法,包括自动分词、实体识别、句法分析、文本分类、聚类、主题分析、歧义理解、自动摘要、关联挖掘等。
  Ultra-NLP整体能力可分为词语、句子和篇章三个层面:
  (1)词语层面:使用HMM、CRF等统计学习技术实现精准的自动分词和发现新词的能力。利用概念语义网络模型,能够符号化的表示词汇的语义,自动识别词语的一词多义和多词一义歧义现象,解决让机器掌握词汇的语义,并能正确提取句子中蕴含的关联性:同义、上下位、包含关系等。
  (2)句子层面:利用语义网络来自动识别句子中各概念间的语义关系,实现句子语义的归一化处理,结合基于依存、n-gram、短语语法等语义理解技术实现的文法分析以及句子结构分析,精确识别句子变形,深层理解句子表达语义。
  (3)篇章层面:结合机器学习、深度学习以及概念语义网络模型,正确分析篇章中上下文语境特征,实现分类、聚类、关键信息提取以及句群的切分与合并等篇章级分析能力。
  Ultra-NLP优势
  语义处理技术具备领先性
  Ultra-NLP是神州泰岳人工智能研究院多年的科研成果,提供领先业界的中文文本分析处理技术。源于中国传统语言学(训诂学—义)、人工智能、认知学、物理学、信号处理、哲学等跨学科的知识(文字学—形;音韵学—音),突破计算语言学界源于图灵标准而采用的句法分析和语法分析标准,解决中文并没有所谓主谓宾语法的问题。
  丰富的行业应用经验
  Ultra-NLP已经在中国工商银行、中国银行、新华社等行业领先机构得到过广泛应用,上线产品均得到业界一致好评。丰富的行业应用经验有效的保证了产品成熟度。
  先进的模型设计
  Ultra-NLP配合基于本体模型实现的DINFO-OEC非结构化数据分析挖掘平台,对于语义分析功能可以提供更好的模型建设和算法配置能力,实现高效便捷的非结构化文本语义分析。
  提供分布式计算能力
  Ultra-NLP引入Spark分布式计算框架,实现了算法的分布式计算能力,解决传统算法单机运行的瓶颈,大大提高算法的可用性和效率。
  复杂模型计算能力
  Ultra-NLP集成Tensorflow深度学习框架,满足对大规模语料学习与复杂模型计算能力的需求。
  场景化分析能力
  Ultra-NLP自主设计组合不同处理类型算法,构建能够直接处理业务场景数据的NLP流程化的场景化算法,提供场景化的分析能力。
  个性化算法自定制
  Ultra-NLP提供灵活、易操作的Pipeline算法管道,支持用户结合具体业务场景需求,自主定制个性化的NLP流程,实现个性化的场景化算法。
  Ultra-NLP平台V1.0主要功能
  分词标注
  • 提供最大切割、最短路径和CRF新词发现三种分词算法
  • 提供HMM分词模型的训练和替换能力
  • 提供CRF分词模型的替换能力
  • 支持用户自定义分词词典
  实体识别
  • 提供命名实体识别能力
  • 提供自定义实体识别能力
  • 支持CRF实体模型替换
  • 支持用户自定义实体词典
  句法分析
  • 提供短语语法分析能力
  • 支持PCFG和factored两种句法模型的训
  依存文法
  • 提供依存文法分析能力
  • 提供N元文法分析能力
  • 依存文法支持ME模型训练和替换
  • 依存文法支持CRF模型替换
  特征转换
  • 提供文本特征转换为数值编码的能力
  特征选择
  • 提供卡方验证的特征选择方法,支持设置TopN特征数量
  • 提供TF-IDF的特征选择方法,支持设置TopN特征数量
  特征抽取
  • 提供TF-IDF特征抽取方法,支持minDF最小文档频度设置
  • 提供HashTF特征抽取方法,支持minDF最小文档频度设置
  • 提供CountVectorizer特征抽取方法,支持minDF最小文档频度设置
  分类
  • 提供LinearSVM分类算法能力,支持分类模型的训练、保存和加载
  • 提供朴素贝叶斯分类算法能力,支持分类模型的训练、保存和加载
  • 提供随机森林分类算法能力,支持分类模型的训练、保存和加载
  • 提供逻辑回归分类算法能力,支持分类模型的训练、保存和加载
  场景化分类算法
  设计组合场景化的分类流程,优化流程内部各算法参数,提供效果较好的Pipeline类型的场景化分类算法(分类流程:分词->向量转换->特征选择->权重计算->分类器)
  • 提供LinearSVM分类Pipeline能力,开放测试准确率93%,支持分类Pipeline模型的训练、保存和加载
  • 提供朴素贝叶斯分类Pipeline能力,开放测试准确率90%,支持分类Pipeline模型的训练、保存和加载
  • 提供随机森林分类Pipeline能力,开放测试准确率87%,支持分类Pipeline模型的训练、保存和加载
  • 提供逻辑回归分类Pipeline能力,开放测试准确率92%,支持分类Pipeline模型的训练、保存和加载
  • 支持接收参数集合,调整Pipeline中任意步骤可调的参数
  文本相似计算
  • 提供余弦相似计算方法
  • 提供海明距离计算方法
  关联计算
  • 提供基于word2vec的关联词汇推荐能力
  验证方法
  • 提供数据拆分的方法
  • 提供封闭验证的方法
  • 提供交叉验证的方法
  • 提供网格寻优的方法
  Pipeline基类
  • 提供装载transformer和estimator的能力,如分词器、特征选择、分类器等
  • 支持添加、删除、替换transformer或estimator
  • 支持接收参数集调整其中任意transformer或estimator可调参数值
【免责声明】本文仅代表作者本人观点,与CTI论坛无关。CTI论坛对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。

专题