神州泰岳AI小讲堂：Ultra-NLP大揭秘

　　今天我们要开启新一单元的课程啦——Ultra-NLP。呐，乍一看很是高深莫测呀，那么Ultra-NLP是什么呢？是在高深的学问下进行深入研究与拓展，还是颠覆与创新？别急，通过泰岳AI小课堂的认真学习，再多的问题都会迎刃而解哒！

　　Ultra-NLP是神州泰岳人工智能研究院研发的集机器学习、统计学习、深度学习以及概念语义理解技术于一体的自然语言处理技术平台。该平台致力于打造一个业界持续领先的、完备的自然语言处理体系，以期快速、有效地解决自然语言处理领域中普遍存在的歧义理解、精准分类、高纯度聚类、精确信息提取、关联信息挖掘等难点、痛点问题。平台实现文本的语义理解和语义量化计算，提供高效的自然语言理解相关分析算法，包括自动分词、实体识别、句法分析、文本分类、聚类、主题分析、歧义理解、自动摘要、关联挖掘等。

　　Ultra-NLP整体能力可分为词语、句子和篇章三个层面：

　　（1）词语层面：使用HMM、CRF等统计学习技术实现精准的自动分词和发现新词的能力。利用概念语义网络模型，能够符号化的表示词汇的语义，自动识别词语的一词多义和多词一义歧义现象，解决让机器掌握词汇的语义，并能正确提取句子中蕴含的关联性：同义、上下位、包含关系等。

　　（2）句子层面：利用语义网络来自动识别句子中各概念间的语义关系，实现句子语义的归一化处理，结合基于依存、n-gram、短语语法等语义理解技术实现的文法分析以及句子结构分析，精确识别句子变形，深层理解句子表达语义。

　　（3）篇章层面：结合机器学习、深度学习以及概念语义网络模型，正确分析篇章中上下文语境特征，实现分类、聚类、关键信息提取以及句群的切分与合并等篇章级分析能力。

　　Ultra-NLP优势

　　语义处理技术具备领先性

　　Ultra-NLP是神州泰岳人工智能研究院多年的科研成果，提供领先业界的中文文本分析处理技术。源于中国传统语言学(训诂学—义)、人工智能、认知学、物理学、信号处理、哲学等跨学科的知识(文字学—形；音韵学—音)，突破计算语言学界源于图灵标准而采用的句法分析和语法分析标准，解决中文并没有所谓主谓宾语法的问题。

　　丰富的行业应用经验

　　Ultra-NLP已经在中国工商银行、中国银行、新华社等行业领先机构得到过广泛应用，上线产品均得到业界一致好评。丰富的行业应用经验有效的保证了产品成熟度。

　　先进的模型设计

　　Ultra-NLP配合基于本体模型实现的DINFO-OEC非结构化数据分析挖掘平台，对于语义分析功能可以提供更好的模型建设和算法配置能力，实现高效便捷的非结构化文本语义分析。

　　提供分布式计算能力

　　Ultra-NLP引入Spark分布式计算框架，实现了算法的分布式计算能力，解决传统算法单机运行的瓶颈，大大提高算法的可用性和效率。

　　复杂模型计算能力

　　Ultra-NLP集成Tensorflow深度学习框架，满足对大规模语料学习与复杂模型计算能力的需求。

　　场景化分析能力

　　Ultra-NLP自主设计组合不同处理类型算法，构建能够直接处理业务场景数据的NLP流程化的场景化算法，提供场景化的分析能力。

　　个性化算法自定制

　　Ultra-NLP提供灵活、易操作的Pipeline算法管道，支持用户结合具体业务场景需求，自主定制个性化的NLP流程，实现个性化的场景化算法。

　　Ultra-NLP平台V1.0主要功能

　　分词标注

提供最大切割、最短路径和CRF新词发现三种分词算法
提供HMM分词模型的训练和替换能力
提供CRF分词模型的替换能力
支持用户自定义分词词典

　　实体识别

提供命名实体识别能力
提供自定义实体识别能力
支持CRF实体模型替换
支持用户自定义实体词典

　　句法分析

提供短语语法分析能力
支持PCFG和factored两种句法模型的训

　　依存文法

提供依存文法分析能力
提供N元文法分析能力
依存文法支持ME模型训练和替换
依存文法支持CRF模型替换

　　特征转换

提供文本特征转换为数值编码的能力

　　特征选择

提供卡方验证的特征选择方法，支持设置TopN特征数量
提供TF-IDF的特征选择方法，支持设置TopN特征数量

　　特征抽取

提供TF-IDF特征抽取方法，支持minDF最小文档频度设置
提供HashTF特征抽取方法，支持minDF最小文档频度设置
提供CountVectorizer特征抽取方法，支持minDF最小文档频度设置

　　分类

提供LinearSVM分类算法能力，支持分类模型的训练、保存和加载
提供朴素贝叶斯分类算法能力，支持分类模型的训练、保存和加载
提供随机森林分类算法能力，支持分类模型的训练、保存和加载
提供逻辑回归分类算法能力，支持分类模型的训练、保存和加载

　　场景化分类算法

　　设计组合场景化的分类流程，优化流程内部各算法参数，提供效果较好的Pipeline类型的场景化分类算法（分类流程：分词->向量转换->特征选择->权重计算->分类器）

提供LinearSVM分类Pipeline能力，开放测试准确率93%，支持分类Pipeline模型的训练、保存和加载
提供朴素贝叶斯分类Pipeline能力，开放测试准确率90%，支持分类Pipeline模型的训练、保存和加载
提供随机森林分类Pipeline能力，开放测试准确率87%，支持分类Pipeline模型的训练、保存和加载
提供逻辑回归分类Pipeline能力，开放测试准确率92%，支持分类Pipeline模型的训练、保存和加载
支持接收参数集合，调整Pipeline中任意步骤可调的参数

　　文本相似计算

提供余弦相似计算方法
提供海明距离计算方法

　　关联计算

提供基于word2vec的关联词汇推荐能力

　　验证方法

提供数据拆分的方法
提供封闭验证的方法
提供交叉验证的方法
提供网格寻优的方法

　　Pipeline基类

提供装载transformer和estimator的能力，如分词器、特征选择、分类器等
支持添加、删除、替换transformer或estimator
支持接收参数集调整其中任意transformer或estimator可调参数值

评论排行

推荐阅读

专题

大家都在看