您当前的位置是:  首页 > 资讯 > 国内 >
 首页 > 资讯 > 国内 >

思必驰在中文文本相似度计算任务上的探索与进展

2020-12-17 10:43:50   作者:   来源:CTI论坛   评论:0  点击:


  文本相似度计算旨在识别两段文本在语义上是否相似,是自然语言处理领域的一个重要研究方向,其在智能问答、信息检索等领域都发挥重要作用,具有很高的商业价值。
  近期,思必驰知识服务团队在中文文本相似度计算方向投入研究,并取得阶段性成果:
  1)在第十四届全国知识图谱与语义计算大会(CCKS: China Conference on Knowledge Graph and Semantic Computing)[1]上发表相关论文一篇《Neural Fusion Model for Chinese Semantic Matching》。
  该会议是国内知识图谱、语义技术、链接数据等领域的核心学术会议,聚集了知识表示、自然语言理解、知识获取、智能问答、链接数据、图数据库、图计算、自动推理等相关技术领域的和研究人员的学者和研究人员。
  2)在“千言数据集:文本相似度”评测[2]中取得阶段性进展。该评测的文本相似度数据集包括公开的三个文本相似度数据集,分别为哈工大(深圳)LCQMC、BQCorpus和谷歌的PAWS-X(中文)。目前,思必驰知识服务团队在三个数据集上均暂列第一。
  针对中文文本相似度计算的鲁棒性和泛化性问题,思必驰知识服务团队在以下几个方面开展了技术研究:
  1)针对中文特点的字、词融合编码器;
  2)基于预训练模型的领域自适应训练;
  3)目标应用领域导向的多阶段模型微调。
  相关技术实现在上述公开评测中得到了应用和验证。
  语言智能常被称为人工智能皇冠上的一颗明珠。在未来,思必驰知识服务团队将继续深耕认知智能领域,在面向通用领域的文本相似度计算基础上,打造领域自适应的文本相似度计算系统,推动文本相似度在垂直领域的应用和发展。
  参考文献:
  [1]第十四届全国知识图谱与语义计算大会(CCKS: China Conference on Knowledge Graph and Semantic Computing)
  http://sigkg.cn/ccks2020/
  [2]千言数据集:阅读理解公开评测
  https://aistudio.baidu.com/aistudio/competition/detail/45
【免责声明】本文仅代表作者本人观点,与CTI论坛无关。CTI论坛对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。

专题

CTI论坛会员企业