全球首个《AI对话系统分级定义》发布迈出AI智能对话规范化发展第一步

　　“小爱，小爱，明天北京天气如何？”当前，AI对话已经深刻融入人们日常生活的方方面面，技术架构和路线更是百花齐放。

　　然而，作为前沿技术，AI对话系统标准缺失，造成其在应用中呈现出水平参差不齐、评价体系不一等问题。针对这种状况，6月28日，清华大学智能技术与系统实验室副主任黄民烈教授联合学界和业界科研机构共同制定的全球首个《AI对话系统分级定义》(以下简称《分级定义》)正式发布，旨在更好地评估AI对话系统的能力水平，推动AI对话系统在虚拟个人助理、智能家居、智能汽车(车载语音)、情感陪护和心理健康等领域的应用有据可依。

　　起源于图灵测试的AI对话系统，是人工智能领域最重要的研究方向之一。“如果说自然语言处理是人工智能‘皇冠上的明珠’，那么AI对话系统则是自然语言处理中最难、最核心的任务之一，是‘明珠中最亮的那颗’。”黄民烈说。

图为黄民烈教授在介绍对话系统分级定义。

　　黄民烈表示，近年来，随着深度学习技术的不断发展，AI对话系统已经从基于规则的第一代和以传统机器学习为核心的第二代，发展到以大数据和大模型为显着特征的第三代，对话能力产生了革命性变化，在开放话题上展现了惊人的对话能力，对进一步推动人工智能产业发展、实现智能化具有巨大意义和价值。

　　“考虑到AI对话系统任务繁多、评价维度多样、技术路线丰富，撰写小组在制定《分级定义》时仅关注完全由机器主导的对话系统，人机混合的对话系统不在考虑范围内。”黄民烈说。

　　黄民烈介绍，同时，为了在实际应用中发挥价值，《分级定义》的制定是从用户可感知，以及可观察、可测量、可度量的角度出发，不考虑系统的具体技术实现方式，也不区分助理类任务、闲聊、知识对话等，均以“场景”进行表述。

　　在上述原则之下，《分级定义》从自动对话能力、对话质量高低、单一/多个场景、跨场景的上下文依赖和自然切换能力、拟人化程度、主动和持续学习能力、多模态感知与表达能力等角度出发，将AI对话系统划分为L0-L5六个等级，等级越高，AI对话系统水平越高。

　　“从上述标准看，当前AI对话系统水平最高已发展至L2-L3之间，如常见的‘小爱同学’等AI智能助理。”黄民烈说。

　　与国外相比，我国AI对话系统水平如何？对此，小米技术委员会主席、AI实验室主任王斌表示，从目前的工业应用看，我国的AI对话系统与国际没有明显差异，总体处在同一级别。

　　“现在整体处在L3-L4的路上，距离理想还有一定的距离，需要一到两年甚至更长时间的持续努力。”黄民烈说，要向L4-L5迈进，需要破解很多关键技术，如记忆、联想、推理、自学习能力等，能不能做出高表现力的语音合成，以及动作和表情细粒度的表达，这都是很大的挑战。

　　尽管如此，但在华为诺亚方舟实验室语音语义首席科学家刘群看来，AI对话系统最高级别的应用为复杂情感任务，该《分级定义》的发布将促进AI对话系统在情感任务中体现更高水平，从而促进人工智能未来在情感陪伴、心理健康、虚拟人、元宇宙等方面的应用，大大释放人力和物力成本，促进前沿科技走进大众日常生活。

专题

评论排行

推荐阅读

专题

大家都在看

CTI论坛会员企业

全球首个《AI对话系统分级定义》发布 迈出AI智能对话规范化发展第一步

评论排行

推荐阅读

专题

大家都在看

CTI论坛会员企业

全球首个《AI对话系统分级定义》发布迈出AI智能对话规范化发展第一步