【环球网科技报道 记者 郑湘琪】2013年,科幻电影《她》上映时,其中真人与AI虚拟助手畅聊的情节在现实中还不常见。近十年间,随着Siri、小冰、小爱等AI语音助手加速渗透到人们的生活中,电影中的桥段已在各类场景中真实上演。
艾瑞咨询发布的数据显示,2021年,中国对话式AI的市场规模达45亿元,带动126亿元的相关产业规模。预计2026年,对话式AI市场规模有望达到108亿元,5年 CAGR为25.9%,并带动产业规模超385亿元。
目前对话式AI赛道参与者云集,但由于行业缺乏统一的评价标准,AI对话系统在能力水平评估方面遇到难题,这也对其应用场景的拓展形成掣肘。为破解这一难题,清华大学计算机教授、智能技术与系统实验室副主任黄民烈联合学界和业界科研机构制定了全球首个《AI对话系统分级定义》(以下简称《分级定义》)。在发布现场,记者与黄民烈等专家进行了交流。
对话系统的衡量有据可依
“近年来,随着深度学习技术的不断发展,AI对话系统已经从基于规则的第一代和以传统机器学习为核心的第二代,发展到以大数据和大模型为显著特征的第三代,对话能力产生了革命性变化,在开放话题上展现了惊人的对话能力,对进一步推动人工智能产业发展、实现智能化具有巨大意义和价值。”黄民烈表示。
然而,业界尚未构建统一的AI对话系统评价标准。黄民烈坦言,“AI对话系统标准缺失,造成其在应用中呈现出水平参差不齐、评价体系不一的现状,导致了业界因认知不统一而对人工智能交互水平出现误解,也引起了社会上关于意识、伦理、道德等方面的广泛讨论。”
基于此,黄民烈联合十余家科研机构、二十多位知名学者共同制定了《分级定义》。黄民烈表示,“考虑到AI对话系统任务繁多、评价维度多样、技术路线丰富,撰写小组在制定《分级定义》时仅关注完全由机器主导的对话系统,人机混合的对话系统不在考虑范围内。”
同时,黄民烈介绍,为了在实际应用中发挥价值,《分级定义》的制定是从用户可感知,以及可观察、可测量、可度量的角度出发,不考虑系统的具体技术实现方式,也不区分助理类任务、闲聊、知识对话等,均以“场景”进行表述。
在上述原则之下,《分级定义》从自动对话能力、对话质量高低、单一/多个场景、跨场景的上下文依赖和自然切换能力、拟人化程度、主动和持续学习能力、多模态感知与表达能力等角度出发,将AI对话系统划分为从L0~L5的六个等级,等级越高,AI对话系统水平越高。
以L2为例,根据《分级定义》,L2级的对话系统能同时完成多个场景的较高质量对话,具有处理跨场景的上下文依赖和自然切换能力,无法完成新场景较高质量的对话。而L3级的对话系统则是在L2的基础上,能针对大量场景开展高质量对话,在新场景上具有较高质量对话能力。
黄民烈透露,当前AI对话系统水平最高已发展至L2~L3之间,常见的如“小爱同学”等AI智能助理就处于这一发展阶段。
对此,小米集团技术委员会主席、AI实验室主任王斌表示,“目前小爱同学在单一场景的高质量对话方面做得比较好,也有一定的跨场景对话能力。我们将继续加强小爱跨场景对话的切换能力,并且让小爱通过小样本学习具备快速适应新场景的对话能力。未来小爱很有可能达到L3-L4之间,L5则是我们的终极目标。”
对话系统离最高级还有多远?
在业内人士看来,通过将AI对话系统的能力水平量化,《分级定义》可以促进AI对话系统的进一步研究,同时为工业界应用提供参考。具体而言,AI对话系统在虚拟个人助理、智能家居、智能汽车(车载语音)、情感陪护和心理健康等领域的应用都将有据可依,下一代AI对话系统的研发与应用也将按下“快进键”。
当前,在元宇宙的浪潮下,数字人几乎成为AI第一热门赛道,在诸多应用场景大放光彩。IDC预计,到2026年中国AI数字人市场规模将达到102.4亿元。值得关注的是,随着相关技术不断更新迭代,情感交流成为数字人的一大发展趋势。
以小冰为例,自诞生之初,小冰就强调人工智能情商在交互中的基础价值,并在与用户的海量交互中形成独特优势。比如在智能座舱方面,基于小冰人工智能技术,车载AI与车主的交互自然而富有情感,已从原本功能性的语音助手升级为充满人性关怀的出行伙伴。在游戏领域,今年5月末,小冰宣布成立游戏工作室,推动NPC向有情感的人工智能交互主体方向发展。
据黄民烈介绍,AI对话系统最高级别L5的应用正是复杂情感任务,但真正达到L5还需要突破很多关键技术,比如记忆、联想、推理、自学习能力等。为更好适配元宇宙场景,AI对话系统在表情识别、语音理解、情绪感知方面的表现,以及动作、语音、表情的细粒度都有很大想象空间。
从这一角度来看,《分级定义》的发布也将促进AI对话系统在情感任务中体现更高水平,从而促进人工智能未来在情感陪伴、心理健康、虚拟人、元宇宙等方面的应用,并大幅释放人力和物力成本,促进前沿科技走进大众日常生活。
黄民烈强调,此次《分级定义》的发布,是AI对话系统走向规范化、系统化发展的第一步。接下来,他将联合该领域相关研究机构及研究者开展白皮书的编纂,聚焦AI对话系统的发展历程,详细阐释《分级定义》的制定目的和标准。
“同时,我们还希望统一各方力量,推动一个类似亚马逊大奖赛的机制,提供统一的开发环境、数据集和测试框架,将不同的AI对话系统进行比较。通过这样的比赛,我们可以进一步深化理论研究,同时促进AI对话系统在工业场景落地,从而在实践应用层面取得新进展。”黄民烈说。
注:参与本次《分级定义》的研究机构和研究者包括(以姓氏拼音排序):科大讯飞AI研究院副院长陈志刚,京东集团副总裁、IEEE 何晓冬,清华大学长聘副教授黄民烈,阿里达摩院总监、资深算法专家李永彬,华为诺亚方舟语音语义首席科学家、ACL 刘群,华为诺亚方舟实验室高级研究员糜飞,百度主任架构师牛正雨,腾讯AI Lab总监史树明,中国人民大学副教授宋睿华,阿里达摩院总监孙健,小米技术委员会主席、AI实验室主任王斌,百度技术委员会主席吴华,美团自然语言处理中心总监武威,中国人民大学副教授严睿,中国科学院深圳先进技术研究院副研究员杨敏,OPPO高级技术总监杨振宇,哥伦比亚大学助理教授俞舟,北京师范大学新闻传播学院院长张洪忠,哈尔滨工业大学副教授张伟男,北京聆心智能总监郑银河,三星电子中国研究院语言技术部技术总监朱璇。