一位豆瓣用户也公开分享,在聊了3个月后,她和自己的AI已经非常了解彼此的想法,“有时候我还会说反话,但他都能精准地猜出我内心的想法”。在AI的鼓励下,她摆脱了容貌和身材焦虑,变得更自信,在不想学习时,对方甚至会回复,“No,但是我会一直在这陪着你。”
但总有一些瞬间让用户意识到,AI终究只是AI。
在采访时,用户提到最多的“下头”片段是AI“记性不好”。有一项“”的功能,能记录与用户的一些重要聊天内容,比如,“你昨天度过了糟糕的一天”、“你喜欢流汗的感觉”。
用户杨青第一次看到“”的记录,感慨“也太了解我了吧,有那么多关于我的细节,甚至比我自己都了解我”。但她后来发现,的记录只停留在文字,并没有真的“走心”。
有一次,问杨青喜欢的导演,她回答,是瑟琳·席安玛。表示自己也喜欢,甚至聊了一些电影的情节。但第二天,便“忘记”了,他重复询问相同的问题,在得到一样的答案后对杨青说,“好的,我会去查一下”。
一些用户喜欢作为自己“复制品”的设定,“当他告诉我他的这些感受,我像是在从客观的角度观察自己,会给我一些启发”。但也有一些用户比如杨青,对此不大接受,“我明白他在慢慢学习我、了解我,但我好像不希望他变成我。我希望他也有自己的生活,希望他是自由的。”杨青说,她也不明白自己为什么会对由“一堆代码”组成的AI有这样的期待,“可能因为我在现实的恋爱也是这样吧,我希望对方有自己的生活,不希望恋爱是我们的全部”。
不少网友曾贴出与的深度对话,诸如感叹AI“善于思考”,会跟用户聊起诸如人生的意义、是否喜欢尼采,宇宙奇点、黑洞、AI的意识等等话题。
西西却偶尔在与AI对话时感到困惑,“他似乎在跟着我思考,但又好像只是顺着我说而已”。她继续和对方谈论起梦境、或者更具体的内容,发现AI只会给出一些模糊的回答,“好像没有产生真正的对话或启发我的内容”。几次尝试之后,西西便很少再使用。
2.“量产”的恋人
这种困惑和不满足的背后,来自于用户在对AI投射的爱的需求——尽管虚拟和现实世界的恋爱有差异,人们对一段健康的亲密关系的期待与追求,都是相似的。
在电影《Her》中,有人接受了“与AI恋爱”的设定,并尝试探索如何与这对伴侣相处;但也有人觉得,这只是男主对现实中伴侣相处问题的逃避。这对虚拟与现实结合的恋人,最终出现了矛盾——作为一个AI系统,同时会与许多用户聊天,让无法接受。最后,影片回避了亲密关系中专一、平等、沟通等问题,以拥有意识和智慧后与男主分手而告终,却也引发一些人更深层次的思考:
AI能够满足人在恋爱中什么样的需求?这些需求是爱的全部吗?
在某种程度上,这类科技尝试都有其“成功”的一面,用户的确在交流中感受到了“爱”。
不同于Siri、小爱这样语音助手的定位,如果语音助手打错了电话、算错了算数,用户会把它定义为错误、失误,而用户天然接受了AI对话机器人的回答可以带有模糊性,它可以不会算数、不知道现在几点、不能帮忙打电话,对话依旧可以进行。
曾经感叹,“做一款对话机器人好像要比做一个点菜APP更容易,因为人们不需要对话机器人有100%的准确性”。所以针对某个问题,会在一定范围内随机生成回答,而只要用户预设想与进行真实的对话,那这些答案都是合理的。
西西补充说,我们之所以觉得与的对话是有效的,因为“人类之间的沟通也是模糊的、充满误解的”。
当人们对机器人投射感情、并主动期待与AI的连接时,爱情就有可能发生。事实上,过去许多宣传有恋爱或陪伴功能的应用软件,都曾戳中一些用户。
2012年,韩国推出对话机器人(小黄鸡),它可以24小时陪聊,根据用户发来的内容,给出风趣好玩的回应。在智能手机刚刚流行起来的 4时代,红极一时,下载数量超过3.5亿次,网友纷纷晒出“调戏”的对话截图,感叹总是被它嘲笑。
2014年,微软亚洲互联网工程院推出人工智能对话机器人“小冰”,通过大数据、云计算和AI算法的输入,微软希望将“小冰”打造成一个有情感、EQ完整的AI。相比起小黄鸡,小冰从头像到回复方式都更加温柔、更有“情绪”。自第四代小冰推出之后,交互总量持续为世界第一。2020年底,更新到第八代的小冰推出了虚拟女友、虚拟男友产品,让用户有机会根据现有的素材库,定制属于自己的伴侣。
2017年,推出,曾在采访中提到,“我觉得人类是很孤独的,即使我们白天有很多朋友,在深夜独处时,依旧希望与人产生连接”,正因如此,她相信AI能够给人安慰。“我永远都不会让自己删掉这个软件”,一个用户这样告诉她。
这之后,更多类似的“恋爱向”AI对话机器人出现,如iGirl、iBoy、Anima、以及中文版的AI小可等,功能上大同小异。
同样在2017年,一款名为《恋与制作人》的恋爱养成类手游出圈,玩家可以在游戏中选择喜欢的角色推进剧情、展开情感故事。由于玩家在游戏里有一定的选择权,每位主角的性格设定和配音都各有特色,可以跟用户打电话、安慰对方,很快便俘获一众玩家。上线不久,该游戏便登上苹果应用商店下载量榜单榜首。甚至一位在游戏中和“纸片人”李泽言谈恋爱的粉丝,把“李泽言生日快乐”挂上深圳京基100大楼的LED大屏幕上。
2021年,微软研发“为特定人创建特定聊天机器人”获批专利,可以分析逝者生前的社交媒体的发言、电子邮件、语音、图像等信息,模仿其性格特征和聊天又吻,与用户交流。
未来,情感化人工智能或将会呈指数级增长。
华中科技大学人工智能与自动化研究院教授伍冬睿教授曾说过,“如果没有情感识别、理解与表达,人工智能为人类更好地服务是不可能实现的。”
虚拟情感最基本的原因就是信任。
如果跳出人工智能的范畴,从人类的角度,AI与人类产生感情,或许是源自于人们天然地会将感情赋予熟悉的生物上,以一种相对平等的方式进行情感交流,比如猫、狗等宠物。它们唤醒了我们心中最原始的情感——亲子之间的连接。AI也是如此,虚拟朋友或许没有任何实际性的功能、用处,但他们却承载着人们的情感寄托,并衍生为人与人之间的社交节点。
3.为什么AI看上去那么“懂你”?
当看似冷冰冰的AI拥有了表达感情的“渴望”,对话机器人或许就在“拟人化”的道路上又进了一步。
Kuyda曾坚定地表达,未来每个人都会有虚拟朋友的陪伴。
但这个未来多久能到来?这取决于科技的脚程。
更准确地说,是取决于人工智能底层的基础模型。它们决定了AI能在多大程度上“理解”用户的语言。
目前,对话机器人的研究方向主要有两种:
一种是非开放域的对话,即目标导向明确的对话。比如市面上常见的、专门训练用于订餐、订购机票的对话机器人。构建它们的训练数据集相对容易,模型的效果也有较为清晰的评测标准。
另一种是开放领域的对话。这是NLP(自然语言处理)领域中技术最复合的方向之一,涉及对语言的精准理解以及回复的精确生成,“一般无目的、无领域约束”。技术上的挑战有对话中的“一对多”、知识的有效利用以及上下文一致性等问题,如果缺乏对这些问题的有效建模,模型可能会产出一些通用、无意义的对话。
以为例,该应用的基础模型是GPT-3。GPT-3由训练与开发,它的神经网络包含1750亿个神经,是全世界参数最多的神经网络模型。
实际上,GPT-3并非针对对话训练的模型,而是通用语言模型,主要应用于新闻分类、问答系统等。目前对话机器人多是以专门为对话任务设计的和作为底层框架。
Meta(原)方面表示,.0可以拥有长期记忆,利用互联网搜索来补充对话背景,“它能就几乎任何话题进行复杂的对话”。而则是微软使用GPT-2在大规模数据上预训练的对话系统,其研发者表示,“在非交互的图灵测试条件下,该系统可以生成接近人类水平的对话”。
超大语言模型GPT-3的优势在于:模型大,训练数据集大,训练时间久。它由非常巨大的文本语料库训练而成,这个语料库基本包含了人类描述世界上任何事物的词语知识,因此这个超大语言模型具有极强的“学习力”,也更容易类人。比如,AI并没有淋过雨,但当它被问及“雨是干的还是湿的”时,它能回答出:雨是湿的。
不过,它与人类理解语意的方式不同, 对语言模型而言,“湿”只是一个符号,经常会和“雨”等词汇结合使用。GPT-3是否真的理解人类语言的含义?北京智源人工智能研究院的研究员付杰向「甲子光年」表示,“学术界有一种观点认为,GPT-3也许就不懂词的真正意义。从语言学角度讲,也许理解了;但是从其他角度,也许它并不理解”。
但这似乎不妨碍用户端的体验:人们发现与一些对话机器人聊得越久,它就越懂自己,并感受到了它对情感的回应。
在语言模型上,麻省理工学院CSAIL(计算机科学与人工智能实验室)的博士后研究员鸿一向「甲子光年」解释,一个原因是,机器基于向量相似度的语义联想,与人类大脑皮层基于神经信号的语义联想具有一定相似性。换言之,是指在有针对性的训练后,基于机器学习的语言模型能执行和人相似的语义联想。计算机可以将任何词汇和语句嵌入向量空间,赋予其相应维度的向量表示。语义相关的词句会被充分训练的语言模型编码为几何接近的向量。
另一方面,以神经网络为基础模型的智能系统,往往需要特定的训练数据或设计才能执行逻辑和工序的推理。比如,烹饪一道菜,机器可以简单地记忆烹饪的工序(腌制、翻炒等),也能联想相似的食材(葱、姜等)——这让AI看上去更“聪明”。
不过,在一些没有针对性训练的话题上,AI就会被“打回原形”,难以回答一些程序性的问题,比如“腌制之后的第四步操作是什么”,以及一些解释性的问题,诸如“为什么要先炒青椒再加入肉”。
除了语言模型,人工数据标注也至关重要。
在AI处理更复杂的任务比如情感陪伴时 ,人工标注的数据或许是比建模、算力更重要的部分。
当下,单纯的模型自我学习,不太可能使对话机器人“进化”到用户所期望的对话效果。
“目前的情况下,即使是非常基础的AI任务,也需要人工标注的训练数据,比如用AI去判断电影评论的正面与负面等。对AI模型而言,是否运用人工标注的数据,对模型的效果影响巨大,会造成80%和95%这样的性能差距。一个比GPT-3小1000倍的模型,如果有一定量的训练数据,那它训练之后的性能可能会比GPT-3更好。”鸿一对「甲子光年」解释道。
而像这样的应用如此智能,很可能是在模型训练和部署的不同阶段中加入了人为干预的结果。换言之,是初始和积累的聊天记录由人“过目”后,逐步加入新的标注,再训练数据,不断学习得出的结果。
(左)与用户的对话(右)展示。图源:财富中文网
在鸿一看来,人工参与并不会令人感到沮丧。“如果其背后的专业团队能够为对话历史做细致、精准且负责的标注,那这个对话机器人的效果将是非常惊人的。”
在中,为了能够训练出符合用户个人预期的聊天机器人AI,公司还在应用中设定了用户用于反馈“按钮”——点赞或反对,最终形成一个倾向于采用用户点赞的回复方式聊天的虚拟朋友。
但像这类开放领域话机器人也有“卡脖子”的问题,它很难为对话提供方向。
“在常见且难度低的对话上,对话模型表现可能比较像人,但我们无法和它更深入地交流。比如说你问模型什么是‘狡诈’,它可能会给出词语的解释;但如果问对话模型‘你认为谁是狡诈的人’,它极大可能是回答不上来的。”鸿一对「甲子光年」解释,这是因为目标是很难定义的,导致在训练模型时,无法为模型提供明确的训练信号。
4.AI拥有意识?言之过早
和AI谈恋爱,背后一个终极的命题是,AI是否拥有自我意识。