看着满大街一个比一个大的触屏手机,谁还记得在几年前,我们在手机上打字经常都是盲打的。
某「小众品牌」推出的全键盘手机
自从苹果推出之后,触摸屏幕一瞬间就成为了手机的标配。
而在使用触屏时,完全是在依靠眼睛去引导手指打字,或者检查拼写错误。从某种意义上来说,这是一个并不简单的协同任务。
不过,AI现在已经学会了用人类的方式在手机触屏上打字。没想到吧!
人类在手机上打字时,眼睛和手指的移动
让AI像人类一样打字
为了理解人们在触摸屏上的打字方式,阿尔托大学和芬兰人工智能中心(FCAI)的研究人员创建了一个AI模型来预测人们的打字方式。
论文:
项目:
这项研究通过强化学习模型来分析并模拟人类在打字时眼睛和手指的运动方式。
像人类一样,AI会在打字时会产生错误,发现错误,并在之后纠正错误。
AI出现拼写错误,并进行检测和更正。其中,蓝色和绿色分别代表眼睛和手指的运动轨迹。
AI模型还可以预测人们如何适应输入方式的变化,例如,使用新的带拼写检查键盘或是不同设计的键盘时,打字输入的风格会发生什么变化。
AI模拟使用带拼写检查的键盘时,眼睛和手指的移动。其中,蓝色和绿色分别代表眼睛和手指的运动轨迹。
「以前,主要是从手指如何移动的角度来理解触摸屏打字。现在通过AI的应用,我们可以更真实地预测人们在手机上打字的方式。」Jussi 博士说。
AI模型和人类在输入相同的一句话时的手指移动和眼睛注视位置的热图(heat map)。左:AI模拟的结果;右:人类打字的结果。
其中,绿色表示眼睛的位置,蓝色表示手指的位置, 阴影越深,说明注视时间就越长,移动的次数越频繁。
最佳监督模型的架构
模型由四个不同的代理组成:监督控制,引导,视觉和校对。
这三个子任务代理与任务环境(移动设备)交互:引导代理可以按键盘的按键并观察当前手指的位置。校对代理会观察输入的文本并检查是否存在错误。
为了模拟有限的可视范围,在引导和校对之间共享视觉,从而限制了这些代理同时进行观察的能力。
策略()用来预测此操作的价值。监督根据对当前子任务值的观察,决定如何在这些子任务之间分配视觉,并在引导代理的速度-准确性之间的权衡。
关键数据和模型性能
为了方便衡量模型的表现,研究人员引入了两种评估方法以及相应的测量标准:
分析模型的预测和人类实际操作之间的误差。
检查模型与人类平均值之间的差值。
从整体上看,AI模拟的结果和人类打字时候的情况十分相近。
AI模型在对输入内容的校对和对错误修改的验证(Gaze )方面,和人类打字时候的行为几乎完全相同。而且,AI可以准确预测打字时看键盘和文本输入框的次数( count)。
每分钟输入字数(WPM)总体上接近人类数据的平均值,两次按键输入之间花的时间(IKI)也接近人类的数据。
在纠正拼错的单词方面,AI模型显然是在试图避免出错。因此模型预测的按删除键的次数()会比人类实际操作中略少。
不过,AI在过程中注视键盘的时间比例(Gaze time ratio)有些偏高,同时也低估了校对输入的单词所需要的时间。
绿色部分表示模拟数据和人类平均值在一个标准差以内,粉色部分表示模拟数据和人类平均值在三个标准差以内。
项目已经开放下载
研究人员提出,该模型可以帮助那些无法使用触屏打字的用户,用于设计和开发针对这些人群的打字辅助工具或界面。
对于普通人来说,可以从个人写作风格中(例如在文本中反复出现的错误),为用户推荐哪种键盘或自动纠错系统最适合用户。
参考资料:
AI家,新天地。西山新绿,新智元在等你!
【新智元高薪诚聘】主笔、高级编辑、商务总监、运营经理、实习生等岗位,欢迎投递简历至 (或微信: )
办公地址:北京海淀中关村软件园3号楼1100