ai数字人克隆软件 我遇见了我 | 虚拟数字人养成,FaceGood 虚拟数字人开源技术研讨会

AI资讯11个月前发布 fengdao
26 0

2022开年,Magic Data 和虚拟数字人制作公司,以及清华大学,思必驰等机构,举办了一场虚拟数字人开源技术研讨会。Magic Data 创始人兼CEO张晴晴博士受邀出席论坛。在论坛上,就虚拟数字人驱动技术、软组织动作捕获跟踪技术、交互技术、数据处理技术进行了热烈的交流。

Magic Data 多模态数据处理系统®5.0,为虚拟数字人的底层架构提供了基础重要的多维度数据支撑。

不断涌现的虚拟数字人

在元宇宙的巨大的市场中,高精智能的虚拟数字人仿佛一夜之间渗透到了各行各业,正吸引着海内外厂商加速布局元宇宙赛道。能在另一个宇宙中遇见不同声音、样子甚至不同性别的自己,这让生活在现实中的人们产生了真实的期待。

虚拟数字人需要多模态的技术驱动和丰富的数据支撑,才能让数字人“立体”起来。过去的数字人,更多的是只是一种感官存在的“物品”。他们会微笑,会说话,会唱歌,但他们没有情感,不会和人交流。

克隆软件是什么意思_ai数字人克隆软件_克隆软件的软件有哪些

情感人机交互 ——“对话式AI”技术与数据

人工智能的终极形态是情感需求,虚拟数字人能够刺激到人类的情感需求,前提是他们必须做到与人交互,“对话式AI”技术与数据,能够实现虚拟数字人与人类交流相处。

“对话式AI”需要全流程的准确和高效,将用户语音转换为文本,理解文本含义,搜索符合语境的最佳应答,最后使用文本转语音工具提供应答。

在技术层面,对话式 AI涉及语音识别、自然语言理解语音合成等核心技术。想要通过这些技术实现人和机器之间更自然的对话,面临两点技术挑战:

一是个体语言体系的差异化。由于所处地域、文化、教育背景的不同,每个人的语言表达都是独特的,这种个性化在人与人之间的沟通中都难免出现理解偏差,更何况是一台机器。对于AI而言,中文不是一种语言,而是13亿种语言。

二是对话式口语常常会有语序颠倒、犹豫、迟疑产生的停顿。在复杂的多人交互场景中,也不可避免会出现语句打断、抢话、交叠音等问题,这些语音特征为 AI 建模带来了很大困难。

ai数字人克隆软件_克隆软件是什么意思_克隆软件的软件有哪些

真实的对话数据和多语种语料库建设是解决上述问题的关键,为机器注入知识图谱、中文、方言、外语等多种语料,才能让机器像人一样理解自然语言。

1、语音识别技术和数据

语音识别,主要是将人类语音中的词汇等内容转换为计算机可读的输入,这是计算机学习人类语言的第一步,上述提及到的千人千面的个性化表达以及对话口语颠倒、犹豫、迟疑等,这些被输入的“内容”对于机器来说都是非常重要的学习要素。

2、语音合成技术和数据

语音合成,主要是将计算机产生的文字(自己的或者外部输入的)转变为人类可以听得懂的、流利的汉语口语的输出。人类在语言表达的时候总是附带着语气与感情,语音合成的音频是为了模仿真实的人声,所以需要对文本进行韵律预测,什么地方需要停顿,停顿多久,哪个字或者词语需要重读,哪个词需要轻读等,实现声音的高低曲折,抑扬顿挫。

3、自然语言理解技术和数据集

自然语言理解,主要是计算机通过对输入数据的理解和分析,让人类与机器能够用自然语言进行有效地通讯交流,不仅让机器能够“听懂人话”,更能让机器“讲人话”。

© 版权声明

相关文章

暂无评论

暂无评论...