导 读
「眼界大开 声临其境」技术系列课第七期。网易游戏雷火音频设计专家付明铭带来了主题为《浅谈 AI 音乐开发及应用》技术分享。(点击文末阅读原文回顾视频)
讲师简介:付明铭,网易雷火事业群音频部负责人、音频专家。从事游戏音频开发已经有14年,参与了《逆水寒》等40余款游戏的音频开发工作,同时也是一名 AI 音频开发方面的狂热爱好者,在这个新兴领域探索了4年有余,目前负责网易 AI 音乐产品的开发工作,担任制作人。
AI 音乐产品是一款集 AI 一键写歌、AI 编曲、AI 作词为一体的人工智能音乐创作工具,有别于其他市面的 AI 音乐产品,它更贴合华语流行音乐生产。今天我想基于这个产品的一些开发心得,和大家一起分享对 AI 音乐的看法和相关开发思路。在正式进入主题之前,为大家简单演示下生成过程。
编曲生成
歌词生成
刚刚我们看到了整个音乐和歌词的简要生成过程,也听到了相应的音频,接下来进入主题。
国内外 AI 音乐发展的标志性事件
从时间上来看,业界比较认可的 AI 音乐开始发展始于1957年由计算机生成的《伊利亚克组曲》,随后经过了很长时间的停滞。在1993年,又出现了运用神经网络学习模式进行和声生成的 系统。可好景不长,在这之后 AI 音乐又进入了20多年的相对静默期,技术一直没能实现大的突破。直到时间来到2015年,从这一年开始直到2021年,才真正算得上是 AI 音乐技术的集中爆发期,各种相关公司和作品层出不穷,比较有代表性的是:
● 2015年 AI 音乐初创公司 在英国成立
●2016年 出现 这种技术,它可以用来创作音乐
●2016年 AIVA 在卢森堡成立,这也是到目前为止最具影响力的 AI 音乐公司之一
●2017年 AI 音乐初创公司 Amper Music 成立
●2017年 AI 音乐专辑《I AM AI》发行
●2017年 国内 AI 音乐初创公司 成立
●2018年 国内 AI 音乐初创公司不亦乐乎在杭州成立
●2018年 微软小冰具备作词作曲能力
●2019年 被字节跳动收购
●2019年 中央音乐学院开始招收音乐人工智能博士
●2019年 小冰歌声合成达到一个新的台阶,具备不错的实用性
●2020年 小冰发布《hope》
●2020年 网易投资 AIVA
●2020年 网易发布全链路 AI 歌曲《醒来》
以上这些并不能完全包含 AI 音乐的整个发展历程,在了解完这些主要节点事件后,我们需要为接下来的分享讨论预设一个前提,因为如果没有这个预设前提存在,接下来的讨论将会没有边界,这个前提是:当前计算机发展水平在短时间内不会出现强人工智能的存在。
很多人一提到人工智能,首先想到的就是非常科幻的场景,计算机能进行自主思考,这显然超出了目前计算机发展水平,我们不排除以后科技发展水平能到达这一步,但需要的时间不会太短。回到 AI 音乐上面,我们如何迈出 AI 音乐开发的第一步呢?
在我看来,第一步是需要了解:AI 音乐的本质是什么?
AI 音乐的本质是通过各种算法对音乐数据进行分析与学习,形成审美相对确定的风格模型,然后基于用户的输入在选定的风格模型中进行内容生成。
方向选择
了解完这点后,接下来我们要去分析实际的需求点,从需求点上明确输入输出方式,进而确定研发的方向。以我国目前音乐市场的现状来看,无论是短视频、媒体音乐平台,还是在线 K 歌平台,都是以歌曲为主要生产资料,再辅以配乐。也就是说,摆在面前有两个方向:其一是歌曲向,其二是配乐向。
● 歌曲向是以解决歌曲快速生产为目的,以速度、调性、节拍、和弦、段落为主要输入,如果要更完整些,还需要歌词生成、旋律生成、歌声合成同步进行配合;
● 配乐向则是以解决配乐的快速生产为目的,以速度、调性、节拍、时长、风格、情绪为主要输入。
两者有相同之处,也有很多不同。歌曲向强调细节匹配,配乐向更多强调与整体的匹配,开发者需要根据自己的实际需求,来选定自己的开发方向,千万别出现想解决歌曲生产却按照解决配乐的思路来开发的情况,这样就南辕北辙了。
这两种思路下产品输入的交互所存在的主要区别,详见下图。
歌曲向:
配乐向:
选择好方向后,接下来将围绕 AI 音乐的开发展开来讲。因为本人是从事歌曲向 AI 音乐开发工作,因此接下来的分享,我会按照歌曲的思路展开。
功能分类及相关技术
歌曲向的 AI 音乐主要分为四部分:AI 作词、AI 作曲、AI 编曲、AI 歌声,也就是通常意义上的“词曲编唱”。
每一个环节都相对独立而又彼此关联,需要用到的技术点也不尽相同。
● AI 作词主要用到基于预训练的 GPT-2 语言模型以及基于端到端的生成模型框架
●AI 作曲主要用到基于乐理规则的生成模型和机器学习
●AI 编曲主要用到基于乐理规则的生成模型
●AI 歌声主要用到端到端声学模型+神经声码器
显然靠单一的算法类型无法完成 AI 音乐的整体功能开发。引用我们团队的一段共识来说明这个问题:任何音乐作品生成系统,都无法单纯用机器学习来完成,每种算法都有其优势,也有其局限性。
对于 AI 音乐开发来说,我们需要根据不同环节的特性选用不同的算法来处理。对于机器学习来说,其一般工作原理是:首先会有一个目标函数,用于在运行时将用户的输入转换为输出,但这个函数需要很多参数才可以正常工作,这些参数通常被打包在一起作为一个“模型”。然后会有一个训练集,包含了若干输入输出以及标注信息,并通过一套算法规则将一条标注过的训练数据转化为模型里的一些参数(深度学习甚至不需要人为写出这个规则,深度神经网络系统内部就可以完成模型信息的隐式提取),整个训练集跑完后,产生的模型就可以对用户的输入产生相应的输出了。
这个过程看似很理想,但是它只能用于满足三个要求的场景:
1. 对输出结果的可解释性没有要求或要求不高。
2. 期望输出结果的特征无限接近训练集。
3. 已有或较容易获得大量的用于训练单一模型的标注数据。
很多场景,比如语音合成、歌声合成、翻译系统、下棋程序等都满足这三个要求,因此机器学习在这些场景中工作得很好。
但因为音乐作品普遍带有:风格倾向、审美倾向、以及个性化的特点与需求,这对系统的可解释性、以及可控性产生了硬性的要求。又因为音乐作品对独创性、排他性的要求,导致系统的输出结果不能跟训练集过于接近。同时,音乐作品通常由音乐家完成,而每个音乐家的产出都有很大差异,如果用机器学习方法,一个模型通常也只能针对一个或审美接近的一组音乐家来产出。这样一来,可用于训练单一模型的存量数据就太少了,而要获得足够多的增量数据也会因为音乐家的生产单价高、周期长,而让成本变得不可接受。
因此,因为音乐作品的这些特点,导致任何单纯使用机器学习算法来全盘解决音乐作品生成问题的尝试,大概率都是要走弯路的。
那么,如何解决机器学习不擅长的那部分音乐内容的生成呢?
对于编曲和作曲来说,方法就是将乐理规则化(专家系统),再配合对现存符合审美标准的有限数据做人工分析之后,进行建模,最终实现一套基于乐理规则和编曲习惯的生成式模型,也就是上面AI音乐本质里提到的审美相对固定的模型。
“人工智能”的定义是很广泛的(同时比较模糊,且有一定的争议),不是只有用了神经网络/深度神经网络算法的系统才能叫人工智能,人工智能的定义里并没有限制具体算法的使用,可以理解为某种定义下的自动化。我们的开发要以解决真实需求为主导,灵活采用多种技术手段来助力目标实现,技术本身没有优劣,只有适不适合,切勿陷入技术的自嗨而推导出一些莫名其妙的伪需求。
团队构建
聊完分类和常用技术类型,接下来来看另一个对开发非常关键,也是制约 AI 音乐发展的最主要因素:AI 音乐是一个算法和艺术的交叉领域,面临的困难错综复杂,既有主观的,也有客观的,除了技术、数据、资金以外,最重要的就是人才的稀缺。
不管是算法人员还是音乐制作人员,当参与到AI音乐开发中时,最优的情况是,他们都是具备复合能力的人才:
算法人员除了相关编程能力外最好要精通乐理,编过曲、写过歌,最次也需要了解音乐基本制作技巧,掌握一门和声乐器;
音乐制作人员须精通乐理,精于制作,最好是常年战斗在一线制作的人员,对主流音乐风格具备很强的把控能力,清楚了解各种编曲、作曲、作词、演唱的惯用手法。
以上这些要求看上去非常之高,但想要在 AI 音乐开发上有所作为,这又是不得不去直面的。那么,接下来另一个问题就显现出来了:建立这样一个 AI 音乐开发团队的土壤存在于哪里?是 AI 科技公司?音乐院校?还是传统互联网公司?我想以上这些组织可能都差一些要素,要么缺技术人员,要么缺音乐人员,亦或技术储备不足,而相对比较好的是流媒体音乐平台。
但个人认为最有孕育 AI 音乐潜力的是游戏公司。理由很简单:游戏是一个集各种引擎技术、AI 技术、美术、音乐等艺术表现形式于一体的综合载体,在音乐和算法人员储备以及基础技术储备上均有相当基础,但需注意的是,游戏公司仅仅只是一个有发芽可能的土壤而已,相应的算法人员可以从技术音频转过来,近些年这类岗位在稍具规模的游戏公司中都有配备;音乐制作人员相对充沛,可以从游戏音频部门抽调,游戏配乐常年和项目程序打交道,基本具备了程序化思维,这也很好解决了音乐人员不理解程序想法的问题。除此之外,歌声合成和歌词生成则可以从游戏 AI 部门进行人员选拔,NLP 和语音合成是游戏 AI 常见的功能,大一点的公司也都会配备这些人员。综上,我们基本可以配齐开发一个“词曲编唱”为一体的 AI 音乐开发团队。这是我们团队的一些经验,有它特定的环境限制,在此仅做简单分享。
总而言之,要对 AI 音乐进行有效开发,最理想的状态是在同一个组织架构下同时具备音频算法人员和音乐制作人员。
困难与挑战
在 AI 音乐的开发过程中我们会遇到各种各样的困难和挑战,个人认为这几个方面是比较重要的:
1. 如何解决实用性问题?
首先在思路上,开发人员要避免技术的自嗨,切勿从技术的突破去推导应用场景。一切要从行业实际需求出发。清晰了解用户在音乐创作上的实际需求,并根据实际需求选定合适的技术路线,寻找解决问题的方法。
其次是审美如何解决。要解决这个问题必须先知道涉及审美的要素有哪些。在我看来,一首音乐作品的审美主要由两方面来决定,即定量和变量。
● 定量:包括但不限于乐器音色、人声音色、混音方式、段落乐器搭配、演奏织体等;
● 变量:主要是人输入的部分,即作品用什么方式和人发生关联,包括但不限于速度、和弦、节拍、调性、段落、歌词等。
以编曲为例,某个编曲作品之所以属于这个制作人是因为他定义了哪些内容呢?从定量来看,乐器、音色、演奏织体、段落乐器配比、混音方式,都是影响审美的定量,它们决定了这首编曲最基础的审美问题。想象一下,同样是木吉他编曲,音色稍稍变化,演奏技法再变化一下,又是一个全新的感受,在制作认知里,我们是可以认为这是一首全新编曲的。而变量又有哪些呢?速度、和弦、节拍、调性、段落,这些变量决定了这首作品为何属于用户,一首歌曲最基础的审美也是由这五要素共同决定的,其次才是歌词、旋律、人声。
基于这些影响审美的因素,我认为 AI 音乐的生产模型应该是和市面上歌曲一样,以首为单位,而不是以一个大风格来生产,这样不管是从解决实际问题角度,还是风格模型生产的成本及效率,都是更好的选择。
2. 数据获取
数据获取的困难主要有两方面:成本和质量。从获取途径来说有自产、外购、外部合作三种主要方式。自产相对门槛比较高,需要有资金和人员的储备,但数据和标注的质量以及标准相对可控;外购成本比较高,而且数据质量和标注规则不方便根据算法再次调整;外部合作则不失为一种性价比较高的方式,但前提是需要有专业的音频人员参与其中,以把控生产质量。我们团队采用了“自产+外部合作”的结合方式,实践下来效果不错。
3. 成本的控制
技术选型影响比较大。以编曲为例:同样解决编曲生产问题,神经网络和基于乐理的编曲算法对源数据的需求量差异是非常大的,神经网络生产一个风格的编曲模型至少需要几百到上千首高度标注的编曲 MIDI 数据,这些数据如果是在传统管弦乐上数据还相对容易获取,但在流行音乐上是很难获得这样的高质量标注数据的,自行生产也需要几十万人民币和1-2个月时间,而基于乐理规则的编曲算法只需要一首编曲数据即可生产一个模型,成本几千块。
4. 资源和人脉
发动歌手和编曲师在各自领域寻找,而不是由技术人员去寻找,从业者更能找到质高价低的资源。
5. 数据质量的把控
涉及两个方面,数据的技术标准质量和音频数据审美质量。专业音频人员的深入参与至关重要,这也是团队构成里提到技术人员和音频人员必须同在一个团队里紧密合作的重要原因,以歌声合成数据为例,有时一个气口、一点杂音都会影响到最终合成的质量,这些必须由专业音频人员去处理、标注。
需要探讨和探索的
1. 与音乐行业的关系
我认为总体来说是非取代、非零和而是长期和谐共存,与人类智慧结合,但不排除部分取代。
AI 音乐的到来,可以看作是给了一个支点,一方面极大降低了制作门槛,另一方面极大提高了行业准入门槛。
作为音频从业者,我们需要去尽快适应,寻找到新的定位,在音乐作品创作中加强自己不可取代的部分——比如对审美的定义。