探寻声音境界还原诵读本质
这一段视频中的新闻,是高纯度100%的人工智能产品。从图像到声音,全部是AI自动生成的。
就是说,你只需要把文字稿交给它,然后点一下生成按钮,它就会按文字稿件,生成播音员的动作、表情、口型,甚至有灯光效果,人的头发与背景颜色的对比像极了真实演播室的虚拟抠像。
当然,最核心的还是人工智能合成的语音。音色听起来已经非常逼真,语言表达也相当流畅,语速适中,语势平中略扬,语义抱团和数字重音,都能明显听出。真的是越来越接近于真人播音了。
关键是这个“播音员”是全天候的,不需要休息,不用吃饭,不会闹情绪,不会有家务事干扰,不会生病、头疼,随叫随到,永远不知疲倦。
目前,已经有不少国内的媒体,已经在实际播出节目中使用这项技术了。当然,目前这个服务是付费的。
那么,免费的怎样呢?差多远呢?
我下载了一个人工配音软件,我随便写了一段话,用了其中的“人”,免费配了一段。文字如下。
这里是声境界测试人工配音的文字,听听看效果怎么样?听了人工智能的语音,你还要继续学朗读吗?
这里,一共两句话,后一句话读得挺好的,几乎乱真。但前一句话有点问题。
我们听到第一句话里的“声境界”断句错误,显然:人工智能没理解“声境界”是一个完整的词。
“声境界”这三个字是我想出来的,肯定不在大众词库中,不能识别也正常。于是,我把这三个字加上引号,算是友情提示。人工智能领不领这个情呢?
好,再生成一遍!
大家猜“她”改了没?
改了!真的改了!
这是给点阳光就可以灿烂啊!
接下来,再听听儿童版的人工智能语音!
天哪!
是不是有点天衣无缝的感脚?
恐怖不?
2018年1月,在人工智能合成李易语音的时候,我就说过,人工智能语音最先挑战的是领域,就是新闻播音。。
因为多数新闻播音,其实是普通话标准的职业播音员,平稳快速地用声音传递文字信息。
当然,遇到一些高级的稿件,有特殊要求的稿件,AI暂时是代替不了人的,也可能永远不能代替人。但这只是很少的一部分。我想至少应该有80%以上的新闻,是可以通过AI合成技术代替人类的劳动。
简单重复,劳动强度大,这样的工作,AI是恰好可以胜任的。
作为一个研究朗诵朗读、学习和欣赏朗诵朗读的公众平台,我并不想讨论新闻播音员以后的生存状态,也不想研究播音主持院校应该如何应对,我想说的只是,人工智能都发展到这个地步了,你现在学习普通话朗诵朗读,还有意义吗?
我看到现在仍然有不少微信群,有不少的人在苦练新闻播音。他们都是普通有声语言爱好者,因为想学普通话或朗诵朗读,而绕了个大弯去学新闻播音。因为听说播新闻有助于练习基本功。
我一直想不通的是,要练基本功,直接练就行了,有具体的方法和步骤;干嘛要通过练播新闻绕这么大个远路呢?
新闻,是有新闻的文体特征的,也就是人们常说的“新闻腔”,或“播音腔”。
你要练不会,怎么播也不像新闻;可是你一旦练会了,很容易读什么都像播新闻。
你听听全国各级电台电视台的新闻主播朗诵诗歌散文就知道,多数人都生硬冷,而且不自知。因为这已经是职业习惯了。
虽然吐字发声和普通话语音的基本功很扎实,甚至声音也很好听,但播什么都一个味。这个职业习惯是极难摆脱的。
而且,就算你练会了,将来也许能拓展一条新的谋生技能(实际上,传统媒体您就别想了,允许播新闻的人就那么几个),但你不在一线每天繁重大量地播个十年八年,一张口就会被AI播音员秒杀的。
以上说的是普通有声语言爱好者学播新闻的事。接下来继续回到起点:人工智能时代,普通有声语言爱好者学习朗诵朗读,还有意义吗?
有。
因为你有情感,你懂情感。
人工智能不懂。
就好比手工艺品,机器制造的东西,很漂亮,但千篇一律,基本上都是廉价货;真正珍贵的那些,都是人工手工制作。
所以,我们不妨扬长避短。
扬长避短,先要知长知短。
那就要知道人工智能的长处有哪些;人类的长处有哪些?
我认为,人工智能的长处在于:
1、音色好。如果有足够的样本,它可以轻松模仿人类最好听的声音。比如AI李易就是一例。这也是我说,低端的广告播音也会被人工智能替代的最重要的原因。
所以,如果你的嗓音好听,请不要过于自信。因为只要你没有达到人类的顶端,在这方面,AI可以轻松超过你。
2、成本低。假如有人付你报酬,你读1个小时的文字,最少多少钱你能接受?我想,再少也得10块钱吧?
可是,人工智能呢?
现在已经有免费的了。将来,可能也就是1块钱成本。你怎么能和它比量?
所以,以价取胜、以量取胜的想法,也免了吧!
3、随叫随到。7×24小时,连轴转,转三年、十年……机器行,人不行啊。
4、效率高。录一篇10分钟的文章,连录制带剪辑,你怎么也得15分钟吧。再加上录音环境各种干扰,还会耽误时间。15分钟都是理想状态。
而机器,只是个生成过程而已。只要计算机速度够快,你15分钟干的活,它可能就是10秒钟。
所以,简单重复的劳动,人和机器是没法比的。完败。
那么,人的优势,在哪里呢?
1、真情感
我不说“情感”,而说“真情感”,这里,最重要的一个字是“真”。
其实,AI也可以有情感。如果人工智能判断出需要浓浓地抒情,哭腔……其实也是可以做出来的。但,要做到“真”,可就太难了。我觉得,几乎不可能。
什么叫真情感?
一篇文字,从头到尾,每一段,甚至每一句的情感都是不一样的。你的朗读,符合这每一个“不一样”,那就叫真情感。
二、内在语
况且,中国人写文章,还有一个非常独特的爱好,就是爱留“内在语”,或者叫“潜台词”。简单讲,表面上讲的意思,和实际的意思不一样,甚至是相反的。
嘴上说喜欢你,其实却是恨你入骨。
要知道,人工智能最大的缺陷在于不会撒谎,当然,它也识别不出谎言。
而我们的这种内在语或潜台词,和谎言有异曲同工之妙:都是字面意思并非实际的意思。
这是人类与机器相比,最独特的地方。
在《三体》中,人类要战胜三体人的最厉害的武器,不就是撒谎吗?
所以,读文章,深刻理解内在语,这也是人类朗读的核心竞争力所在。
简单讲,从传递信息的角度来看,人工智能语音,将全面取代人类。
但从艺术创造,情感体验,审美需求等方面来看,人类还是有独特优势的。
那么,有声语言爱好者,今后的道路与对策是:
1、下功夫分析文章。斯琴高娃老师曾说“我就一个笨办法,就是分析”。机器是不会分析文章的,但人会!
2、努力解读内在语。人类写文章,一定有内在语(即“潜台词”)。特别是东方人含蓄,再喜欢用内在语表达情感。这是机器不能理解的,但人都懂。只是,生活中一般你能听懂的内在语,变成文字语言后往往会被忽视。所以一定要树立意识,警惕敏感。
3、求真传情。情感是机器永远不可能理解的东西。你要学朗读,就应该把更多的精力放在如何真听真看真感受,传递真与情。
而且,不能仅仅局限在“有感情”上,因为机器也可以做到“有感情”的。
我们要做到的是“真感情”。
关于“有感情”和“真感情”的区别,详见我之前写的这篇文章《》。