OA系统图书馆网站地图所长信箱English中国科学院
 
首页机构概况科研成果研究队伍国际交流科技合作研究生教育文化建设党群园地科学传播信息公开
  综合新闻  
  图片新闻  
  科研动态  
  学术活动  
  媒体报道  
您现在的位置:首页 > 老网站 > 新闻动态 > 媒体报道
新华日报:人工智能时代,你了解“声音”吗?
2021/03/22 | 作者:新华日报记者 谢诗涵 | 【 【打印】【关闭】

  音频社交渐热, “所听”并非真实 ——

  人工智能时代,你了解“声音”吗?

  近日,美国一款即时性音频社交软件Clubhouse风靡全球,不到一年的上线时间,软件全球下载量突破800万。“Spaces”“对话吧”“SoundClub”等一系列类似软件紧跟其后,似乎都在暗示声音社交回归舞台。

  自出生后的第一声啼哭开始,我们与声音“相处”已久,但关于“声音”,或许还有许多方面值得我们深究。人工智能时代,声音在被捕捉、模仿、传输和理解的过程中,究竟经历了什么?本期《科技周刊》带你走进声音的世界。

  语音中的声音为何变“奇怪”

  现实生活中,很多人有这样的经历:当你饱含深情地说了一段语音后,语音播放出来却不仅声音变得奇怪,听起来甚至不太像自己。明明是同一个人在说话,为何会出现这样的差异呢?究竟哪个才是自己最真实的声音?“实际上,这主要有两个原因,首先是声音传播的方式不同,另一个是语音经过社交平台转录出去后常常会被压缩。”中国科学院声学研究所研究员、中国科学院语言声学与内容理解重点实验室副主任张鹏远接受《科技周刊》记者采访时表示,声音是由物体振动产生的,“别人听见你的声音”是由你声带的振动引起了空气的振动,从而被他人感知,所以是依靠空气传播;而“自己听见自己的声音”则是通过颅骨传导,直接振动耳蜗进而转化为神经信号,变成你所听到的声音,这也就是我们常说的“骨传导”。“因为传播方式的不同,且环境中存在着大量干扰,同一个人说的话自己听见的版本和别人听见的版本是不同的。”

  除此之外,声音之所以变“奇怪”可能还涉及编码和解码的问题。“当我们对着麦克风说话,声音被麦克风采集后转为数字信号,这时候就可能会出现失真。”张鹏远以有损音频和无损音频举例,如果把声音视作一条曲线,无数的点构成了这条曲线。对于同样一段声音,有损音频的采样频率和采样精度比较低,比如每秒钟采样8000个点(约为打电话时所用的采样频率),那么声音自然就会出现偏差。同一首歌曲,采样频率和采样精度越高,其对声音的还原程度也就越高。“一般来说,有损音频和无损音频的文件大小可以相差10倍以上。我们通过微信发送语音,因为要降低传输数据量,所以一般都会对其进行压缩。”

  声音和我们的指纹一样,有着每个人各自的独特之处,并且相对稳定、可辨别。“由于人的发声器官位置、尺寸不同,并且每个人声音的音色、音调等特征不同,所以从人声音中提取出来的声纹(人的声音频谱)具有唯一性。”张鹏远表示,现在很流行的声纹识别技术实际上就是将声信号转化为数字信号,再利用技术手段捕捉特定对象的声纹特征,从而判定说话的人是谁。

  你的声音如何被“复刻”

  自1939年世界上第一台能够合成人声的电子设备Voder亮相纽约世界博览会以来,“如何能让机器模仿人的声音”就成了人工智能领域的一大热点话题。江苏省人工智能学会智能语音专家、苏州思必驰信息科技有限公司联合创始人、上海交通大学苏州人工智能研究院执行院长俞凯教授告诉《科技周刊》记者,人工智能语音合成技术正不断迭代更新,其发展历史主要分为三个阶段:在第一代技术阶段,我们需要被模仿人提前录制一个庞大的音库,这个音库会被切分成若干小段随时待取,当我们所需要合成的语音中每一个涉及的词都提前被录制过,则可以直接调取。“这种情况下播放出的声音将会很逼真,基本上就是录音,但其缺点在于需要提前录制大量语料,一旦遇到没有提前录制的词句,就会出现间断等明显不自然情况。”

  第二代技术开始运用机器学习技术,首先将采集到的声音利用相关参数化的统计模型进行建模,使用信号处理的方式,将建模之后生成的声音频率特征进行信号处理,最后输出我们能够听见的声音。“尽管这种方式的连贯性会好很多,但由于在统计模型的建模过程中声音频率特征会被平滑,从而产生音质损失,因此整体来看第二代技术所合成的语音并不是那么逼真。”而在第二代技术的基础上发展起来的第三代语音合成技术,大多是基于深度学习中的神经网络技术开展。“和第二代相似,现在的第三代技术也是数据驱动的,但大多采用了先进的端到端深度学习框架,数据训练后合成的声音比较连贯和自然。如果在录音条件非常好且有充足数据的情况下,其合成声音和真人声音没有太大区别,人耳基本上听不出差异。”

  目前利用语音合成技术去模仿人声,需要通过神经网络去捕捉被模仿人声音中的三类主要变化特性。俞凯介绍,首先是语言文字的特征,即这个词应该发什么音;第二类特征是韵律的特征,即声音的抑扬顿挫;最后还需要把握说话人的时长特征,即说话人发每个音需要用的时间。“男人和女人、老人和孩子,不同人说话的声音各不相同,这三类特征信息被神经网络捕捉到之后会生成一个频谱序列,而这个序列会被传递到另一类神经网络中,最终生成模仿后的声音。”

  生活中,很多车主将林志玲、郭德纲等名人的声音设定为地图软件中的导航提示音,其实这也得益于语音合成中的复刻技术。“全国大大小小的路名有很多,全部让人念出来录音几乎是不可能的事。因此,我们需要前期在高保真录音室中记录很多人的语音数据,训练一个平均模型,随后将特定目标人说话的录音导入,让系统根据目标人说话特征进行调优,从而尽可能模仿目标人的声音。”张鹏远表示,一般来说,合成语音的自然度和相似度是通过MOS(平均主观意见分)分来进行评价。MOS分满分为5分,一般情况下采集目标人100句话之后所能合成的语音,其MOS分可以达到4.2分的水平;而如果只采集到5句话,则MOS分就会比较低,人耳能明显听出不同。

  透过声音能“看到”脸吗

  两年前,康奈尔大学研究团队设计并训练了一个深度神经网络,它在训练过程中学习了视听、音像、声音和面部的关联性,从而根据声音来推测面部特征。透过声音,人工智能真的能够“看到”脸吗?目前,人工智能领域对声音的研究又有何新进展?对此,张鹏远认为,单纯借助声音无法百分百还原目标人的脸部图像,但有可能还原出其部分面部特征。“人的声音和人脸的图像其实是有相关性的,例如我们在单看唇部运动的时候,哪怕没有出声,也可以识别其部分说话内容,所以说声音和图像并不能被割裂,而是强相关。”

  从康奈尔大学研究团队的实验结果来看,通过声音,人工智能确实可以生成与目标人类似的面孔,可以还原其部分特征,但和真实长相还有一定差距。俞凯表示,说话人的年龄、性别、面部骨骼等生理学特征确实与人的声音具有相关性,可以一定程度上还原说话人的面部特征,但想单独凭借声音这一种模态来完全重构人脸,目前是做不到的。

  近年来,随着人工智能领域对于声音的研究越来越多,其发展速度也不断加快。“在人与人工智能的语音交互过程中,不单单包括语音合成和识别,还涉及对说话内容的理解。”俞凯进一步解释,目前大多数人接触到的语音交互主要是“你一句,我一句”轮换着对话的模式,而我们现在正在研究的是即兴自然语音交互的新架构,即真人与人工智能可以自由对话。简单来说就是,对话期间任何一方都可以打断另一方;当人没有表达完自己想表达的意思时,人工智能会等人继续说完;而当人表达完意思后,人工智能可以立刻反馈。“我们采用‘全双工’的交互架构,帮助人工智能在‘听见’声音的基础上,能够在语音交互过程中理解说话人的意思,而这些都是早期人工智能语音交互系统里所不具备的。”

  作者:谢诗涵

  来源:《新华日报》 (2021-03-17 14版科技周刊·新知)

  报道链接:

  http://xh.xhby.net/pad/con/202103/17/content_899419.html

 
  相关新闻
Copyright 1996 - 中国科学院声学所 版权所有 备案序号:京ICP备16057196号 京公网安备110402500001号
地址:北京市海淀区北四环西路21号中国科学院声学研究所  邮编:100190