基于软听觉噪声掩蔽和深度神经网络的风噪语音增强方法----中国科学院声学研究所

　　在真实的声学环境中，尤其是户外录音时，语音信号的感知质量和可懂度通常会受到非平稳背景噪声（如风噪）的严重影响。风噪一般是由用户头部、记录设备或其他障碍物周围的湍流气流产生，会严重削弱语音通信的声音质量。

　　为了消除语音通信中的风噪、减少语音失真，声学所院语言声学与内容理解重点实验室的白海钏、葛凤培等人提出了一种应用于实时通信的语音增强方法。相关研究成果发表于学术期刊China Communications 2018年第9期。

　　深度神经网络模型可以通过利用特定环境中采音的大量数据，对风噪和语音成分进行有效估计。但是由于3kHz以下低频区域风噪与语音频谱的重叠性，该区域仍然不可避免存在少量残余风噪。在较低信噪比的条件下，残余噪声极易被人耳感知，从而导致增强后语音信号的听觉质量和可懂度明显下降。

　　基于软听觉噪声掩蔽原理，研究人员提出了一种新的基于深度神经网络的风噪语音增强方法。采用心理声学模型计算语音频谱的听觉掩蔽阈值，并结合软听觉噪声掩蔽原理构建基于频谱加权的语音增强方法。为了适应信号的快速时变特性，语音和噪声频谱均基于深度学习网络进行建模。

　　客观测试和主观评价结果均表明，与传统的基于深度神经网络的风噪抑制方法相比，这种新的语音增强方法有效地抑制了低频区域中的残余风噪，显著提升了降噪性能。

　　本研究获得国家自然科学基金(No.11590772, 11590770)资助。

　　关键词:

　　风噪抑制；语音增强；软听觉噪声掩蔽；心理声学模型；深度神经网络

　　参考文献:

　　BAI Haichuan, GE Fengpei, YAN Yonghong. DNN-based Speech Enhancement Using Soft Audible Noise Masking for Wind Noise Reduction. China Communications (Volume 15 Issue 9, September 2018, Pages 235-243). DOI: 10.1109/CC.2018.8456465.

　　论文链接：https://ieeexplore.ieee.org/document/8456465