中国科学院声学研究所语音与智能信息处理实验室团队参加了IEEE信号处理协会和信号处理领域顶级会议EUSIPCO 2024联合举办的个性化声学信号处理挑战赛(LAP Challenge:Listener Acoustic Personalization Challenge),在“面向数据集融合的HRTF标准化方法(HRTF normalization for merging different HRTF datasets)”任务中斩获冠军。
近年来,个性化头相关传递函数 (Head-Related Transfer Function, HRTF) 在提升混合现实中双耳音频的听觉定位和沉浸感方面展现了潜力。然而,受试者个性化生理结构的准确获取、HRTF的高效仿真以及用户体验的有效验证等相关问题,尚未形成一个国际公认的评估标准。
LAP Challenge是由IEEE信号处理协会和欧洲学术联合组织SONICOM共同发起的面向个性化空间音频信号处理的挑战赛,其组织机构包含了英国帝国理工学院、法国索邦大学等众多知名高校和Dreamwaves、USound等空间音频领域的头部企业。该挑战赛致力于提供一个让研究人员探索空间音频领域难题、推动沉浸式音频处理技术进步的平台,并为个性化空间音频的标准化指标开发做出贡献。
2024年首届LAP挑战赛聚焦于HRTF建模的空间采样和数据标准化。空间采样关注从稀疏测量集重构高空间分辨率的HRTF数据集;数据标准化着眼于将来自不同实验室对不同受试者测量的HRTF数据进行标准化,其目标是补偿由不同测量设置(如设备和环境)引入的差异,确保 HRTF数据不存在与听感无关的数据集特征。
中国科学院声学研究所语音与智能信息处理实验室的李军锋研究员、姚鼎鼎副研究员带领博士研究生赵佳乐、邱泽林、王成仲组成的团队参加了此次比赛,并在“面向数据集融合的HRTF标准化方法(HRTF normalization for merging different HRTF datasets)”任务中取得第一名的成绩。
在本次挑战赛中,本团队提出一个基于神经网络的HRTF数据集融合方法。由于HRTF测量存在测量流程复杂、成本高、时间长的缺点,单个HRTF数据集难以为基于机器学习的HRTF建模方法提供足够的受试者数据,进而使得模型对未知受试者的泛化性存在不足。同时,由于目前不同实验室的HRTF数据集存在测量设备、后处理方法等方面的差异,使得不同HRTF数据集难以直接融合使用。因此,本团队提出基于听觉定位模型的损失函数设计,使得所提神经网络可被利用于处理HRTF幅度谱中与听觉定位无关的数据集特征,进而使不同数据集的HRTF数据可以融合使用。该任务中使用不同数据集间HRTF的分类准确率作为排名指标,分类准确率越低表示去除数据集测量特征的效果越好。本次挑战赛一共吸引了来自包括伦敦帝国理工学院、柏林工业大学、东京都立大学等著名高校和工业界研究机构的11支参赛队伍,所提方法于官方评估中获得了第一名,其分类准确率为26.94%,显著优于其它参赛队伍。
所提方法已在今年8月EUSIPCO 2024的学术会议中与国际同行进行了分享、讨论。