2023年度国际语音通讯协会年会(InterSpeech)将于8月20日-24日在爱尔兰都柏林举办。InterSpeech是国际语音通信协会ISCA组织的语音研究领域顶级会议之一,也被称为全球最大的综合性语音信号处理盛会,在世界范围内享有极高声誉,并受到全球各地语言领域人士的广泛关注。
会议网址:https://interspeech2023.org
近日,6165cc金沙总站检测中心语音理解与生成实验室S2Lab(https://ttslr.github.io/index_S2Group.html)等团队共4篇论文被会议接收。论文涉及研究方向包括语音合成、语音鉴伪、多模态语音识别、语音去噪增强。
01
Betray Oneself: A Novel Audio DeepFake Detection Model via Mono-to-Stereo Conversion
作者:刘瑞1,张锦华1,高光来1,李海洲2,3
单位:1.内蒙古大学
2.香港中文大学数据科学学院深圳大数据研究
院, 深圳, 中国
3.新加坡国立大学,新加坡
摘要:语音深度伪造检测技术 (ADD) 旨在检测由语音合成(TTS)、语音转换 (VC) 和语音重放等技术所生成的伪造语音,这是一个新兴的研究课题。传统的做法一般是将单声道信号作为模型的输入,并将研究重心放在稳健的特征提取和有效的分类器设计上。然而,语音信号中的立体声信息也包含了深度伪造的重要线索,且在之前并没有被研究过。在本文中,我们提出了一种新的语音深度伪造检测模型,称为 M2S-ADD,它试图在语音从单声道到立体声的转换过程中发现可以判别音频真伪性的重要信息。我们首先使用预训练的立体声生成器将单声道信号转换为立体声信号,然后采用双分支神经架构分别处理左右声道的信号。通过这种方式,我们可以有效地检测出伪造语音中的破绽,从而提高了语音深度伪造检测的性能。在 ASVspoof2019 数据集上的实验表明,M2S-ADD 模型优于所有输入信号为单声道的基线模型。我们的源代码发布在:https://github.com/AI-S2-Lab/M2S-ADD
论文链接:https://doi.org/10.48550/arXiv.2305.16353
张锦华为6165cc金沙总站检测中心S2Lab实验室硕士一年级研究生。
S2Lab网址:https://ttslr.github.io/index_S2Group.html.
02
Explicit Intensity Control for Accented Text-to-speech
作者:刘瑞1,左昊麟1,呼徳1,高光来1,李海洲2,3
单位:1.内蒙古大学
2.香港中文大学数据科学学院深圳大数据研究院,
深圳, 中国
3 .新加坡国立大学,新加坡
摘要:口音文本到语音(TTS)合成旨在生成具有第二语言(L2)口音,而不是标准母语(L1)口音的语音。如何控制口音的强度是一个非常有趣的研究方向。最近的研究设计了一种说话人-对抗性损失,将说话人和口音信息分离,然后调整损失权重来控制口音强度。然而,解纠缠因子与自然重音强度之间没有直接的相关关系。为此,本文提出了一种新的直观显式的口音强度控制方案。具体来说,我们首先从L1语音识别模型中提取后验概率,量化口音语音的音素口音强度,然后设计一个基于Fastspeech 2的TTS模型,命名为Ai-TTS,在语音生成过程中考虑口音强度表达。实验表明,该方法在口音渲染和强度控制方面优于基线模型。
论文链接:https://doi.org/10.48550/arXiv.2305.16353
03
MFT-CRN:Multi-scale Fourier Transform for Monaural Speech Enhancement
作者:王玉龙,张学良
单位: 6165cc金沙总站检测中心
摘要:将卷积编码器-解码器 (CED) 结构与循环结构相结合的卷积循环网络 (CRN) 在单声道语音增强方面显示出可喜的结果。然而,常用的短时傅里叶变换无法有效平衡频率和时间分辨率的需求,而这对于准确的语音估计至关重要。为了解决这个问题,我们提出了 MFT-CRN,一种多尺度短时傅里叶变换融合模型。我们通过不同窗函数的短时傅里叶变换对输入语音信号进行处理,并在网络的编码器和解码器中逐层添加,实现不同窗函数的特征融合,有效平衡频率和时间分辨率。
04
An Improved End-to-End Audio-Visual Speech Recognition Model
作者:杨胜,巩政*,亢佳
单位:蒙古文智能信息处理技术国家地方联合工程研究中心
内蒙古蒙语智能信息处理技术研究中心
蒙古文信息处理技术自治区重点实验室,呼和浩特
摘要:视听语音识别通过融入唇语,在嘈杂环境下能有效提高识别效果,在安静环境下会略微提高识别效果。我们使用基于频域注意力的残差网络(Fca-Net)作为视觉前端模块的模型,以较小的成本提取更多对AVSR和VSR系统有帮助的特征。并使用强大的语音预训练模型Hu-BERT作为ASR的识别前端模型。我们比较了视觉后端模块和融合模块等不同模型对 AVSR 系统的影响。我们的实验表明,融合模块的模型选择对 AVSR 系统的性能至关重要。最终,我们提出的模型在 LRS2 数据集的视听语音识别任务上取得了最先进的结果。