用于室内环境说话人识别的混响补偿方法
曾向阳, 王强    
西北工业大学 航海学院, 陕西 西安 710072
摘要: 针对训练和识别环境不同而导致室内说话人识别系统识别率显著下降的问题,提出了一种基于差异化特征提取的混响补偿方法。与使用传统MFCC特征的识别阶段不同,该方法在训练阶段通过Schroeder反向积分在mel频带获得房间声能量衰减曲线,并使用该曲线补偿纯净信号的MFCC特征,以模拟实际室内混响场声信号特征;同时,通过联合应用相对谱滤波(RASTA)与倒谱均值规整(CMN)处理MFCC特征,进一步抑制房间通道效应对语音信号影响。针对不同混响程度房间中实测数据的识别结果表明,该方法可以显著提高识别率,具有良好的抑制混响作用。
关键词: 协方差矩阵     能量衰减     实验     特征提取     识别控制系统     集成     混响     原理图     稳定性     测试     倒谱均值规整     混响补偿方法下MFCC特征识别     MFCC特征提取     相对谱滤波     混响补偿方法     混响模型     房间脉冲响应     Schroeder反向积分     说话人识别    

室内环境是说话人识别技术的典型应用环境。各种识别系统的训练数据一般在安静环境(如消声室)中采集,测试数据来自于实际房间。由于墙壁和各种反射体的存在,房间中声信号传播时会发生吸收、反射及散射等复杂的声学现象,从而使训练与测试模式失配[1],随着混响时间的增大,识别系统的识别率显著下降[2, 3]。通常将引起这种现象的原因归结为室内混响的综合作用,因此如何补偿室内混响导致的训练与识别条件失配的问题已成为语音和说话人识别领域研究的热点和难点之一。

现有抑制室内混响影响的研究主要将混响作为一种通道效应,因而采用抑制通道效应的算法去除,具体可分为3个层次的方法:信号级、特征级及决策级的混响抑制方法。信号级方法如从含混响信号中估计源信号及其频谱,去除混响在不同时间段对信号的影响。文献[4]提及的大部分抑制混响算法都属于此类,这些方法从识别系统底层去除混响,比较直观,但算法往往很复杂。在特征级处理中,主要研究室内混响对信号频域或倒谱域特征的影响,已提出RASTA[5, 6]、CMN[7, 8]及倒谱形状规整[9]等方法改进特征或去除混响对特征的影响,这类方法简便有效,运算量小,对数据量和识别模型都没有过多要求,因而这方面的应用较多。在决策级处理时,一般通过改进识别模型以抑制通道效应的影响,包括去除通道分量的因子分析(FA)[10]、得分规整、使用大样本背景模型的GMM-UBM[11]等,这类方法往往使用复杂的模型(如FA中的多通道语音数据,GMM-UBM中大规模的说话人数据库),在确定模型参数时需要大量数据,运算量较大,在室内环境少量说话人识别的应用中代价太大。在室内环境中,Castellano等[2]通过数值计算模拟室内混响环境,在训练阶段训练含有人工混响的语音以此匹配训练和识别不同通道的影响,指出了训练纯净语音时加入混响以匹配识别通道的可行性。但是由于不同室内环境对房间通道的影响因素太多(声源位置,传声器位置,物理条件,房间大小等),无法对混响进行精确建模,因此该方法在实际使用中仍受限制。在室内语音识别研究中,Kellermann等提出了一种混响模型[12, 13](reverberation models,REMOS),该方法可以在特征域补偿室内通道效应中叠加性噪声的影响,但他们的研究重点在于改进隐马尔科夫模型(HMM)达到抑制混响影响的目的。

混响并不是一种单纯的通道效应。实际上,室内混响可以理解为2种噪声效应:叠加噪声和乘积噪声,前者由房间界面对声信号的吸收和反射等作用后,使先产生的声信号经过一定时间衰减与后产生的声信号频谱叠加[14],与一般加性噪声不同,叠加的信号是相关的;后者是导致信号频谱变化的乘积噪声,这种噪声可用房间传输函数描述。混响模型虽然可以很好地补偿叠加性噪声,却缺乏对室内声信号影响更为显著的乘积性噪声的处理。

在文本内容无关的室内说话人展开研究的基础上,提出了一种新的特征级混响补偿方法。首先在混响模型的基础上,通过利用Schroeder反向积分[15],更好地由房间脉冲响应(RIR)估计房间信号频谱随时间衰减的规律,并由此在训练的纯净信号特征上补偿叠加噪声然后将CMN、RASTA与得到的MFCC特征提取结合,抑制乘积噪声。利用不同混响程度房间中的实测数据,检验了该方法的有效性。

1 基于差异化特征提取的混响补偿方法 1.1 混响补偿模型

室内说话人识别的主要问题是房间混响的影响。房间声信号传播的传统模型认为房间是一个线性时不变系统,因而可以利用房间脉冲响应(room impulse response,RIR)描述。在时域可以表示为[14]

式中,y(t)为接收到的信号,s(t)为源信号,h(t)即为RIR。在频域可以写为

对于稳态信号上述公式是成立的,但语音是短时平稳信号,只有在10~30 ms内[16],其傅里叶变换才有意义。因此,通过将语音信号分帧,并考虑H(jω)是时不变以及假设h(t)的长度小于或约等于每一帧的信号长度,上式就可以更改为

式中,m为帧数标号。

然而实际室内环境中的RIR长度往往比30 ms大得多,因此,直接利用上式描述室内声信号传播不够准确。Kellermann给出更为精确的估计方法REMOS,在频域可以表示为[12, 13]

式中,k是帧数序号。其思路是将前若干帧的信号频谱按H(jω,m)衰减规律计算后,与当前帧的信号频谱叠加,作为当前帧频谱的估计值。

房间中mel频率能量衰减曲线使用hmel(l,m)描述,表示RIR在第l个mel频带,第m帧的频带能量。故REMOS在mel频率可以表示为

式中,ymel是信号y的mel频带能量;smel是纯净信号s的mel频带能量。(5)式表示在估计当前第k帧语音的mel频带能量时,将前若干帧信号的mel频带能量按照房间的mel频率能量衰减规律乘衰减系数hmel(l,m),叠加即可对房间混响的一部分叠加噪声效应进行补偿,减少训练样本和测试样本的不匹配。其中,hmel(l,m)通过将RIR经过分帧、加窗、FFT后再通过mel滤波器组得到。

(5)式给出了混响模型在mel频域的表示,但直接应用该模型修正mel频谱的能量还存在一些问题。首先,RIR的起点往往不能精确得到,而hmel受RIR起点和噪声影响大,对识别带来不利影响。其次,mel滤波器组在不同中心频率及其带宽内的系数是不同的,使上述方法得到的hmel对mel频率不同频带的加权系数不同,相当于额外引入了一种乘积噪声。下面给出一种新的mel频率能量衰减曲线估计方法。

设经过第l个mel滤波器后的房间脉冲响应为hl(t),现对其进行分帧,设帧长为N,则房间脉冲响应第m帧可表示为h′l(t,m)

由Schroeder反向积分法估计第l个mel滤波器在第m帧处的能量衰减曲线如(7)式所示:

Passival定理指出信号的时域平均功率等于频域功率,故:

第1个等式是由于时域信号通过第l个mel频带的带通滤波器得到的,可得归一化修正能量衰减曲线

图 1给出了l=5(即第5个mel频带)时Schroeder反向积分和直接计算衰减曲线的差异。图 1a)为直接计算得到的衰减曲线,图 1b)为经过Schroeder反向积分后得到的衰减曲线。可以看出,图 1a)衰减曲线起点处数值波动较大,图 1b)衰减曲线更为平滑和稳定,可以提高提取特征的稳定性。这种归一化处理还减少了直接利用 进行计算时因滤波系数不同导致的乘积性噪声。

图 1 Schroeder反向积分和直接方法计算衰减曲线对比
1.2 基于混响补偿的MFCC特征提取

以下给出在提取语音MFCC特征时考虑混响补偿的计算方法,如图 2所示。

图 2 利用混响模型修正MFCC特征

训练阶段(使用消声室或纯净语音时)将RIR和说话人语音信号同时通过分帧加窗后,变换到频谱和mel频域,通过(9)式计算RIR的归一化mel频率衰减曲线hmel。使用hmel代替(5)式中的hmel,就可以模拟出实际房间信号的mel频谱,通过MFCC计算方法计算得到最终特征参数。

这种MFCC特征提取方法具有模拟混响环境中声信号特征的作用。在处理通道失配问题时,该方法与传统思路不同,传统思路一般考虑将混响从声信号中去除,并以此抑制混响的影响。本文思路是将混响引入到训练阶段,以此匹配训练及识别环境。传统思路是从声信号中去除混响部分,在频谱上做减法去除叠加噪声往往引入其他类型的噪声,如音乐噪声等或引起频谱上出现零或负值导致MFCC特征提取中取对数(对数函数对0~1之间的参数变化过于敏感)无法计算的问题,影响识别结果。本文将混响补偿到MFCC特征中(在频谱上做加法),是一种更为稳健的方法。

1.3 结合RASTA与CMN抑制乘积性噪声

用(5)式表示的混响模型忽略了房间对不同频带的加强或者抑制作用,可以反映为信号与某个频率响应的乘积(噪声)。它与时间和源信号本身无关,只与房间本身特性有关。在前述改进的混响模型的基础上,接收信号的mel频谱可完整表示为

cmel与mel频带有关,表示信号传播和频谱处理过程中可能出现的乘积性噪声。上式可以改写为

对(11)式两边应用MFCC的计算方法,即可得

式中,ymfcc=DCT[log(ymel)]是信号y的梅尔频率倒谱系数,cmfcc=DCT[log(cmel)]。

由于cmfcc是一个时不变量,通过去除MFCC的均值能很好地抑制其影响。由上述推导可以看出,通过(10)式描述完整的房间通道效应,将mel频带能量转化为MFCC时,使用CMN去除cmfcc的影响后,(13)式的右端正是使用混响模型(5)式补偿叠加噪声以后的MFCC系数的计算过程。CMN与混响模型的融合,能同时补偿叠加噪声并抑制乘积噪声。

此外,还可以对前述得到的MFCC特征进行RASTA时间轨迹滤波,去除录制语音中因通道效应导致的缓变分量和快速变化的分量,对通道噪声也有进一步的抑制作用。滤波器传递函数如下:

式中,本文选取的参数为G=0.1,ρ=0.94。

2 实验及讨论 2.1 说话人识别模型及室内混响补偿方法的效果验证

针对室内环境中与文本无关的说话人识别系统,以传统及改进的MFCC为特征,通过使用了GMM模型对不同说话人的类条件概率密度进行建模。实验具体条件如下:

1) 使用2种信道条件下的语音数据库。其中数据库1包括6名说话人,在3个房间采集(消声室、小教室和大教室),采样频率为22 050 Hz。训练语音均来自消声室,每人的时长为1 min,每个测试样本的时长约为3 s,使用总长度为5 min的测试语音,共获得600个测试样本。数据库2包括10名说话人,在2个房间采集(消声室、小教室),采样频率为44 100 Hz,训练与测试其他条件与数据库1相同。

2) 对语音进行了预加重、分帧并使用hamming窗函数,语音进行分帧时大约为23 ms 1帧。

3) 使用了13阶的MFCC参数,MFCC特征提取频率范围约为0~7 000 kHz。根据对比需要后续处理选择性的使用了RASTA及CMN方法。

4) GMM模型的训练使用了的非对角形式的协方差矩阵,使用k均值聚类方法预分类并初始化,使用EM算法训练模型参数,本文使用的高斯混合分布中高斯分布的数目为4个。

分别在消声室和2个普通教室中进行了说话人训练样本和测试样本采集。其中,大教室尺寸为: ,在7个测点(说话人位置)进行数据采集,如图 3所示:

图 3 大教室测点分布示意图

图中,从右到左分别为测点1~7,距传声器的距离2 .0 m、1 .1 m、0.6 m、1.1 m、2.0 m、3.5 m和6.2 m,该教室的平均混响时间为1.22 s。小教室尺寸为: ,在2个测点进行采集,测点距传声器的距离分别为0.7 m和2.1 m,该教室平均混响时间为0.55 s。各个测点RIR测量采用的是B&K公司的Dirac室内声学测试系统,激励为e-Sweep信号,采样频率为48 kHz。实验中使用重采样降低RIR采样率,使其与语音信号采样率一致。建立以传统的MFCC特征和GMM模型为核心的基线系统(后文记为MFCC),用于比较分析本文提出的方法。在该系统的基础上,分别应用RASTA、RASTA+CMN和本文提出的混响补偿模型,分别记为RMFCC、RCMFCC和RRCMFCC。表 1给出的是以消声室数据进行训练,分别测试3个房间中数据的结果。

表 1 几种方法的识别率对比/%
方法识别率/%
消声室小教室大教室
MFCC92.8365.1754.67
RMFCC98.6776.5057.17
RCMFCC99.1786.0081.17
RRCMFCC93.6790.50

表 1可以看出:

1) 基线系统和RMFCC的识别率在实际房间中显著降低,基线系统的识别率在小房间降低27.66%,大房间降低38.16%,进一步证明了混响的不利影响。

2) 在联合应用了RASTA+CMN方法后识别率有所提高,大房间的识别率提升较小房间更为明显。

3) 在使用本文提出的方法后,识别率进一步得到提升,均达到90%以上,其中小教室中较基线系统提高10.5%,大教室提高13.66%,与RCMFCC方法相比也分别提高了约6%和3%。这些结果表明,本文提出的混响补偿方法能有效改善室内说话人识别的正确率。

2.2 室内不同测点位置对说话人识别的影响分析

考虑到房间中不同位置的RIR有所不同,分别对比分析了2个教室中共11个测点的识别效果。其中包括数据库1中的小教室2个测点,每个测点6人,采集每人5分钟的录音;大教室含7个测点,每个测点3人,含每人5分钟的录音;以及数据库2中的小教室2个测点,每个测点10人的语音数据。分别应用RMFCC,RCMFCC及RRCMFCC 3种方法,所得的识别结果分别见表 2表 3图 4

表 2 数据库1小教室不同测点的识别率对比/%
测点识别率/%
MFCCRMFCCRCMFCCRRCMFCC
165.1776.5086.0093.67
261.8375.6780.3388.83
表 3 数据库2小教室不同测点的识别率对比/%
测点识别率/%
MFCCRMFCCRCMFCCRRCMFCC
147.3081.4085.1087.40
238.3075.5080.4082.60
图 4 大教室不同测点的识别率对比

表 2表 3可以看出,本文提出的RRCMFCC方法在2个数据库,共4个测点的识别中均取得了最好的识别效果,其中在数据库1中识别率较基础MFCC平均提高了27.75%,较RCMFCC方法提高了8.09%。数据库2中较基础MFCC提高了42.20%,较RCMFCC方法提高了2.25%。RCMFCC方法在不同条件下采集的语音数据库中的表现,说明该方法对混响环境中说话人识别系统性能具有显著的改进作用。

表 2图 4可知:1)随着测点与传声器距离的加大,识别率有降低的趋势。2)当测点位置与墙面距离较近时(小房间中测点2及大房间中测点1、6和7),识别率显著下降。3)相比于RMFCC和RCMFCC方法,RRCMFCC对两个房间不同测点的识别率都有较为显著的提高,进一步表明混响补偿模型方法具有较好的位置适应性。

3 结 论

将室内声学理论与传统的通道效应补偿方法、说话人识别方法结合,基于MFCC特征提取方法,对混响模型加以改进,并与CMN-RASTA融合,互相补充,分别用于补偿叠加性噪声和乘积性噪声,抑制其对识别的不利影响。在实际含混响房间中的实验结果证明,这种方法能较好地抑制混响对说话人识别系统的不利影响,且对于不同房间位置具有良好的稳定性。

参考文献
[1] Barker J, Emmanuel Vincent, Ning Ma, et al. The PASCAL CHiME Speech Separation and Recognition Challenge[J]. Computer Speech & Language, 2013, 27(3):621-633
Click to display the text
[2] Castellano P J, Sridharan S, Cole D. Speaker Recognition in Reverbetation Enclosures[C]//IEEE International Conference on Acoustic Speech and Signal, 1996: 117-120
[3] Habets E A P. Multi-Channel Speech Dereverberation Based on a Statistical Model of Late Reverberation[C]//IEEE International Conference on Acoustics, Speech, and Signal Processing, 2005:173-176
Click to display the text
[4] Patrick A Naylor, Nikolay D Gaubitch. Speech Dereverberation[M]. London, Springer, 2010: 2-8
[5] Hermansky H, Morgan N. RASTA Processing of Speech[J]. IEEE Trans on Speech and Audio Processing, 1994, 2(4): 578-589
Click to display the text
[6] Marcel Kockmann, Lukas Burget, Jan Honza Cernocky. Application of Speaker-and Language Identification State-of-the-Art Techniques for Emotion Recognition[J]. IEEE Trans on Audio Speech and Language Processing, 2011, 53(9/10): 1172-1185
Click to display the text
[7] Ganapathy S, Pelecanos J, Omar M K. Feature Normalization for Speaker Verification in Room Reverberation[C]//IEEE International Conference on Acoustics, Speech, and Signal Processing, 2011: 4836-4839
Click to display the text
[8] Tazi E B, Benabbou A, Harti M. Efficient Text Independent Speaker Identification Based on GFCC and CMN Methods[C]//IEEE International Conference on Multimedia Computing and Systems, 2012: 90-95
Click to display the text
[9] 杜俊, 戴礼荣, 王仁华. 倒谱形状规整在噪声鲁棒性语音识别中的应用[J]. 中文信息学报, 2010, 24(2):1-5 Du Jun, Dai Lirong, Wang Renhua. Cepstral Shape Normalization(CSN) for Robust Speech Recognition[J]. Journal of Chinese Information Processing, 2010, 24(2): 1-5 (in Chinese)
Cited By in Cnki (3) | Click to display the text
[10] Kenny P, Boulianne G, Ouellet P, Dumouchel P. Speaker and Session Variability in GMM-Based Speaker Verification[J]. IEEE Trans on Audio Speech and Language Processing, 2007, 15(4): 1448-1460
Click to display the text
[11] Reynolds D A, Quatieri T, Dunn R. Speaker Verification Using Adapted Gaussian Mixture Models[J]. Digital Signal Processing, 2000, 10(1): 19-41
Click to display the text
[12] Armin Sehr, Walter Kellermann. New Results for Feature-Domain Reverberation Modeling[C]//Hands-Free Speech Communication and Microphone Arrays, Trento, 2008: 168-171
Click to display the text
[13] Maas R, Wolf M, Sehr A, et.al. Extension of the REMOS Concept to Frequency-Filtering-Based Features for Reverberation-Robust Speech Recognition[C]//Joint Workshop on Hands-Free Speech Communication and Microphone Arrays, Edinburgh, 2011: 13-18
Click to display the text
[14] 邹谋炎. 反卷积和信号复原[M]. 北京:国防工业出版社, 2001 Zou Mouyan. Deconvolution and Signal Recovery[M]. Beijing: National Defense Industry Press, 2001 (in Chinese)
[15] Schroeder M R. New Method of Measure Reverberation Time[J]. Acoustical Society of American, 1965, 37(3): 409-412
Click to display the text
[16] 韩纪庆, 张磊, 郑铁然. 语音信号处理[M]. 北京: 清华大学出版社, 2004: 46-47 Han Jiqing, Zhang Lei, Zheng Tieran. Speech Signal Processing[M]. Beijing, Tsinghua University Press, 2004: 46-47 (in Chinese)
A Reverberation Compensation Method for Speaker Recognition in Rooms
Zeng Xiangyang, Wang Qiang     
College of Marine Science and Technology, Northwestern Polytechnical University, Xi'an 710072, China
Abstract: To overcome the problem that the accuracy of speaker recognition systems in rooms descends rapidly as a result of the mismatch between training and testing environments, a differential feature extraction method based on reverberation compensation has been brought forward. Different from the recognition phase that uses traditional MFCCs, Schroeder inverse integration is applied to obtaining the energy decay curve in rooms, so that reverberation can be compensated for MFCC features of pure sound signals in training phase. Furthermore MFCCs are processed by CMN (Cepstral Mean Normalization) and RASTA to suppress the room channel effect. The experimental results in different real rooms with various reverberation degrees and their analysis have shown preliminarily that the method we presented can enhance the recognition rate and performs well in suppressing the influence of reverberation.
Key words: covariance matrix     energy dissipation     experiments     feature extraction     identification(control systems)     integration     reverberation     schematic diagrams     stability     testing     cepstral mean normalization(CMN)     identification of MFCC feature with reverberation compensation model     REMOS(reverberation models)     RIR(Room Impulse Response)     Schroeder inverse integration     speaker recognition    
西北工业大学主办。
0

文章信息

曾向阳, 王强
Zeng Xiangyang, Wang Qiang
用于室内环境说话人识别的混响补偿方法
A Reverberation Compensation Method for Speaker Recognition in Rooms
西北工业大学学报, 2015, 33(3): 420-425
Journal of Northwestern Polytechnical University, 2015, 33(3): 420-425.

文章历史

收稿日期: 2014-10-28

相关文章

工作空间