
·技术前沿
基于语音信号时变特性的说话人辨认
张伟杰
徐良军
费万春
鲁星星
(苏州大学纺织与服装工程学院
江苏苏州
215006)
数字技术与应用
【摘要]在平均Me1创谱基础上提取随时间变化的特征频率,由此得到了由各个语音信号特征频率例谱值序列构成的时间序列。运用时间序列预处理和数理统计的方法,分离时间序列的趋势量和波动量,波动量是零均值自协方差非平稳的时间序列,利用满阶
时变参数自回归TVPAR(Time-Varying
Autoregressive)模型对波动量序列进行分析,进一步提取说话人语音信号的
Parameter
特征参数。在波动量序列和用满阶TVPAR模型分析的基础上分别进行说话人识别。实验表明,用满阶TVPAR模型进行识别,识别率比波动量序列上的识别率有较大提高,一个特征额率上平均识别率达到99.68%,取两个特征频率时达到100%。
【关键词]特征频率
非平稳性
[中图分类号)TP391.42
TVPAR模型
马氏距离
[文献标识码]A
说话人识别
[文章编号]10079416(2010)01-0057-05
Speaker Identification on the base of
time-varying characteristics of speech signal
XU Liangjun, FEI Wanchun, ZHANG Weijie, LU Xingxing
(College of Textileand Clothing Engineering,Soochow University,Suzhou,215006,China)
[AbstractjTimevarying characteristic frequency was extracted from the average Mel cepstrum, and the cepstrum value series of characteristic frequency were gained. The deterministic and stochastic parts of the time series were separated by use of time series pretreatment and statistical methods. As zero mean autocovariance nonstationary time series, the stochastic parts were analyzed by the full order TVPAR(TimeVarying Parameter Autoregressive)model, and the characteristic parameters were extracted from speech signals of the speaker. Then the speech signals were recognized on the stochastic parts of the time series and analysis with the full order TVPAR model. The experimental results manifest that the recognition rate obtained by full order TVPAR model are higher than only on stochastic parts of the time series, with one or two characteristic frequencies, the average recognition rate reaches 99.68% and 100% respectively.
ooaeoseeeao
引言
说话人识别的主要目的是从待识语音中寻找说话人信息并根据要求给以判定或分类。说话人确认和说话人辨认是说话人识别中的两大任务。判定待识语音是否是指定个体的语音称为说话人确认,判断出待识语音是语音模板中哪个说话人的语音称为说话人辨认,说话人识别的关键间题是,用语音信号的赚些特征描述说话人语音是最有效可靠的,近年来有许多这方面的研究,目前最常用的特征参数有基音周期、共振峰频率、谱相关特征、LPCC(线性预测例谱系数)和MFCC(Mel频率例谱系数)等等川,其中MFCC是一种比较常用且性能较好的特征参数。达是由于 MFCC反映了人耳对频率高低的非线性感觉,和传统的线性预测例谱系数LPCC相比,其识别性能和抗噪性能有著明显的优势日。而谱相关特征分析中,短时例谱里同频率谱线随时间的相关性特征接说话人不同区别较大,
已经得到把同一率Mel例
讲值序列作为时间序列进行分析,取3个
万方数据
特征频率,平均识期事为97.94%0。本文在Mel短时倒谱的基础上进行谱相关性分析,分析语音信号时变的特性,获得了识别效果更好的特征参数。
董丝纤度序列中范含着有趣的统计数理向题1*-,在研究菌丝纤度序列时,得出了分析非平稳时间序列的时变参数自回归模型(TVPAR模型)理论16-1。本文把语音信号序列看作非平稳的时间序列,分析其时变特性,在Mel短时例谱序列上导找到特征频率例谱值序列,并结合统计学方法建立不同时间特征频率创谱值与Mel例谱平均值之间的线性回归方程,提取特征频率倒谱值序列的趋势量和波动量,根据液动量的大小进行说话人辨认,再对波动量用TVPAR模型进行分析,进行说话人
并进行对比分析。
识别,:
自协方差非平稳时间序列
某随机过程经过若干次采样得到时间序列u=,2,,I,=0,,,,其中为取样序列数,在统计意义上充分大,人的大小与实际的时间序列值的偏差有关,
T为一正整数,在时间点t的平均值可由下式得到:
A, = Ey., = linm
nel
其自协方差可以由下式得到:
Cu=EX,-AX-A)=lim
(u-A)ur-A)
其中,r=0,1,,。如果t,通常
有Gya+C,nt
(t,r,t+h,r+h=0,,,7),
这种序列被定义为自协方差非平稳时间序列7],如果μ,=μ,=μ=0,则这种序列为零均值自协方差非平稳时间序列。
2语音信号的时变特性
语音信号是非平稳时间序列,它的重要特性是具有时变性,但是在10~30ms时间范国内可近似看作平稳的,可以将语音信号分赖来处理。本文研究的是与文本有关的说话人识别,样本语音是/wei/(喂)。
语音信号采样时,
选用采样频率为
11025Hz,分赖处理时,选频长为23.2ms,赖移为5.8ms。
经过采样和量化得到时域上的语音信
数字技术与应用
57