您当前的位置:首页>论文资料>基于MFCC的说话人语音识别系统的研究

基于MFCC的说话人语音识别系统的研究

资料类别:论文资料

文档格式:PDF电子版

文件大小:1.73 MB

资料语言:中文

更新时间:2024-12-26 11:38:55



推荐标签:

内容简介

基于MFCC的说话人语音识别系统的研究 科技论坛
基于MFCC的说话人语音识别系统的研究
于树本
(海军大连地区装备修理监修室,辽宁大连116041)
· 69 ·
摘要:说话人识别是当前语音识别的研究热点之一。本文主要研究了以下几个方面:说话人语音识别系统,对能够反映人对语音感知待性的Mel频率例语系数(MFCC)作为特征参数进行提取。同时,分析了就率神经网络PNN,概率神经网络是性能良好的分类神经网络。实验结果表明,概率神经网络PNN对训的语青样本有着很高的分类准确率
关键词:Mel频率例请系数:概率神经网络:说话人语音识别系统:特征提取
Abstract:Speaker recognition is one of the hot topics in speech recognition. This paper mainly studies the following aspects: Speak-er recognition system, which can reflect the characteristics of the speech peroeption of the Mel frequency coefficients (MFCC) as a fea-ture parameter extraction. At the same time, it analyzes the probabilistic neural network PNN, and the performance of the neural network is good. The experimental results show that the PNN can have very high classification accuracy for the training of speech samples.
Key words: Mel frequency coefficients ; Probabilistic neural network ;Speaker recognition system; Feature extraction 说话人识别(Speaker Recognition,SR)技术(也称为声纹识别技
由此可见,可以依据声道和声音源激励两者所处在的倒谱时段
术)是属于生物认证技术的一种,是一种能够依据语音波形中反映
不同,进而在对语音信号处理时,可以通过倒谱的低时和高时段将
说话人行为和生理特征的一种语音识别参数,从面自动的识别说话人身份的一种技术。说话人语音识别技术的核心就是从预先录入的说话人声音样本中提取出说话人独有的语音特征,并将其保存在数据库中,在需要应用时将待验证的声音与数据库中的语音进行匹配对比,进而来识别决定说话人的身份
建立说话人识别系统,必领经过两个过程阶段:训练阶段和识别阶段。在语音训练阶段,录取实验者说出的不同语句,并将其存入到数据库中,然后语音识别系统会自动根据这些语句为实验者建立模板和模型参数等信息,这就是包含所有实验者的语音参考模式库的建立过程。在语音识别阶段,其目的是确认说话人的身份,即将待识别者所说的语音信息进行语音特征提取,并与语音识别系统训练阶段产生的模板和模型参数在相似度上进行对比,根据对比的失真来确认是否认同该说适人的身份
说话人识别系统的实现,面临解决以下三个基本间题:对语音信号的进行的预处理过程,对说话人模型的建立和模型参数的训练过程以及测试音与说话人的匹配距离计算过程。
1说话人识别中的特征提取
在语音处理工作之前,必须进行的工作是对语音的分析。由于语音信号是一种非平稳的信号,那么对于非平稳的信号进行分析,主要采用的是短时平稳方法。主要采用4种方法对语音信号进行分析:
时域分析、频额域分析、语谱分析、倒谱分析
时域分析:语音信号的本身就是一种时域信号。那么时域波形图在对时域分析中最有效同时使用最为广泛
语谱分析:语音信号不仅仅是一种时域信号,而是一种更加复杂的信号。那么对于语音信号的时域分析与频域分析都将具有一定的局限性。面语谱分析是将时域和频域的特性结合起来分析的一种方法。
颠域分析:由于语音是一个非平稳过程.因此对于语音信号的
它们彼此分离,从而基本互不干扰
2MFCC参数的提取
Mel频率倒谱系数(MFCC)的分析着眼于人耳的听觉特性,即根据听觉实验的结果来分析的频谱,以此来获得较好的语音特性。 Mel频率与实际频率的关系可用下式近似表示:
Mel()= 2595logio(1+ f / 700)
2.1原始语音信号S(n)经预加重、分赖、加窗等预处理,得到X(n),X(n)为每个语音的时域信号。将时域信号x(n)经过离散傅里叶变换(DFT)处理之后得到线性频谱X(k)。设语音信号的离散傅
里叶变换(DFT)为:
x(n)e-/2mnt/a
X. (k)=
0
2.2求解能量谱的方法为求解线性频谱x(k)幅度的平方值。将语音信号通过一组Mel尺度的三角形滤波器组。每个带通滤波器的传递函数为:
0
k 2(k f(m 1)
(U(m +1) J(m1)(F(m) J(m1) J(m1) ≤k≤ F(m)
H_(k)=
2( f(m +1) k)
(U(m +1) (m 1)(f(m + 1) f(m) (m) ≤k ≤ F(m + I)
0
2.3计算通过Mel滤波器的对数能量为
X(k)H,(k)
S(m)= ln)
± ≥ f(m+1) 0≤m 2.4把MeI滤波器的能量取对数后计算离散余弦变化(DCT)后
频谱分析应该采用短时傅立叶变换。设x(m)为第n恢在加窗之后的
得到:
语音信号,则其对应的傅立叶变换如下所示:
Zx (m)(e-m)
X.(e*)=
因固此可以得到与之相应的功率谱为:
S.(e*)=x,(e)
功率谱在语音信号处理和语音应用系统中,都具有较为重要的意义。
倒谱分析:倒谱特征对于说话人语音识别是最有效也是最常见的特征。
C(n) =
S(m)cos(n(m 0.5)/ M)
0≤n MeI频率倒谱系数与线性预测倒谱分析相比较,MFCC的优点是在声环境下能够表现出更稳定更好地的鲁棒性.因此MFCC在非特定人说话人识别系统中有利于抑制因说话人的不同所造成的影响
3概率神经网络
概率神经网络(Probabilistic neural network,PNN)是基于概率统计思想和贝叶斯分类规则构成的分类神经网络。概率神经网络(PNN)是径向基函数(RBF)网络的一种,和其它(RBF)网络一样,(PNN)中存在一个径向基的传递函数环节,这个径向基传递函数是
上一章:多频涡流无损检测的干扰抑制和缺陷检测方法研究 下一章:汽轮发电机转子轴电压的消除方法

相关文章

基于语音信号时变特性的说话人辨认 鲁棒性说话人识别技术-在移动商务中的应用研究 基于ELM神经网络的语音识别研究 基于小波去噪的语音识别系统 基于AVR单片机的语音识别系统设计 基于猫群优化神经网络的语音情感识别 基于STM32的嵌入式语音识别模块设计 SJ/T 11380-2008 自动声纹识别(说话人识别)技术规范