基于小波包分析的声音特性提取学位论文(编辑修改稿)内容摘要:

极大值点位置,就可精确检测到因声门闭合产生的语音波形的突变点。 ( 2) 小波分析在语音波形编码中的应用。 对该语音编码算法的抗误码性能进行计算机仿真研究的基础上 , 设计、集成了以 C C40作为信号处理器的实时水声通信系统。 ( 3) 小波分析在语音混合编码中 也有相当重要的 应用。 3 常见声音特征参数提取算法 分类 第 5 页 共 26 页 我们可以把提取技术分为两个个基本类型: LPC倒谱特征矢量 (LPCC)和 Mel倒谱参数 (MFCC)。 提取算法关键取决于振荡器的实现。 特征提取完成从语音信号提取出对语音识别有用的信息,它对语音信号进行分析处理,去掉与语音识别无关的冗余信息 , 获得影响语音识别的重要信息。 一般而言,由于倒频谱 (cepstrum) 有着能将频谱上的高低频分开的优点,因此被广泛地应用在语音识别的研究上,例过去常用的线性预测编码导出的倒频谱参数 (LPCC)和梅尔频率倒谱参数 (MFCC)等都是常 用的语音特征。 线性预测倒普系数法( LPC) 线性预测分析技术是目前被广泛应用的特征参数提取技术,许多成功得以应用的系统都采用基于线性预测技术提取的 LPC 倒谱系数作为系统的特征矢量。 这里讲的 LPC倒谱其实是复倒谱 , 所谓复倒谱就是信号通过 Z变换以后取对数,再求反 Z变换而得到的。 线性预测分析方法是一种谱估计的方法,而且其声道模型系统函数 H(z)反映了声道的频率响应和原始信号的谱包络 , 因此用 lgH(z)做反 Z变换即可求出其复倒谱系数。 该复倒谱系数根据线性预测模型直接得到,因此又称之为 LPC倒谱系数 (LPCC)。 之所以线性预测分析 (LPC)法是目前进行语音特征分析的最有效、最重要的方法之一 , 这是由于 : (1)它有效地解决了短时平稳信号的模型化问题,可把语音信号看成是由全极点模型产生的。 (2)能很好地逼近共振峰,提供谱估计。 (3)提供的语音信号模型参数 (如基音、共振峰、谱、声道面积函数等 )简洁而准确,计算量较小,便于实时处理。 (4)可用于低数率传输的环境。 (5)将 LPC 参数形成的模型参数储存起来,在语音识别中提高识别率和减少识别时间。 在 MATLAB语言处理工具箱中已经提供了 LPC系数的函数。 这个 函数的名字就是 lpc,它的语法为 : a=lpc(x,p)这里 x为一帧语音信号, p为计算 LPC 参数的阶数。 常 x为 240点或 256点的数据, p取 10~ 12, 对语音识别已经足够了。 但要采用迭代算法计算 LPC倒谱参数则需要自己再另行编写一段复倒谱递推程序 ,其推导公式为: h(0)=0 (n≤ 0) h(1)= a1   11 )()/1()(h nk kn knhnkn aa (1 ≤ n ≤ p) 第 6 页 共 26 页 )()/1()( 1 knhnknh a kpk   ( n p ) 其中 ak为 LPC 系数,而 p为其阶数,一般 LPC倒谱系数的阶数一般取 8~ 32 阶就可以比较好的表征声道特征。 梅尔滤波器提取法( MEL) 如下图所示,由于语音信号在时域上的变化快速而不稳定,所以通常都将它转换到频域上来观察,此时它的频谱会随着时间作缓慢的变化。 所以通常将加窗后的帧经过快速傅立叶变换 (FFT),求出每帧的频谱参数。 再将每帧的频谱参数通过一组 N个 (N一般为 20~ 30个 )三角形带通滤波器所组成的梅尔频率滤波器,将每个频带的输出取对数,求出每 一个输出的对数能量 (log energy)Ek, k =1,2... N。 再将此 N个参数进行余弦变换 (cosine transform)求出 L阶的 Mel scale cepstrum 参数。 预 处 理 F F T 三 角 滤波 器 组 取 对 数D C T变 换声 音信 号M F C C参 数 图 2 Mel 倒频谱特征参数提取流程图 余弦转换公式如下:     NkmNk kEc 21c o s1m ,m=1,2,„ L 上面用 MFCC进行特征提取方法,用 MATLAB语言书写程序如下: f=fft(s)。 x=melbankm(24,256,8000)。 n2=1+floor(n/2)。 z=lof(x*abs(f(1:n2)).^2)。 c=dct(z)。 c(1)=[]。 小波变换法( DWT— MFC) [3] DWTMFC 是 在基本类型 MFCC 基础上 把小波变换引入 MFCC 参数的提取,用离散小波变换代替傅里叶变换,其中梅尔滤波器组不变 第 7 页 共 26 页 分帧加窗离散小波变换M e l滤波器组选 取 第 M级 分 解率 的 小波 系 数原始语音第 N 级第 1 级D W T . M F C特 征 参 数 图 3 小波包分析法( WPTC) 小波包分析可以看作是将信号通过一系列不同频带范围的带通滤波器,从而获得信号在各频带内的信息。 因此本文采用小 波包分析代替 MFCC中离散傅里叶变换,对小波分解后每个频带内的系数求得对数能量,再进行 DCT变换,即可得带小波包系数 [1]。 分帧加窗预 加重 滤波 器组小 波包 分解语 音 信 号D C T特 征 参 数 图 4小波包分析法结构图 算法比较 (1)在语音特征的提取中,预加重和汉明窗两部分是必不可少的,其参数的选取关系决定了提取语音特征的正确与否。 (2)LPC是语音分析的重要手段,它能很好地进行谱估计,即可作为语音特征的参数。 因此仅用 12个 LPC系数就能很好地表示复杂语音信号的特征,这就大大降低了信号的冗余度并有效地减少了计算量 和存储量,使之成为语音识别和语音压缩的基础。 (3)倒谱也是语音的特征参数,是研究系统特性的有效数据,在实际运作中大多数语音识别系统都会采用倒谱参数来作为有关距离的度量。 LPC倒谱系数是描述说话人声道特性的,广泛应用于声纹识别。 (4)从目前使用的情况来看, Mel刻度式倒频谱参数是描述人耳听觉特性的,在大词汇量语音识别应用中已逐渐取代原本常用的线性预测编码导出的倒频谱参数,原因是它考虑了人类发声与接收声音的特性,具有更好的鲁棒性。 ( 5) 小波包分析法代替 MFCC中离散傅里叶变换,对小波分解后每个频带内的系数求得对数能量,再进行 DCT变换,具有小波离散法的优点又较 MFCC简 化了 第 8 页 共 26 页 步骤。 4 基于小波包分析的声音特性提取实现 概述 利用说话人的语音特征对说话人身份进行辨识或确认。 与语音识别一样,说话人识别也是在提取原始语音信号某些特征参数的基础上,建立相应的模板和模型 , 然后按照一定的判决规则进行识别。 但说话人识别是力图找出不同人之间的差别,而语音识别则侧重于对不同说话者的差别进行归一化。 说话人识别的关键问题之一就是提取反映说话者个性的语音 特征参数。 目前常用的特征参数包括线性预测倒谱系数 (Linear Prediction Cepstrum Coefficient,LPCC)、梅尔倒谱系数 (Mel Frequency Cepstrum Coefficient, MFCC)等 ,这两种参数虽然在实用中取得了较好的效果 , 但这些方法的鲁棒性、适应性、和推广能力都有限,特别是特征参数大都采用平稳信号的分析方法提取的 , 即只能人为的将语音信号分割成 10~ 30ms的小帧来满足短时平稳的要求。 小波理论是一种非平稳信号的分析方法 , 采用多分辨分析的思想,非均匀的划分 时 2频空间。 本次设计采用小波包分析特征参数的提取, 采用小波包分析代替 MFCC中离散傅里叶变换。 总体结构 小波包分析信号时,低频部分和高频部分同时进行正交分解,它将频带多层次分割,能根据分析信号的特征,自适应地选择相应频带,匹配于信号频谱,小波包分解后,各个频段的信号时域分辨力降低,采用信号重构方法,把某一频段的成分进行重构,可提高其时域分辨力。 总体结构图如下: 分帧加窗预 加重 滤波 器组小 波包 分解语 音 信 号特 征 参 数 图 5 系统总体结构模型 程序设计 语音信号分帧、加窗 这里的分帧是为 了提高特征参数提取的精度,而不是为了满足平稳假设的条件。 function f=enframe(x,win,inc) nx=length(x)。 nwin=length(win)。 第 9 页 共。
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。