基于小波包分析的声音特性提取学位论文(编辑修改稿)内容摘要:
极大值点位置,就可精确检测到因声门闭合产生的语音波形的突变点。 ( 2) 小波分析在语音波形编码中的应用。 对该语音编码算法的抗误码性能进行计算机仿真研究的基础上 , 设计、集成了以 C C40作为信号处理器的实时水声通信系统。 ( 3) 小波分析在语音混合编码中 也有相当重要的 应用。 3 常见声音特征参数提取算法 分类 第 5 页 共 26 页 我们可以把提取技术分为两个个基本类型: LPC倒谱特征矢量 (LPCC)和 Mel倒谱参数 (MFCC)。 提取算法关键取决于振荡器的实现。 特征提取完成从语音信号提取出对语音识别有用的信息,它对语音信号进行分析处理,去掉与语音识别无关的冗余信息 , 获得影响语音识别的重要信息。 一般而言,由于倒频谱 (cepstrum) 有着能将频谱上的高低频分开的优点,因此被广泛地应用在语音识别的研究上,例过去常用的线性预测编码导出的倒频谱参数 (LPCC)和梅尔频率倒谱参数 (MFCC)等都是常 用的语音特征。 线性预测倒普系数法( LPC) 线性预测分析技术是目前被广泛应用的特征参数提取技术,许多成功得以应用的系统都采用基于线性预测技术提取的 LPC 倒谱系数作为系统的特征矢量。 这里讲的 LPC倒谱其实是复倒谱 , 所谓复倒谱就是信号通过 Z变换以后取对数,再求反 Z变换而得到的。 线性预测分析方法是一种谱估计的方法,而且其声道模型系统函数 H(z)反映了声道的频率响应和原始信号的谱包络 , 因此用 lgH(z)做反 Z变换即可求出其复倒谱系数。 该复倒谱系数根据线性预测模型直接得到,因此又称之为 LPC倒谱系数 (LPCC)。 之所以线性预测分析 (LPC)法是目前进行语音特征分析的最有效、最重要的方法之一 , 这是由于 : (1)它有效地解决了短时平稳信号的模型化问题,可把语音信号看成是由全极点模型产生的。 (2)能很好地逼近共振峰,提供谱估计。 (3)提供的语音信号模型参数 (如基音、共振峰、谱、声道面积函数等 )简洁而准确,计算量较小,便于实时处理。 (4)可用于低数率传输的环境。 (5)将 LPC 参数形成的模型参数储存起来,在语音识别中提高识别率和减少识别时间。 在 MATLAB语言处理工具箱中已经提供了 LPC系数的函数。 这个 函数的名字就是 lpc,它的语法为 : a=lpc(x,p)这里 x为一帧语音信号, p为计算 LPC 参数的阶数。 常 x为 240点或 256点的数据, p取 10~ 12, 对语音识别已经足够了。 但要采用迭代算法计算 LPC倒谱参数则需要自己再另行编写一段复倒谱递推程序 ,其推导公式为: h(0)=0 (n≤ 0) h(1)= a1 11 )()/1()(h nk kn knhnkn aa (1 ≤ n ≤ p) 第 6 页 共 26 页 )()/1()( 1 knhnknh a kpk ( n p ) 其中 ak为 LPC 系数,而 p为其阶数,一般 LPC倒谱系数的阶数一般取 8~ 32 阶就可以比较好的表征声道特征。 梅尔滤波器提取法( MEL) 如下图所示,由于语音信号在时域上的变化快速而不稳定,所以通常都将它转换到频域上来观察,此时它的频谱会随着时间作缓慢的变化。 所以通常将加窗后的帧经过快速傅立叶变换 (FFT),求出每帧的频谱参数。 再将每帧的频谱参数通过一组 N个 (N一般为 20~ 30个 )三角形带通滤波器所组成的梅尔频率滤波器,将每个频带的输出取对数,求出每 一个输出的对数能量 (log energy)Ek, k =1,2... N。 再将此 N个参数进行余弦变换 (cosine transform)求出 L阶的 Mel scale cepstrum 参数。 预 处 理 F F T 三 角 滤波 器 组 取 对 数D C T变 换声 音信 号M F C C参 数 图 2 Mel 倒频谱特征参数提取流程图 余弦转换公式如下: NkmNk kEc 21c o s1m ,m=1,2,„ L 上面用 MFCC进行特征提取方法,用 MATLAB语言书写程序如下: f=fft(s)。 x=melbankm(24,256,8000)。 n2=1+floor(n/2)。 z=lof(x*abs(f(1:n2)).^2)。 c=dct(z)。 c(1)=[]。 小波变换法( DWT— MFC) [3] DWTMFC 是 在基本类型 MFCC 基础上 把小波变换引入 MFCC 参数的提取,用离散小波变换代替傅里叶变换,其中梅尔滤波器组不变 第 7 页 共 26 页 分帧加窗离散小波变换M e l滤波器组选 取 第 M级 分 解率 的 小波 系 数原始语音第 N 级第 1 级D W T . M F C特 征 参 数 图 3 小波包分析法( WPTC) 小波包分析可以看作是将信号通过一系列不同频带范围的带通滤波器,从而获得信号在各频带内的信息。 因此本文采用小 波包分析代替 MFCC中离散傅里叶变换,对小波分解后每个频带内的系数求得对数能量,再进行 DCT变换,即可得带小波包系数 [1]。 分帧加窗预 加重 滤波 器组小 波包 分解语 音 信 号D C T特 征 参 数 图 4小波包分析法结构图 算法比较 (1)在语音特征的提取中,预加重和汉明窗两部分是必不可少的,其参数的选取关系决定了提取语音特征的正确与否。 (2)LPC是语音分析的重要手段,它能很好地进行谱估计,即可作为语音特征的参数。 因此仅用 12个 LPC系数就能很好地表示复杂语音信号的特征,这就大大降低了信号的冗余度并有效地减少了计算量 和存储量,使之成为语音识别和语音压缩的基础。 (3)倒谱也是语音的特征参数,是研究系统特性的有效数据,在实际运作中大多数语音识别系统都会采用倒谱参数来作为有关距离的度量。 LPC倒谱系数是描述说话人声道特性的,广泛应用于声纹识别。 (4)从目前使用的情况来看, Mel刻度式倒频谱参数是描述人耳听觉特性的,在大词汇量语音识别应用中已逐渐取代原本常用的线性预测编码导出的倒频谱参数,原因是它考虑了人类发声与接收声音的特性,具有更好的鲁棒性。 ( 5) 小波包分析法代替 MFCC中离散傅里叶变换,对小波分解后每个频带内的系数求得对数能量,再进行 DCT变换,具有小波离散法的优点又较 MFCC简 化了 第 8 页 共 26 页 步骤。 4 基于小波包分析的声音特性提取实现 概述 利用说话人的语音特征对说话人身份进行辨识或确认。 与语音识别一样,说话人识别也是在提取原始语音信号某些特征参数的基础上,建立相应的模板和模型 , 然后按照一定的判决规则进行识别。 但说话人识别是力图找出不同人之间的差别,而语音识别则侧重于对不同说话者的差别进行归一化。 说话人识别的关键问题之一就是提取反映说话者个性的语音 特征参数。 目前常用的特征参数包括线性预测倒谱系数 (Linear Prediction Cepstrum Coefficient,LPCC)、梅尔倒谱系数 (Mel Frequency Cepstrum Coefficient, MFCC)等 ,这两种参数虽然在实用中取得了较好的效果 , 但这些方法的鲁棒性、适应性、和推广能力都有限,特别是特征参数大都采用平稳信号的分析方法提取的 , 即只能人为的将语音信号分割成 10~ 30ms的小帧来满足短时平稳的要求。 小波理论是一种非平稳信号的分析方法 , 采用多分辨分析的思想,非均匀的划分 时 2频空间。 本次设计采用小波包分析特征参数的提取, 采用小波包分析代替 MFCC中离散傅里叶变换。 总体结构 小波包分析信号时,低频部分和高频部分同时进行正交分解,它将频带多层次分割,能根据分析信号的特征,自适应地选择相应频带,匹配于信号频谱,小波包分解后,各个频段的信号时域分辨力降低,采用信号重构方法,把某一频段的成分进行重构,可提高其时域分辨力。 总体结构图如下: 分帧加窗预 加重 滤波 器组小 波包 分解语 音 信 号特 征 参 数 图 5 系统总体结构模型 程序设计 语音信号分帧、加窗 这里的分帧是为 了提高特征参数提取的精度,而不是为了满足平稳假设的条件。 function f=enframe(x,win,inc) nx=length(x)。 nwin=length(win)。 第 9 页 共。基于小波包分析的声音特性提取学位论文(编辑修改稿)
相关推荐
Fourier(法国数学家 )于 1822 年提出了 Fourier 理论。 Fourier 分析方法的应用使科学和技术领域发生了极大的变化,目前在信号处理方面 Fourier 变换是不可缺少的分析工具。 但傅里叶变换只是一种纯频域的分析方法,它在频域的定位是完全准确的 (即频域分辨率最高 ),而在时域无任何定位 (或分辨能力 ),即傅里叶变换所反映的是 整个信号全部时间下的整体频域特征
( 1) 专家系统 早期的入侵检测系统多数采用专家系统来检测系统中的入侵行为。 NIDES、Wamp。 S、 NADIR[6]等系统的异常性检查器中都有一个专家系统模块。 在这些系统中,入侵行为被编制 成专家系统的规则。 每个规则具有“ IF条件 THEN 动作”的形式;其中条件为审计将记录中某个域上的限制条件,动作表示规则被触发时入侵检测系统所采取的处理动作
班级活动实现班级的有效管理、班级活动类型的探索、班级活动对心理健康的促进作用、开展班级活动的原则、班级活动在青少年社会化过程中的作用、学分制下辅导员工作的初探等。 本文主要介绍“张亮亮,崔香芬在经济学报上发表的关于高校班级活动开展情况的调查与思考 ——— 以南京某高校为例”一文的研究结论。 其研究结论如下。 [3] 班级活动发起方式研究 班级 活动开展的第一步就是怎么发起活动,如何更好地引导
位地址信号和控制信号。 (7)P3 口为单片机的引脚 10~引脚 17,是 8 个带内部上拉电阻的双向 I/O 口,有两个功能,作为准双向 I/O 使用,其内部有上拉电阻,还可以提供第二功能,由特殊寄存器来设置。 P3 口的第二功能如表 31 所示。 表 31 P3 口的第二功能 信道位 第二功能 说明 RXD 串行口的输出 TXD 串行口的输入 INT0———— 外部中断 0 的中断请求输入
,请登录 ,确保你已经安装 谷歌手机地图 、 Gmail 以及其他一些专为你的 手机开发 的精彩应用。 谷歌将继续努力,让这些服务变得更好,同时也将添加更有吸引力的特性、应用和服务。 论文主要工作 此游戏主要是采用 Android的 View框架编写,部分框架运用 Android中的其他组件。 主要运用了算法来实现对棋局的分析,棋盘输赢的判定。 UI方面 :此游戏当进入游戏的界面时
OIN APSN页面地址为:()JOIN APSN页面为内容页,可在内容的适当位置录入如下内容:Proceed to plete online application form■Regular (Individual)Proceed to plete online application form■Regular(Organization)并为这两段内容分别建立链接,链接到具体申请页面即可。