语音端点检测算法的研究及matla程序仿真与实现毕业设计(编辑修改稿)内容摘要:

中的一个非常重要的环节而且必不可少的。 有效的端点检测技术不仅能减少系统的处理时间、提高系统的处理实时性,而且能排除无声段的噪声干扰,从而使后面工作的性能得以较大提高 [5],[6]。 随着越来越多的学者对语音端点检测技术的关注 ,大量的新的语音端点检测算法相继被提出,而基于同一种算法又有不同的方法。 例如对于熵值参数特征的检测算法,有基于信息熵 [7],[8]、基于自适应子带谱熵 [9]、子带二次谱熵 [10]、基于小波能量熵 [11]、基于样本熵等的方法 [12]。 信息愈来愈趋近多样化。 同样也有检测不同参数特征相结合来进行语音端点检测 [13],比如倒谱的方法 [14],[15]和熵谱相结合而形成的算法 [16]。 尽管算法和方法多种多样,都是为了更简便、更易于实现、运算量小、鲁棒性好等特点,并且对于不同的信噪比具有较好的效果。 相关工作 随着生活品质的不断提高,对声控产品的要求越来越高。 基于语音端点检测的 识别系统则有不可替代的作用,在不同的声控产品语音识别系统中,有效准确地确定语音段端点不仅能使处理时间减到最小 ,而且能排除无声段的噪声干扰 ,从而使识别系统具有良好的性能。 通过大量的文献调研与实际研究发现 ,现有的各种语音信号端点检测技术都存在各自的不足。 对于语音信号在低信噪比时的端点检测的研究有待进一步深入研究。 当前,语音端点检测技术还处于比较初级阶段,许多领域还有待解决,还远远跟不上现代科技发展的脚步。 对于现在噪声污染的环境的加重,还有信噪比的一直变化,语音端点检测还有待更深一步的研究。 我们常常寻求新的方 法,新的算法,或者在新算法上研究新的方法,更容易对人类声音的识别,或者更适于人耳听觉系统的算法。 但这些算法都是基于一些旧的理论上研发出来的,因此这种领域是很第 1章 绪论 3 难有更大的进步,但也正是考验创新的能力 [17]。 根据语音信号参数的特点可以从两个较大方向入手。 一个是努力寻求新型的特征参数 ,再一个就是利用现有的特征参数采用多特征融合。 这两大问题将是以后研究的主要对象 [18]。 本文主要研究内容 第二章 ,简述了语音信号的一些基础知识,包括预处理、分帧、加窗。 分析了语音信号的时域和频域,介绍了几种语音端点检测算法,简 述了我的实施方案。 第三章,从每一种算法的方程式入手,以原理简便、运算量小等方面为标准,通过大量的文献调研与实际研究,本课主题要研究语音起点和终点的检测,以短时能量和短时过零率相结合的双门限语音端点检测算法以及倒谱分析和谱熵技术等进行语音端点检测,并分析各算法在低信噪比和高信噪比条件下的检测效果进行对比。 对这种信号进行 Matlab 进行编程,对于不同信噪比的声音片段,最后用前后的噪声信号进行对比以得出结论。 燕山大学本科生毕业设计(论文) 4 第 2 章 语音信号时频域分析及预处理 语音信号处理包括语音识别、语音合成、语音编码、说话人识别等方面 ,但是其前提和基础是对语音信号进行分析。 语音端点检测是语音识别系统的前期处理,而语音信号的分析则是语音端点检测的前期处理。 语音信号简述 通过对人们所说的语音进行研究和对语音频谱的分析,发现人们包括男女老少的语音频谱很集中,大部分都集中在 300~3400Hz 范围内。 我们可以对语音通过带通滤波器来得到我们所需要的频谱,就可以得到相应频谱所对的语音。 然后对频谱范围内的语音进行采集采样,一般是 8kHz 左右的采样率,这样我们就可以得到离散时域的语音信号。 如果想要更为精准的采样或者更为完全的采样域,我们可 以相应的提高采样率或者提高采样范围,现在的语音检测现状都不在时传统的采样率,而是调整为自适应。 语音信号有另一个非常重要的特性,就是要保持它的短时特点,所有的关于信号处理都是基于它的短时特性而研发的。 因为语音信号只有在短时内才能保持它的稳定和平滑。 就如同我们经常见到的短时能量、短时过零率,还有一些如同短时频谱和短时自相关函数。 我们在进行语音处理过程中,所用到的参数都是短时内的参数特征,因此在预处理过程,必须有使信号保持短时的过程,即分帧,就是分为一个一个的短时。 常常分的帧为几十毫秒,在这几十毫秒内,我们认为 语音信号是保持平稳的。 语音信号还有一个比较简单的分类,是基于人类发音的音素所分类的。 一般可以分为清音和浊音两类。 虽然中国与外国人的发音有所不同,但从音素上来说都是一样的。 如果从短时性上来分析,就会很直观的发现清音和浊音的不同,一般来说,浊音在短时能量上拥有较高的波峰,而清音则一般就低一点。 还有一类是无声,而无声是处于波谷。 语音信号分析 平常的语音信号处理包括一些语音识别、语音检测、语音编码、说话人第 2章 语音信号时频域分析及预处理 5 识别等方面,这所有的检测都是基于对语音信号的识别,所以必须先对人们所说语音信号进行分析,则需要对语 音信号短时性的特征参数进行提取分析。 参数的提取,方法的创新,这都基于语音科技的发展。 语音信号的处理归根还是对语音短时内的分析,语音端点检测的好坏、语音识别的精准度,这都根据语音信号分析的准确度。 时域分析 从一般的语音信号处理仿真来看,横坐标都是为时间,所以说,语音信号是时域信号,经常处理的语音信号也是基于时域来分析的,这种方法一般就是利用仿真的波形来处理。 通常分析方法有基于短时能量、短时频谱、短时过零率、短时自相关函数等,这些短时性参数更为直观的显示语音信号的特性,因此在语音信号数字处理技术 占有很重要的地位。 进行语音信号分析时,先接触到并且直观的就是它的时域波形。 时域分析常用于基本的参数分析,语音信号的分割、预处理与检测。 这种分析方法的特点有: (1)表示语音信号比较直观、物理意义明确; (2)实现起来比较简单、运算量少; (3)可得到语音的一些重要参数; (4)采用示波器通用设备进行观测等。 取样之后对信号进行量化采样,而量化过程会产生量化误差,即量化后的信号与原信号之间的差值。 频域分析 语音信号频域分析,主要是对一些频域参数进行分析,常用一些频域参数的有频谱、功率谱等等,最常用频域 分析的方法有傅立叶变换法、线性预测法等。 傅立叶变换法 傅里叶变换是语音信号频域分析中最广泛使用的方法,并且是分析线性系统和平稳信号稳态特性最有力的手段。 对加窗分帧后的语音信号,进行傅里叶变换后再逆傅里叶变换,可以相应的得到频谱、功率谱、倒谱距离、熵谱等特征。 由于语音信号的特性是随着时间变化,所以采用短时傅里叶变换,相应的求得的特征为短时频域特征,这里的窗函数都采用汉明窗。 (1)短时频谱和短时功率谱 设信号 )(mxn 经过傅里叶变换后在频域记燕山大学本科生毕业设计(论文) 6 为 )( jwn eX ,则 )( jwn eX 与 )(mxn 关系如公式 (21): jw mNm njwn emxeX  )()(10 (21) 语音的频谱为 )( jwn eX 的幅度,则有: )()( jwnjwn eXep  (22) 语音的短时功率谱的是幅度的平方,其公式为: 2)()( jwnjwn eXeG  (23) (2)倒谱距离 语音信号的倒谱分析是通过同态处理来实现的。 同态信号处理也称为同态滤波,是将非线性问题转为线性问题进行处理的方法。 由于语音信号可以视为声门激励信号和声道冲击响应进行的卷积,随后可以对语音信号进行解卷。 倒谱能很好表示语音的特征,在噪声环境下,可通过倒谱系数而求得倒谱距离,使用倒谱距离来作为语音端点检测的特征。 信号的倒谱也可以定义为信号的能量谱密度函数的对数的傅里叶级数展开式的系数,见式 24: jn wn encws )()(log (24) nc 即为倒谱系数,通过倒谱系数求得倒谱距离 cepd 为:   pncep ncd 1 202001 ))()((2))()(( (25) (3)熵 熵 (用 H 表示 )是物质的概率程度的一种反映。 熵 H 代表 X 的信息量,当 X 的分布概率相等时,熵取最大值,也就是说, X 的概率分布越随机,越难判断, H 值也就越大。 设 X 是取有限个值的随机变量则 X 取 ix 的概率函数通常表示为:  ii xXpp  ni 2,1 (26) 则 X 的熵为: ini i ppH log1 (27) 第 2章 语音信号时频域分析及预处理 7 线性预测法 线性预测分析 的基本原理如下 : 语音信号分帧采样后,各个语音样点之间存在着联系,可以用前几帧的采样点来预测当前帧或者后几帧的样点值,即可以用先前的帧的参数值通过线性组合来近拟后面的帧的采样值。 这样通过抽样和线性组合得到的采样值只有唯一的组合系数。 这组预测系数就反应了语音信号与噪声不同的参数特征,根据这种参数特征,就可以进行 语音端点检测和语音识别等一系列语音信号的处理。 将线性预测应用与语音信号 分析 ,不 仅 仅是因为它的预测功能,而且更为 重要的是 由于 它 可以 提供一个非常好的声道模型 和 模型参数估计方法。 线性预测的原理 与 语音信号数字模型相关。 语音信号分析处理 为了消除人类发声器官本身和一些采集语音信号的设备等所引发的混叠、高次谐波失真现象,在对语音信号进行分析及处理之前,须对其进行预处理。 语音信号的预处理应保证处理后得到的信号更平滑、均匀,而且能提高语音的质量。 预加重 在进行语音信号数字处理时, 它们的功率谱随 频率的增加而减小,其大部分能量集中在低频范围内。 这就造成消息信号高频端的信噪比可能降到不能容许的程度。 但是由于消息信号中较高频率分 量的能量小,很少有足以产生最大频偏的幅度,因此产生最大频偏的信号幅度多数是由信号的低频分量引起。 平均来说,幅度较小的高频分量产生的频偏小得多。 为此在预处理中先进行预加重处理。 目的是提升高频部分,使信号变得平坦、平滑,使之不仅在低频而且在高频的整个频带中,可以用相同信噪比求频谱如图 : 语音信号 图 语音信号的预处理 预加重是在语音信号数字量化之后,用具有 6dB/倍频程的提升高频特性的预加重数字滤波器来实现,它通常是一阶的数字滤波器: 采样 量化 预加重 加窗分帧 参数提取 燕山大学本科生毕业设计(论文) 8 11)(  zzH  (28) 式中  的取值一般取 1 左右。 有时需要恢复原信号,需要从做过预加重的信号来求实际的频谱,需要对测量值进行去加重处理,即加上 6dB/倍频程的下降的频率特性来恢复原来的特性。 加窗分帧 语音端点检测首先要进行 加窗 分帧处理,然后依次判断每一帧 的信号 是否为语音的 起点或终点。 而 在 语音 端点检测时如果采用大的窗长 , 则帧长长,帧数少 , 这样计算量会小些 , 而且进行 语音 端点检测时速度会快些,但是这样 语音 端点检测的误差 会 增加。 如果采用小的窗长 , 则计算量增加 , 语音识别的速度 可定 会降低。 所以 我们在语音 端点检测 时,采用 适量 的窗 , 可以确切判断语音的起始 点,会有比较快的速度,也不会有太大的运算量。 但至于选帧,则需要根据实时而定,不同的算法也会有不同的窗长。 在进行了预加重后,要对语音信号进行加窗分帧处理。 通常将语音信号划分为许多短时的语音时段,每个短时的语音段称为一个帧。 帧和帧之间可以连续 ,也可以重叠。 重叠是为了是语音信号各帧之间保持平滑,差别不至于太大,更符合人们的语音特征。 为了能够符合实际而且能精准的描述语音信号能量的实际中的变化规律,通常将窗宽选为几十毫秒左右。 分帧一般采用交叠分段的方法,这就是为了使帧与帧之间能够很好的平滑过渡,使其保持连续性。 前一帧和后一帧的交叠部分称为帧移,帧移与帧长的比值一般在 0~ 之间。 分帧用可移动的窗口长度进行加权实现,即用窗函数 )(n 乘以语音信号 s(n),从而形成加窗的语音信号 : (n)(n))n(   SS (29) 由于窗函数一般取为 S(n)中间大两头小的光滑函数,这样的冲激响应所对应的滤波器具有低通特性,其带宽和频率取决于窗函数的选取。 用得最多的三种窗函数是矩形窗、汉明窗 (Hamming)和汉宁窗 (Hanning)。 它们的定义如下 : 矩形窗: 第 2章 语音信号时频域分析及预处理 9  其他 ,0 10 ,1)( Nnn (210) 汉明窗: 0 . 5 4 0 . 4 6 c o s ( 2 /( 1 ) ) , 0 1() 0, n N n Nn     。
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。