基于遗传算法的混合高斯模型在与文本无关的_说话人识别中的应用_硕士毕业设计论文(编辑修改稿)内容摘要:
应包括模型训练和判决阈值选择等部分。 图 22说话人识别系统框图建立和应用这一系统可分为两个阶段,即训练和识别阶段。 在训练阶段,系统的每一说话人说出若干训练语料,系统根据这些训练语料,通过训练学习建立每个使用者的模板或模型参数参考集。 而在识别阶段,把从待识别说话人说出的语音信号中导出的特征参数,与在训练过程中得到的参考参量集或模型模板加以比较,并且根据一定的相似性准则进行判定;对于说话人辨认来说,所提取的参数要与训练过程中的每一人的参考模型加以比较,并把与它距离最近的那个参考模型所对应的使用者辨认为是发出输入语音的说话人。 对于说话人确认而言,则是将从输入语音中导出的特征参数与其声言为某人的参考量相比较。 如果两者的距离小于规定的阈值,则予以确认,否则予以拒绝。 . 语音的预处理预处理包括对输入的语音数据进行端点检测、降噪、预加重、加窗、分帧等等。 这和语音识别时的预处理基本相同,但在有些方面也可能有差别,如求取特征参数时的帧和帧长的选定等,对于噪声环境下的说话人识别而言,还需要对含有噪声的语音进行降噪。 目前对预处理的研究主要集中于端点检测和语音降噪,下面就本论文涉及到的这两部分作一介绍。 端点检测语音信号是由语音及各种背景噪声混合而成的,将语音和各种非语音信号时段区分开来,准确地确定出语音信号的起始点被称为端点检测。 研究表明[33],即使在安静的环境下,语音识别系统一半以上的错误来自端点检测。 因此,端点检测的性能对于识别的正确率、识别速度都有着重要的影响[34],这主要表现在以下几个方面:在语音滤波和增强中,语音信号和噪声的模型参数都依赖于对应的语音段或噪声段。 只有准确地判定出语音信号的端点,才能正确地进行语音处理,提高识别的准确率;如果在识别前移除信号中的静音段,使得整句的似然得分累计更多的集中在语音段,而不是被语音和噪声所分散,这样有助于识别率的提高;在不断变换的环境下对语音和噪声建模是非常困难的,准确的端点检测可以事先移除单纯噪声的时段对于语音和噪声模型的准确建立有很大帮助;当处理信号含非语音时段非常长时,准确的端点检测可以极大提高计算速度并节省电池功率。 端点检测的方法可以分为三大类:基于鲁棒性特征的方法、基于特征滤波的方法和基于模型的方法。 基于鲁棒性特征的方法是寻找能表征语音和噪声在不同域差异的特征来进行语音和噪声时段的区分,这类方法需要考虑两方面的问题:(1)提取能够正确反映不同类型语音信号(清音、浊音和噪声)的特征;(2)对不同信噪比的信号能计算出合理的判决门限。 常用的特征主要有能量[35]、子带能量[36]、过零率[37]、基频[38]、周期度量、熵[39]、能量方差等。 基于能量的方法在高信噪比条件下效果很好,随着噪声环境的恶化性能下降很快[39]。 基于子带能量、过零率、周期度量、基频的方法对噪声比较敏感,只适用于某些类型的噪声环境,因此,这些参数不能完全描述语音的特征。 [40]发现语音段的熵与噪声段有明显不同,将熵作为端点检测的参数。 语音熵的研究成为了端点检测的热点,但是基于熵的方法对babble noise、音乐背景噪声效果不好;Huang等人将时域能量和熵结合在一起作为新的参量,使得性能有所提高,但是在实际噪声环境下,无论是基于能量的算法还是基于谱熵的算法效果都不是很理想。 基于特征滤波的方法是对特征先进行滤波,然后进行端点检测,主要算法有子空间滤波、能量差分自适应滤波[34]等。 基于特征滤波方法一方面增大了计算量、另一方面改变了语音谱的结构,丢失了部分信息。 基于模型的方法是针对噪音和语音进行建模用来区分语音时段。 基于模型的方法的缺点是在于噪音的环境多种多样,不可能对各种情况都建立相应的模型,当噪音环境与模型不匹配时,性能严重退化。 语音增强在实际环境下语音信号常受到周围环境、传输媒介引入的噪声、通讯设备内部噪声以及其他讲话者的干扰。 这些噪声和干扰使得接受到的语音信号并非是纯净的原始语音信号,而是受噪声污染的带噪声的语音信号。 为了从带噪声的语音信号中获得尽可能纯净的语音信号,减少噪音的干扰,就需要进行语音增强。 语音增强主要解决两个问题:(1)改进语音质量,消除背景噪声,使听者乐于接受,不感疲劳,这是一种主观度量;(2)消除干扰噪声,提高语音的可懂度,这是一种客观度量。 语音增强有着广泛的应用,因此,寻找一种有效的算法对带噪声的语音信号进行处理以达到较高的抗噪声效果的研究意义很大。 在一般情况下干扰信号是随机信号,要完全排除噪音是不现实的,所以语音增强的目标是对收听人而言主要是改善语音质量,提高语音可懂度,减少疲劳感,对于说话人识别来说是提高系统的识别率和抗干扰能力。 预加重、加窗和分帧由于语音信号的平均功率谱受声门激励和口鼻辐射影响,高频端大约在800Hz以上按6dB/倍频程跌落,所以求语音信号频谱时,频率越高相应的成分越小,为此要在预处理中进行预加重(Preemphasis)处理。 预加重的目的是提升高频部分,使信号的频谱变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱,以便于频谱分析或声道参数分析。 6dB/倍频程的提升高频特性的预加重数字滤波器来实现,它一般是一阶的数字滤波器: (21)其中值接近于1。 考虑到一个短时间范围内(一般认为在10ms~30ms的短时间内),其特性基本保持不变即相对稳定,因而可以将其看作是一个准稳态过程,即语音信号具有短时平稳性。 分帧一般要采用交叠分段的方法,这是为了使得帧与帧之间平滑过渡,保持其连续性。 前一帧和后一帧的交叠部分称为帧移。 帧移与帧长的比值一般取为0~1/2,这种方法称为加权交叠平均法,又可以看作是Welch法的推广,是一种广泛应用的方法,作进一步分析可以发现随着段数的增大,它的方差性能会得到改善,而且它估计出的谱也是渐进无偏的[13]。 分帧就是用可移动的有限长度窗口的方法来实现的,加窗语音信号为: (22)其中为窗函数。 在语音信号数字处理中考虑到带外衰减一般常用汉明窗,它的表达式如下所示(其中N为帧长): (23)由于采样周期、窗口长度N和频率分辨率之间存在的关系,既有采样周期一定时,随窗口宽度N的增加而减小,如果窗口N取小,频率分辨率下降,而时间分辨率提高。 应该根据不同的需要选择合适的窗口长度。 这样,语音信号就被分割成一帧一帧的加过窗函数的短时信号,然后借助平稳的随机信号处理的理论来提取语音特征参数。 . 说话人识别的特征选取在说话人识别系统中特征提取是最重要的一环,特征提取就是从说话人的语音信号中提取出表示说话人的个性特征。 提取的特征应能有效地区分不同地说话人,并且对同一说话人保持相对稳定。 说话人识别系统中常用的特征有:由语音信号直接导出的参数:短时能量、短时平均幅度、短时平均过零率和基音频率。 由于语音的短时谱中包含有激励源和声道的特性,因而可以反映说话人的差别。 所以分析语音频谱导出说话人个人特征的参数:功率谱、基因轮廓、共振峰频率带宽及其轨迹、复倒谱、MEL倒谱系数等等。 由语音信号的线性预测分析也可得一些表示说话人特征的参数:基因频率、声道冲激响应、自相关函数、声道面积函数、线性预测系数(LPC)、LPC倒谱系数和线谱对参数(LSP)等,其中LPC倒谱系数有最好的识别效果。 混合参数:为了提高系统的识别率,部分原因也许是因为究竟哪些参数是关键因素把握不充分,相当多的系统采用了混合参量构成的矢量。 Matsui和Furui在与文本无关的说话人识别系统中利用倒谱系数、差值倒谱系数、基音频率、差值基因频率作为特征矢量,得到了比单用任意一个参数好得多的识别效果。 . 说话人识别的方法目前针对各种特征而提出的模式匹配方法的研究越来越深入。 这些方法大体可归为下述几种:概率统计方法语音中说话人信息在短时内较为平稳,通过对稳态特征如基音、声门增益、低阶反射系数的统计分析,可以利用均值、方差等统计量和概率密度函数进行分类判决。 其优点是不用对特征参量在时域上进行规整,比较适合文本无关的说话人识别。 动态时间规整方法(DTW)说话人信息不仅有稳定因素(发声器官的结构和发声习惯),而且有时变因素(语速、语调、重音和韵律)。 将识别模板与参考模板进行时间对比,按照某种距离测定得出两模板间的相似程度。 常用的方法是基于最近邻原则的动态时间规整DTW。 矢量量化方法(VQ)矢量量化最早是基于聚类分析的数据压缩编码技术。 Helms首次将其用于说话人识别,把每个人的特定文本编成码本,识别时将测试文本按此码本进行编码,以量化产生的失真度作为判决标准。 Bell实验室的Rosenberg和Soong用VQ进行了孤立数字文本的说话人识别研究。 这种方法的识别精度较高,且判断速度快。 隐马尔可夫模型方法(HMM)隐马尔可夫模型是一种基于转移概率和传输概率的随机模型,最早在CMU和IBM被用于语音识别。 它把语音看成由可观察到的符号序列组成的随机过程,符号序列则是发声系统状态序列的输出。 在使用HMM识别时,为每个说话人建立发声模型,通过训练得到状态转移概率矩阵和符号输出概率矩阵。 识别时计算未知语音在状态转移过程中的最大概率,根据最大概率对应的模型进行判决。 HMM不需要时间规整,可节约判决时的计算时间和存储量,在目前被广泛应用。 缺点是训练时计算量较大。 人工神经网络方法(ANN)人工神经网络在某种程度上模拟了生物的感知特性,它是一种分布式并行处理结构的网络模型,具有自组织和自学习能力、很强的复杂分类边界区分能力以及对不完全信息的鲁棒性,其性能近似理想的分类器。 其缺点是训练时间长,动态时间规整能力弱,网络规模随说话人数目增加时可能大到难以训练的程度。 . 本章小结本章对说话人识别系统作了一个简要介绍,首先介绍了人的语音的发声原理。 然后分别分析了说话人识别系统的几个主要模块包括端点检测、语音增强、语音的预加重、加窗、分帧、特征提取、识别方法的国内外研究现状和目前采用的主要方法。 第3章 说话人识别的特征参数及其选取第3章 说话人识别的特征参数及其选取. 引言1963年Bell实验室的S. Pruzansky[1]和1971年P. D. Breaker et al[2]提出了短时谱中的信息提供说话人特征。 随后在1968年B. S. Atal[3]采用基音频率、1971年G. Doddington[4]提出共振峰频率、1972年M. R. Sambur[7]的线性预测系数(LPC)、1973年C. Lummis[8]的时域音栓配合法的语音响度、1973年S. Frurui和F. Itakura的语音对数域比例、1972年J. J. Wolf和1975年M. R. Sambur[9]从元音和鼻音中提取出最好的说话人个人特征、1974年B. Atal[10]通过比较各种参数得出倒谱系数为说话人识别提供最好的结果。 如今倒谱系数已经逐步成为说话人识别中的主打参数[11][12][13]。 . 基音频率基音周期是语音信号最重要的参数之一。 基音周期估计的方法很多,本设计采用了基于求短时自相关函数的算法。 语音按其发生方式分为清音和浊音。 发清音时,声道完全封闭,声道不受声门周期脉冲的激励而是利用口腔内存有的空气释放出来而发声,因而清音并没有基音。 在作基音周期的估计时,必须先去除清音。 本设计中利用语音信号的短时过零率来区分清浊音,一般而言,在相同条件下,清音的短时过零率分布的平均值最高。 利用这一点,可以设一门限区分清浊音。 (31)其中。 短时自相关函数在基音周期的整数倍点上有很大的峰值,只要找到第一个最大值点的位置,便可估计出基音周期。 作基音周期估计时,窗长至少应大于两个基音周期,才可能有较好的效果。 另一方面,为了克服声道的共振峰特性的干扰,可以对语音信号进行非线性变换后再求自相关函数。 一种有效的非线性变换是“中心削波”。 若输入信号为x(n),中心削波的输出为y(n)=C[x(n)],函数C[x]如图 31所示。 经过削波后的y(n)的自相关函数在基音周期点上的峰起更尖锐突出,因此用它来进行基音周期估计的效果可以好很多。 图 31中心削波函数C[x]求得的基音周期轨迹与真实的基音周期轨迹不可能完全吻合,实际上在一些局部段落或区域中有一个或几个基音周期估值偏离了正常轨迹(称为野点),可以采用中值平滑算法和线性平滑算法去除这些野点。 . 线性预测编码(LPC)将线性预测(Liner Prediction)分析应用于语音信号处理,不仅是为了利用其预测功能,而且是它为我们提供了一个非常好的声道模型。 线性预测系数(Liner Prediction Coefficient)是语音信号处理(语音编码、语音识别和说话人识别等)的非常重要的参数之一。 按照图 21所示的语音产生模型,采用全极点模型,声道、声门激励及辐射的全部谱效应可以简化为一个时变的数字滤波器。 其稳态系统响应函数为: (32)现在对这个模型在加以一些限制以便于得到一种高效的求解算法。 假定声道函数是一个全极点(Autoregressive,AR)模型,不考虑辐射的影响,则(32)可表示成: (33)其中是预测阶数,为是声道滤波器增益。 由此,语音抽样值 和激励信号之间的关系可以用下面的差分方程表示: (34)即语音样点之间有相关性,可以用过去的样点值来预测未来样点值。 对于浊音,激励是以基因周期重复的单位冲激;对于清音,是白噪声。 称作逆滤波器,传输函数为: (35)设增益为1,预测误差为: (36)要解决的问题是:给定语音序列,根据特定的准则求预测系数的最佳估计值,现在以最小均方误差准则作为估计模型参数的准则求.。基于遗传算法的混合高斯模型在与文本无关的_说话人识别中的应用_硕士毕业设计论文(编辑修改稿)
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。
用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。