毕业论文-基于连续隐马尔科夫模型的语音识别内容摘要:
式。 根据前面对和 的分析,可以看出重估公式也具有明显的物理含义。 ( 1) 为在 t= 1 时刻状态 i 的概率; ( 2) ( 3) 28 第 三 章 HMM 算法实现的问题 解决 HMM 的三个基本问题以后,在实际应用 HMM 解决问题时还有很多问题需要解决,如初始模型的选取、数据下溢、HMM 之间 距离的度量等等。 第一节 HMM 状态类型及 B 参数的选择 一 、 HMM 状态类型的选择 当 HMM 与实际信号相结合时,首先需要解决的问题是状态类型的选择。 在描述实际语音信号是一般都要对 HMM 中的状态数及转台转移规律作一定的限制,而状态转移结构达多为“无跨越由左至右类型”和“有跨越由左至右类型 ”。 这两种结构除了都要满足 外,状态“ 1”与状态“ 4”分别为源状态和吸状态,这意味着语音必须从状态“ 1”开始到状态“ 4”结束,这正好与人的发音过程对应。 二、 HMM 中 B 参数类型的选择 为了采用连续观测密度,必须对模型 的概率密度函数( pdf)的形式作某些限制,以保证能够对 pdf 的参数进行一致的估计。 当然,不同形式的 pdf 是由不同的参数来描述的,而估计这种参数的重估公式也是不一样的。 这里采用一种广泛应用的 pdf 29 -高斯 bj( j)为例。 B 参数是 HMM 中非常重要的一个参数,它描述在某种状态时观察值序列的概率分布。 在前面的讨论中它都是离散的。 然后,为了更好地描述语音信号的时变性,在实际的关键检索系统中通常采用连续的概率分布,即用 bj( o)表示在 o 与o+do 之间观察矢量的概率。 这里 bj( o)称为参数的概率密度。 目前采用最多的 bj( o)形式为高斯 M 元混合密度,可以用它无限逼近任意一个有限连续概率密度函数,其定义为: 式中: o 为观察矢量; cjk 为状态 j 中第 k 个混元的混合加权系数, N〔〕是正态密度, μjk和 Ujk是状态 j 中第 k 个混合分量的均值矢量和协方差矩阵。 注意, cjk 必须满足下式。 因为只有这样概率密度函数才能满足归一条件,即满足 在这种定义下, HMM 中重估 B 参数的公式转化为对 cjk、 μjk、Ujk 的重估计算。 如下式所示: 30 式中, γt( j, k)是 t 时刻的观察矢量 ot 由状态 j 中的第 k个混合分量产生的概率,即、 第二节 HMM 训练时需要解决的问题 一、初始模型的选取 根据 BaumWelch 算法由训练数据得到 HMM 参数时,一个重要问题就是初始模型的选取。 不同的初始模型将产生不同的训练结果,因为算法是使 P( O|λ)局部极大时得到的模型参数,因此,选取好的初始模型,是最后求出 的局部极大与全局 31 最大接近是很有意义的。 但是,至今这个问题仍没有完美的答案。 实际处理是都采用一些经验方法。 一般认为, π 和 A 参数初值选取影响不大,可以随机选取或均匀取值,只要满足概率要求即可。 但 B 的初值对训练出的 HMM 影响较大,一般倾 向采取较为复杂的初值选取方法。 比较典型的 HMM 参数估计算法是“ K 均值分割”算法。 “ K 均值分割”算法训练框图如图31 所示: 图 31“ K 均值分割”训练框图 假定我们已有一组训练观察和所有模型的初始估计。 这些初始估计是随机给出或建立在相应数据的已有模型基础之上的。 模型初始化后,根据当前模型 λ 将训练观察序列集分割成状态。 这种分割是借助 Viterbi 算法找到最优状态序列实现的。 32 对模型中每个状态来说,每个训练序列分割的结果就是出现在当前模型中任何一个状态 Si的观察集的最大似然估计。 在使用离散符 号 密度时,每个状态中的任意一个观察向量是使用具有 M 码字的码书编码的, bj( k)参数估计的更新公式如下: bj( k)=状态 j 中码书索引为 k 的观察向量数量 /状态 j 中所有观察向量数量。 在使用连续观察密度的情况下,分段 K 均值过程用于每个状态 Sj中的过程向量聚类为 M 簇,每簇表示 bj( Ot)密度的M 个混合的一个。 根据生成的聚类,得到的一组模型参数的更新公式如下: 根据这种状态分割, αij系数的更新估计可通过从状态 i 到j 的转移计数除以从状态 i 出发的所有转移(包括转移到自身)计数实现。 根据这些更新后的模型参数得到 了新模型。 然后开始使用真正的重估过程重新估计所有模型参数。 将产生的模型与先前的模型进行比较,如果模型距离打分超过设定的域值,那么用 33 新模型取代先前的模型;如果模型距离打分小于或低于设定的域值,那么判定模型收敛并将保存作为最终得到的模型参数。 当然, HMM 有很多类型。 因此,针对不同形式的 HMM,可采取不同有效的初值选取方法。 二、比例因子的问题 在前向-后向算法和 BaumWelch 算法中,都有 αt( i)和βt( i)的递归计算,因为所有量都小于 1,因此, αt( i)和 βt( i)都迅速趋向于零,为了解决这种下溢的 问题,必须采取增加比例因子的方法,对有关算法加以修正,处理过程如下: ( 1)对 α的处理 34 也就是说 αt( j)的比例因子实际上是所有状态的 αt( i)之和的倒数。 35 ( 2)对 β的处理 由于每个比例因子实际上使 α的模恢复到 1,而 α和β 模相近,所以,让 α 和 β 采用相同的比例因子是保持计算总是在合适的界限内进行的有效方法,在对 α 和 β做上述处理之后,再来看看重估公式,不过之前,需亚对重估公式改写。 36 显然,上述比例因子也可用于 π 和 B 参数的重估计算。 如果在某 个时间 t 不需要比例因子,可令比例因子为 1,不影响重估公式。 增加 比例因子所引起的 HMM 的唯一实际变化是 P( O|λ)的计算,不能简单地把 进行求和,因为这些值已经引入了比例因子,不过可以利用如下性质。 这样 可以计算 P 的对数,但不能计算 P,因为不管怎样它都会越界。 最后,当采用 Viterbi 算法求最佳状态序列时,如果按 37 如下方法,就不需要比例因子。 最后得到的值是 logP*而不是 P*,但是计算量却少得多且不会产生越界。 三、使用多个观察值序列训练 实际中,训练一个 HMM,经常要用到不止一个观察值序列,那么,对于 K 个观察值序列训练 HMM 时,要对BaumWelch 算法的重估公式加以修正。 设 K 个观察值序列为 O(k)( k= 1,2,„„ K),其中 O(k)= o(k)1, „„ o(k)Tk是第 K个观察序列,假定各个观察值序列 独立, Pk 是第 k 个观察序列出现的概率,此时, 由于重估公式是以不同事件的频率为基础的,因此,对 k 38 个训练序列,重估公式修正为: 四、克服训练数据不足的方法 根据 HMM 的定义,一个 λ=( A,B, π)含有很多个待估计的参数,因此,为了得到最满意的模型,必须要有很多的训练数据。 这个问题的一种 解决方法是增加训练数据,这往往是难以办到的。 另一方面可能的解决方法是选择规模更小的模型,但是采用一个给定模型总是有其具体理由的,因此规模大小也不能改变。 第三种可能的解决办法是合并两个模型的参数,即对两个针对同一事件的表示不同程度的细节和隐健性的模型进行合并。 比如说,通常一些出现次数很少的观察值矢量没有包含在整个训练数据中, 这样训练出来的 HMM 参数中就会有不少为零的概率值。 而事实上,在实际语音识别测试时,这些观 39 察值矢量又可能出现,因而需要对训练好的模型进行平滑处理,而一般为了避免过分平滑。 总是要合并平滑前后的 模型参数,以获得较好的结果模型。 合并两个 HMM 的问题可以表述为 λ= ωλ1+( 1— ω) λ2。 式中 λ=( A,B,π)为结果模型, λ1=( A1, B1, π1)和 λ2=( A2,B2, π2)为两个待合并的模型, 0=ω=1 为合并时的系数。 因此,问题的关键就是合并权值 ω的估计。 一种可能的方法是人工选取权值 ω, Schiwartz 等人就是根据训练量的多少和每个模型中概率分布的合适程度来人工选择权值的,并在语音识别中取得了成功。 但这中方法的局限也是很明显的:过分依赖于人的经验判断,而且工作量也很大。 另一种估计 ω 的方法就 是著名的消去内插法。 这种方法最早是由 Jelinek 提出,随后被广泛使用在基于 HMM 的语音识别系统中,它的基本思想为:设 b1jk 和 b2jk为 λ1和 λ2模型中状态j 对应的观察值概率, bjk 为 λ 中状态 j 对应的观察值概率,那么,由上式有: bjk= ωb1jk+( 1ω) b2jk 此式可以理解为 λ 模型中状态 j 被 3 个状态 j*、 j1和 j2所取代。 40 如图 32 所示,其中状态 j*无输出观察值概率,状态 j1 和j2的输出观察值概率分别为 b1jk和 b2jk,但状态 j*由状态 j1 和 j2转移的概率 分别为 ω 和 1ω,但不占用时间。 那么,估计权值ω 的问题就转化为一个典型的 HMM 问题,因此,由 HMM 训练算法就可直接估计出权值 ω。 图 32 消去内插法的示意图 但消去插值的核心是使权值 ω 的估计对未来的数据仍然有价值。 因此,要求用以估计 λ1和 λ2。 由于这种对总的训练数据的划分有很多种方式。 由此得到很多 ω 的值,再用一个循环递归处理,可以求出多由的权值 ω。 由上述讨论可知,消去插值法计算量很大,这是其不足之处。 虽然进来有人给出了其快速算法,但在实际应用中完整地实现消去插值法来估计权值 ω仍 然相当困难。 事实上,实际应用消去插值法时,也是将它修正简化,一方面减少计算量;另一方面,对每个状态都估计出一个权值。 41 另外,从 BaumWelch 算法的重估公式可以看出推导出一种 HMM 相对可靠性度量方法。 这样,就可以得到待合并的两个或多个模型各自的相对可靠程度,由此确定合并时的权值。 这种估计权值的方法可以简述如下。 根据重估公式,考虑 K 个观察值序列训练模型 λ=( A,B,π),于是有 分析上式可知,当用 K 个训练序列获取 HMM 参数时,在 42 每次迭代时,可以分别用每个训练序列获取相应的 HMM 参数,再加以合并, 而且,合并的权值仅仅取决于状态数目。 由此,可以认为,正是状态数目描述了 HMM 的相对可靠程度。 因此,当需要合并 L 个 HMM 时,对任一状态 j,合并的权值可由 Rjk求出。 由于这种估计权值的方法由 BaumWelch 算法中重估公式导出,因而在最大似然意义上是最佳的,而其,对每一个状态都选取一个合并的权值,而不是对整个待合并的 HMM 选取权值,除了保存模型参数之外,还应保存相应的状态数目,因此,需占用较多的存储空间。 43 第四章 语音识别系统的设计 第一节 语音识别系统的开发环境 一、 开发软件 实 现这个语音识别系统所用的软件是。 二、 MATLAB 简介 MATLAB 是 MathWorks 公司开发的科学计算机,其名称取自 MATrix LABoratory。 MATLAB 的创始人是 JACK LITTLE,最初他是为了编制 FOPTRAN 矩阵函数库的程序接口而进行开发的,随着代码的不断完善,他于 1984 年推出了 MATLAB 的第一个版本。 此后, MATLAB 又推出了许多版本,随之,MATLAB 的功能也越来越强大, 工具箱也不断增加,系统越来越庞大。 第二节 基于 HMM 的语音识别系统的设计 一、 高斯混合的输出概率的计算 对于单个的高斯概率密度函数 pdf,假设其协方差矩阵为对角阵,函数 计算给定观察向量对该 pdf 的输出概率: Function p = pdf( m,v,x) 44 %计算多元高斯密度函数 %输入: % m――均值向量, SIZE*1 % v――方差向量, SIZE*1 %x――输入向量, SIZE*1 %输出: %p――输出概率 P = ( 2*pi*prod(v) )^*exp(*(xm) ./v*(xm))。 而计算观察向量 x 对于某个 HMM 状态的输出概率,也就是 x 对该状态的 若干高斯混合元的输出概率的线性组合,用下面的代码来实现。 function prob = mixture(mix, x) %计算输出概率 %输入: % mix 混合高斯结构 % x 输入向量 , SIZE*1 45 %输出: % prob – 输出概率 prob = 0。 for。毕业论文-基于连续隐马尔科夫模型的语音识别
相关推荐
期和占空比参数可以通过按 键进行选择,通过显示模块将 PWM波形的周期、占空比和 PWM 波形输出时间显示出来。 图 10 系统硬件设计框图 电源电路设计 电子产品中,常见的三端稳压集成电路有正电压输出的 78 系列。 顾名思义,三端 IC 是指这种稳压用的集成电路,只有三条引脚输出,分别是输入端、接地端和输出端。 图 11 7805 稳压过程 5V 电源的电路,主干线路电压经过变压器后转换为
生气孔且焊缝成型差关键在于其 MnSi元素的含量焊缝中 MnSi 是主要合金化元素同时也是一种较好的脱氧剂 Si 脱氧能力比 Mn 要强 Mn和 Si都能减少焊缝金属中的氧含量改善焊缝金属的性能防止气孔产生另外Mn可以提高焊缝的强度和韧性而 Si含量过多时将会使焊缝金属的塑性和韧性降低因此必须使焊缝材料保持适当的 MnSi 比值该比值愈高焊缝金属的韧性愈好一般认为 MnSi< 2 对焊缝韧性不利
mp。 ksv *3t n G K8! z 89 Am YW paza dN u K Namp。 MuWF A5 ux Y7Jn D 6YW Rr W wc^ vR9 Cp bK ! zn% M z8 49 Gx^ Gj q v^$ U E9 wE wZ Q c@U E% amp。 qY p@E h5p Dx 2z Vkum amp。 g TX Rm 6 X4 N GpP $vS TT amp。
果不对温度的变化采取有效的监测措施,将会危及电力设备的安全运行。 基于以上背景,提出 一种基于 ATMEGA48 单片机的数据采集及无线收发系统的设计方法。 无线收发部分,采用 Silicon Labs 公司 推出的 SI4432 无线收发器实现数据的无线传输,使得数据采集更加具有实时性。 该系统硬件结构由少量的外部设备、无线数据传输模块,以及供电电路组成。
把基频以下和基频以上两种情况合起来,可得到异步电动机的变频调速控制 12 特性,如图 5 所示。 如果电动机在不同的转速下都具有额定电流,则电动机都能在温升容许的条件下长期运行,这时转矩基本上随磁通变化。 在基频以下,属于“恒转矩调速”的调速,而在基频以上,基本上属于“恒功率调速”。 图 5 异步电动机变频调速控制特性 调速控制风量的节能原理 与风门控制风量方式相比
态 — 第二章 11 图 FX2N的基本性能规格图 ( b) 基于 PLC的组合机床电气控制系统设计与组态 — 第二章 12 、 PLC 的 I/O 分配表 本控制系统的 PLC 的输入、输出点数的确定 是 根据控制系统 设计要求和所需控制的现场设备数量加以确定。 ( 1) PLC 的输入端口包括 自动循环工作按钮 、 点动按钮、 油泵启动、总停按钮 、 SA1 等