语音识别是机器通过识别和理解过程把语音信号转变为相内容摘要:

iiii XFF kFXFF FkY111 1111, i=1,2,....,24 其中 kX 为频谱上第 k 个频谱点的能量 , iY 为第 i 个滤波器的输出 , iF 为第 i 个滤波器的中心频率。 用离散余弦变换( Discrete Cosine Transformation, DCT)将滤波器输出变换到倒谱域:   24 1 ]24)21(c os [)log (j jk jkYC  k = 1,2,...,P 4 其中 P 为 MFCC 参数的阶数,我们取 P= 12。 12,...,2,1}{ kkC 即为所求的 MFCC 参数。 为体现语音的动态特性,我们还在语音特征中加入了一阶差分倒谱,其计算方法如下式所示:   2 2 )()( k kll mkcmc Pm1 其中下标 l 与 lk 表示第 l 与 lk 帧, m 表示第 m 维。 MFCC 参数计算的要点是 将线性功率谱 S(n)转换成为 mel 频率下的功率谱,这需要在计算之前先在语音的频谱范围内设置若干个带通滤波器 Hm(n), m=0..M1,n=0..N/21。 M 为滤波器个数, N 为一帧语音信号的点数。 每个滤波器具有三角形特性,其中心频率为 fm,它们在 mel 频率轴上是均匀分布的。 在线性频率上,当 m 较小时相邻的 fm 间隔很小,随着 m 的增加相邻的 fm 间隔逐渐拉开。 Mel 频率和线性频率的转换关系如下式。  700/100 01ln 100 07001ln   fm e l 这些带通滤波器的参数是事先计算好的。 图 5 给 出了滤波器组的分布图,其中 M 选择为 26, FFT 点数 N 为 256,语音信号的采样频率为 8000Hz。 5 0 20 40 60 80 100 120 14000 . 10 . 20 . 30 . 40 . 50 . 60 . 70 . 80 . 91 图 利用人耳仿生学特性设计的 Mel尺度滤波器组 测度估计技术可以采用动态时间弯折 DTW、隐马尔可夫模型 HMM 或人工神经网 ANN等算法,我们采用国际上最先进的 HMM,这样我们能够比较容易的实现非特定人,而且系统结构也比较灵活、一致。 HMM 的基本概念可参见文献。 根据描述的语音单位的大小, HMM 可分为: 基于整词模型的 HMM(Word based HMM)。 其优点为 可以很好地描述词内音素协同发音的特点,建模过程也较为简单。 因此很多小词汇量语音识别系统均采用整词模型HMM。 但在大词汇量语音识别中由于所需建立的模型太多而无法使用。 基于子词模型的 HMM(Sub Wo。
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。