语音识别是机器通过识别和理解过程把语音信号转变为相

范文 2025-04-21 1° 格式：DOC大小：1.32MB页数：10价格：24

语音识别是机器通过识别和理解过程把语音信号转变为相内容摘要：

iiii XFF kFXFF FkY111 1111， i=1,2,....,24 其中 kX 为频谱上第 k 个频谱点的能量 , iY 为第 i 个滤波器的输出 , iF 为第 i 个滤波器的中心频率。用离散余弦变换（ Discrete Cosine Transformation, DCT）将滤波器输出变换到倒谱域：   24 1 ]24)21(c os [)log (j jk jkYC  k = 1,2,...,P 4 其中 P 为 MFCC 参数的阶数，我们取 P＝ 12。 12,...,2,1}{ kkC 即为所求的 MFCC 参数。为体现语音的动态特性，我们还在语音特征中加入了一阶差分倒谱，其计算方法如下式所示：   2 2 )()( k kll mkcmc Pm1 其中下标 l 与 lk 表示第 l 与 lk 帧， m 表示第 m 维。 MFCC 参数计算的要点是将线性功率谱 S(n)转换成为 mel 频率下的功率谱，这需要在计算之前先在语音的频谱范围内设置若干个带通滤波器 Hm(n)， m=0..M1，n=0..N/21。 M 为滤波器个数， N 为一帧语音信号的点数。每个滤波器具有三角形特性，其中心频率为 fm，它们在 mel 频率轴上是均匀分布的。在线性频率上，当 m 较小时相邻的 fm 间隔很小，随着 m 的增加相邻的 fm 间隔逐渐拉开。 Mel 频率和线性频率的转换关系如下式。  700/100 01ln 100 07001ln   fm e l 这些带通滤波器的参数是事先计算好的。图 5 给出了滤波器组的分布图，其中 M 选择为 26， FFT 点数 N 为 256，语音信号的采样频率为 8000Hz。 5 0 20 40 60 80 100 120 14000 . 10 . 20 . 30 . 40 . 50 . 60 . 70 . 80 . 91 图利用人耳仿生学特性设计的 Mel尺度滤波器组测度估计技术可以采用动态时间弯折 DTW、隐马尔可夫模型 HMM 或人工神经网 ANN等算法，我们采用国际上最先进的 HMM，这样我们能够比较容易的实现非特定人，而且系统结构也比较灵活、一致。 HMM 的基本概念可参见文献。根据描述的语音单位的大小， HMM 可分为：基于整词模型的 HMM(Word based HMM)。其优点为可以很好地描述词内音素协同发音的特点，建模过程也较为简单。因此很多小词汇量语音识别系统均采用整词模型HMM。但在大词汇量语音识别中由于所需建立的模型太多而无法使用。基于子词模型的 HMM(Sub Wo。

阅读剩余 0%

本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体)，仅供学习参考。用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权，请联系我们反馈本站将在三个工作日内改正。

标签：机器识别语音

语音识别是机器通过识别和理解过程把语音信号转变为相

相关推荐

密码登录

账号注册