语音识别是机器通过识别和理解过程把语音信号转变为相内容摘要:
iiii XFF kFXFF FkY111 1111, i=1,2,....,24 其中 kX 为频谱上第 k 个频谱点的能量 , iY 为第 i 个滤波器的输出 , iF 为第 i 个滤波器的中心频率。 用离散余弦变换( Discrete Cosine Transformation, DCT)将滤波器输出变换到倒谱域: 24 1 ]24)21(c os [)log (j jk jkYC k = 1,2,...,P 4 其中 P 为 MFCC 参数的阶数,我们取 P= 12。 12,...,2,1}{ kkC 即为所求的 MFCC 参数。 为体现语音的动态特性,我们还在语音特征中加入了一阶差分倒谱,其计算方法如下式所示: 2 2 )()( k kll mkcmc Pm1 其中下标 l 与 lk 表示第 l 与 lk 帧, m 表示第 m 维。 MFCC 参数计算的要点是 将线性功率谱 S(n)转换成为 mel 频率下的功率谱,这需要在计算之前先在语音的频谱范围内设置若干个带通滤波器 Hm(n), m=0..M1,n=0..N/21。 M 为滤波器个数, N 为一帧语音信号的点数。 每个滤波器具有三角形特性,其中心频率为 fm,它们在 mel 频率轴上是均匀分布的。 在线性频率上,当 m 较小时相邻的 fm 间隔很小,随着 m 的增加相邻的 fm 间隔逐渐拉开。 Mel 频率和线性频率的转换关系如下式。 700/100 01ln 100 07001ln fm e l 这些带通滤波器的参数是事先计算好的。 图 5 给 出了滤波器组的分布图,其中 M 选择为 26, FFT 点数 N 为 256,语音信号的采样频率为 8000Hz。 5 0 20 40 60 80 100 120 14000 . 10 . 20 . 30 . 40 . 50 . 60 . 70 . 80 . 91 图 利用人耳仿生学特性设计的 Mel尺度滤波器组 测度估计技术可以采用动态时间弯折 DTW、隐马尔可夫模型 HMM 或人工神经网 ANN等算法,我们采用国际上最先进的 HMM,这样我们能够比较容易的实现非特定人,而且系统结构也比较灵活、一致。 HMM 的基本概念可参见文献。 根据描述的语音单位的大小, HMM 可分为: 基于整词模型的 HMM(Word based HMM)。 其优点为 可以很好地描述词内音素协同发音的特点,建模过程也较为简单。 因此很多小词汇量语音识别系统均采用整词模型HMM。 但在大词汇量语音识别中由于所需建立的模型太多而无法使用。 基于子词模型的 HMM(Sub Wo。语音识别是机器通过识别和理解过程把语音信号转变为相
相关推荐
114平台可以向商业用户提供付费的冠名广告播放功能,商业用户可以申请在 114系统平台中保存预先录制好的广告语音,也可以录入简短的广告内容或者请 114帮助录制广告语音。 在指定的时 间或被查对象范围,将在 114所有报号前插播指定的企业广告语音。 目标客户:业务量大,影响较大、注重品牌形象宣传的企业、商家。 (四)企业名片 企业名片是指在播报业务客户电话号码后,播放业务客户的企业概况、产品介绍
构成和运行机理,在人脑神经系统的研究条件还十分有限的情况下,很大程度上只能通过假设加以解释。 假定语言是一种心智行为,那么它与心理活动可能存在着千丝万缕的联系,自然也带有心理活动的特点,如感觉、直觉、思维、意识等。 实际上,人们在使用语言、学习语言、研究语言的实践中也探索到相关的线索并 做出一定的概括,如语感、语言意识等概念,这就为我们解释语言的心智体系提供了合适的途径。 语感、语言感知
本特征,也叫音色。 ( 2)语音音质形成的原因:发 音 体(声带) — 声带是否振动;清 /浊 发音方法 — 如何克服阻碍; 共 鸣 腔 — 气流是否受阻,是:受阻部位,否: 11 口腔形状怎样。 只要其中一个不同,就形成不同的音质。 汉语 发音体和共鸣腔形状一样,但发音方法不同。 ( 3)记录音质的单位:音素(从音质角度划分出来的最小语音单 位) 三 语音的生理属性 1 发音器官
y much. 4. The two things ________ ________ Marx was not sure were the grammar and some of the idioms of English. 5. Her bag, ________ ________ she put all her books, has not been found. 6. The