基于倒谱的大学生语音识别算法研究毕业论文(编辑修改稿)内容摘要:

变为相应的文本或命令的高 科技 技术。 语音识别是一门交叉学科 , 近二十年来,语音识别技术取得显著进步,开始从实验室走向市场。 人们预计,未来 10 年内,语音识别技术将进入工业、 制造 、 通信 、汽车电子、医疗、家庭服务、 消费电子产品 等各领域。 语音识别听写机在一些领域的应用被 美国 新闻界评为 1997年计算机发展十件大事之一。 语音识别技术原理 语音信号处理虽然包括语音通信 [4],语音合成和语音识别等方面的内容,但其基本前提和基础是对语言信号进行分析。 语音的压缩和恢复是语音信号处理的关键技术。 近年来有关这方面的研究不断发展成熟,并形成一系列的标准。 在语音信号的各种分析合成系统中,需要提取频谱包络参数,推测音源参数(清浊音的判定以及浊音周期等)。 只有将语音信号分析表示成其本质 特性的参数,才可能利用这些参数进行高效的语音通信,才能建立用于语音合成的语音库,从而建立用于识别的模板或知识库。 语音识别的技术原理是找出特征参数。 特征提取的目的是找出一组可以代表每位说话者声音特性参数来进行识别,该参数应不宜受环境干扰并具有鉴别能力。 对于语音信号而言,倒谱可以将频谱上的高低频成分分离,所以只需取前面几项参数,就能代表语音信号的特性,从而提高识别率。 而根据所分析的参数不同,语音信号分析可分为时域,频域,倒谱域等方法。 进行语音信号分析时,最先接触到的,也是最直观的是它的时域波形。 时域分析具有简单直观,清晰易懂,运算量小,物理意义明确等优点。 但更为有效的分析是围绕频域进行的,因为语音中最重要的感知特性反映在其功率谱中,而相位变化只起着很小的作用 [5]。 频谱分析具有以下优点:时域波形较易随外界环境变化,但语音信号的频谱对外界环境变化具有一定的顽健性。 另外,语音信号的频谱具有非常明显的声学特性,利用频域分析获得的语音特征具有实际的物理意义。 如 MFCC,共振峰,基音周期等参数。 倒谱域是将对数功率谱进行逆傅立叶变换后得到的,它可以进一步 将声道特性和激励特兰州理工大学毕业论文 8 性有效地分开,因此可以更好地揭示语音信号的本质特 性。 本文给出 基于倒谱的 语音特性的提取 算法设计及其实现。 使读者对相关技术的基本理论,方法和基本应用有一个系统的了解。 语音识别系统分类 语音识别系统可以根据对输入语音的限制 [6]加以分类。 从说话者与识别系统的相关性考虑 : 可以将识别系统分为 3 类: (1)特定人语音识别系统:仅考虑对于专人的话音进行识别;(2)非特定人语音系统:识别的语音与人无关,通常要用大量不同人的语音数据库对识别系统进行 扩充 ; (3)多人的识别系统:通常能识别一组人的语音,或者 是 特定组语音识别系统,该系统仅要求对要识别的那组人的语音进行 训练。 从说话的方式考虑 : 也可以将识别系统分为 3类: (1)孤立词语音识别系统:孤立词识别系统要求输入每个 单词后要停顿; (2)连接词语音识别系统:连接词输入系统要求对每个词都清楚发音,一些连音现象开始出现; (3)连续语音识别系统:连续语音输入是自然流利的连续语音输入,大量连音和变音 将 会出现。 从识别系统的词汇量大小考虑 : 也可以将识别系统分为 3类: (1)小词汇量语音识别系统 : 通常包括几十个词的语音识别系统。 (2)中等词汇量的语音识别系统 : 通常包括几百个词到上千个词的识别系统。 (3)大词汇量语音识别系统 : 通常 包括几千到几万个词的语音识别系统。 随着计算机与 数字信号处理器 运算能力以及识别系统精度的提高,识别系统根据词汇量大小进行分类也不断进行变化。 目前是中等词汇量的识别系统到将来可能就是小词汇量的语音识别系统。 这些不同的限制也提高 了语音识别系统的困难度。 语音识别基本方法 一般来说 ,语音识别的方法有三种:基于声道模型和语音知识的方法、模板匹配的方法以及利用人工神经网络 [7]的方法。 基于语音学和声学的方法: 该方法起步较早,在语音识别技术提出的开始,就有了这方面的研究,但由于其模型及语音知识过于复杂,现阶段 仍 没有达到实用的阶段。 通常认为常用语言中有有限个不同的语音 基 元,而且可以通过其语音信号的频域或时域特性来区分。 这样该方法分为两步实现: 兰州理工大学毕业论文 9 第一步,分段和标号 : 把语音信号按时间分成离散的段,每段对应一个或几个语音基元的声学特性。 然后根据相应声学特性对每个分段给出相近的语音标号。 第二步,得到词序列 : 根据第一步所得语音标号序列得到一个语音基元 网格 ,从词典得到有效的词序列,也可结合句子的文法和语义同时进行。 模板匹配的方法: 模板匹配的方法发展比较成熟,目前已达到了实用阶段。 在模板匹配方法中,要经过四个步骤: 特征提取 、模板训练、模板分类、判决。 常用的技术有三种:隐 马尔可夫 ( HMM)理论、动态时间规整 (DTW)、 矢量量化 ( VQ)技术。 动态时间规整 (DTW) 语音信号的 端点 检测是进行语音识别中的一个基本步骤,它是特征训练和识 别的基础。 所谓 端点 检测就是在语音信号中的各种段落 (如音素、音节、词素 )的始点和终点的位置,从语音信号中排除无声段。 在早期,进行端点检测的主要依据是 能量 、振幅和过零率。 但效果往往不明显。 日本 学者 Itakura 提出了动态时间规整 算法 (DTW DynamicTimeWarping)。 算法的思想就是把未知量均匀的升长或缩短 ,直到与参考模式的长度一致。 在这一过程中,未知单词的 时间轴 要不均匀地扭曲或弯折,以使其特征与模型特征对正。 隐马尔可夫法 (HMM) 隐马尔可夫法 (HMM)是 70 年代引入语音识别理论的,它的出现使得自然语音识别系统取得了实质性的突破。 HMM 方法现已成为语音识别的主流技术,目前大多数词汇量、连续语音的非特定人语音识别系统都是基于 HMM 模型 来实现的。 HMM 是对语音信号的时间序列结构建立 统计模型 ,将之看作一个数学上的双重随机过程:一个是用具有有限状态数的Markov 链来模拟语音信号统计特性变化的隐含的随机过程,另一个是与 Markov 链的每一个状态相关联的观测序列的随机过程。 前者通过后者表现出来,但前者的具体参数是不可测的。 人的言语过程实际上就是一个双重随机过程,语音信号本身是一个可观测的时变序列,是由大脑根据语法知识和言语需要 (不可观测的状态 )发出的音素的参数流。 可见 HMM 合 理地模仿了这一过程,很好地描 述了语音信号的整体非平稳性和局部平稳性 ,是较理想的一种 语音模型。 矢量量化 (VQ) 矢量量化 (VectorQuantization)是一种重要的信号压缩方法。 与 HMM 相比 ,矢量量化 主要适用于小词汇量、孤立词的语音识别。 其 识别 过程是:将语音信号波形的 k 个样点的每一帧,兰州理工大学毕业论文 10 或有 k 个参数的每一参数帧,构成 k维空间 中的一个 矢量 ,然后对矢量进行量化。 量化时,将 k 维无限空间划分为 M个区域边界,然后将输入矢量与这些边界进行比较,并被量化为 “ 距离 ” 最小的区域边界的中心矢量值。 矢量量化 器的设计就是从大量信号样本中训练出好的码书,从实际效果出发寻找到好的失真测度定义 公式 ,设计出最佳的矢量量化系统,用最少的搜索和计算失真的运算量,实现最大可能的平均信噪比 [9]。 核心思想可以这样理解:如果一个码书是为某一特定的信源而优化设计的,那么由这一信息源产生的信号与该码书的平均量化失真就应小于其他信息的信号与该码书的平均量化失真,也就是说编码器本身存在区分能力。 在实际的应用过程中,人们还研究了多种降低 复杂度 的方法,这些方法大致可以分为两类:无记忆的 矢量量化 和有记忆的矢量量化。 无记忆的 矢量量化 包括树形搜索的矢量量化和多级矢量量化 [8]。 神经网络的方法: 利用人工神经网络的方法是 80 年代末期提出的一种新的语音识别方法。 人工神经网络(ANN)本质上是一个自适应 非线性动力学 系统,模拟了人类神经活动的原理,具有自适应性、并行性、容错性 、 鲁棒性 和学习特性,其强的分类能力和输入 输出映射能力在语音识别中都很有吸引力。 但由于存在训练、识别时间太长的缺点,目前仍处于实验探 索阶段。 由于 ANN 不能很好的描述语音信号的时间动态特性,所以常把 ANN 与传统识别方法 相结合,分别利用各自优点来进行语音识别。 语音识别系统基本结构 一个完整的基于统计的语音识别系统可大致分为三部分: (1)语音信号预处理与 特征提取 ; (2)声学模型 与模式匹配 ; (3)语言模型与语言处理。 语音信号预处理与特征提取 : 选择识别单元是语音识别研究的第一步。 语音识别单元有单词(句)、音节和音素三种,具体选择哪一种,由具体的研究任务决定。 单词(句)单元广泛应用于中小词汇语音识别系统,但不适合大词汇系统,原因在于模型库太庞大,训练模型任务繁重,模型匹配 算法 复杂,难以满足实时性要求。 音节单元多见于汉语语音识别,主要因 为汉语是单音节结构的语言,而英语是多音节,并且汉语虽然有大约 1300 个音节,但若不考虑声调,约有 408 个无调音节,数量相对较少。 因此,对于中、大词汇量汉语语音识别系统来说,以音节为识别单元基本是可行的。 兰州理工大学毕业论文 11 音素单元以前多见于英语语音识别的研究中,但目前中、大词汇量汉语语音识别系统也在越来越多地采用。 原因在于汉语音节仅由声母(包括零声母有 22 个)和韵母(共有 28 个)构成,且声韵母声学特性相差很大。 实际应用中常把声母依后续韵母的不同而构成细化声母,这样虽然增加了模型数目,但提高了易混淆音节的区分能力。 由于协同发音 的影响,音素单元不稳定,所以如何获得稳定的音素单元,还有待研究。 语音识别一个根本的问题是合理的选用特征。 特征参数提取的目的是对语音信号进行分析处理,去掉与语音识别无关的 冗余信息 ,获得影响语音识别的重要信息,同时对语音信号进行压缩。 在实际应用中,语音信号的 压缩率 介于 10100 之间。 语音信号包含了大量各种不同的信息,提取哪些信息,用哪种方式提取,需要综合考虑各方面的因素,如成本,性能,响应时间,计算量等。 非特定人语音识别系统一般侧重提取反映语义的特征参数,尽量去除说话人的个人信息;而特定人语音识别系统则希望在提取反映语义的特征参数的同时,尽量也包含说话人的个人信息 [9]。 线性预测( LP)分析技术是目前应用 最 广泛的特征参数提取技术,许多成功的应用系统都采用基于 LP技术提取的倒谱参数。 但线性 预测模型 是纯数学模型,没有考虑人类听觉系统对语音的处理特点。 Mel参数和基于感知线性预测( PLP)分析提取的感知线性预测倒谱,在一定程度上模拟了人耳对语音的处理特点,应用了人耳听觉感知方面的一些研究成果。 实验证明,采用这种技术,语音识别系统的性能有 很大 提高。 从目前使用的情况来看, 梅尔 刻度式 倒频谱 参数已逐渐取代原本常用的线性预测编码导出的倒频谱参数,原因是它考虑了人类发声与接收声音的特性,具有更好的 鲁棒性 ( Robustness)。 也有研究者尝试把 小波分析 技术应用于 特征提取 ,但目前性能难以与上述技术相比,有待进一步研究。 声学模型与模式匹配: 声学模型 通常是将获取的语音特征使用训练 算法 进行训练后产生。 在识别时将输入的语音特征同声学模型(模式)进行匹配与比较,得到最佳的识别结果。 声学模型 是识别系统的底层模型,并且是语音识别系统中最关键的一部分。 声学模型 的目的是提供一种 有效的方法计算语音的 特征矢量 序列和每个发音模板之间的距离。 声学模型的设计和语言发音特点密切相关。 声学模型单元大小(字发音模型、半音节模型或音素模型)对语音训练数据量大小、系统识别率,以及灵活性有较大的影响。 必须根据不同语言的特点、识别系统词汇量的大小决定识别单元 [10]的大小。 兰州理工大学毕业论文 12 以汉语为例:汉语按音素的发音特征分类分为辅音、单元音、复元音、复鼻尾音四种,按音节结构分类为声母和 韵母。 并且由音素构成声母或韵母。 有时,将含有声调的韵母称为调母。 由单个调母或由声母与调母拼音成为音节。 汉语的一个音节就是汉语一个字的音,即音节字。 由音节字构成词,最后再由词构成句子。 汉语声母共有 22 个,其中包括零声母,韵母共有 38 个。 按音素分类,汉语辅音共有 22个,单元音 13 个,复元音 13 个,复鼻尾音 16 个。 目前常用的 声学模型 基元为声韵母、音节或词,根据实现目的不同来选取 不同的基元。 汉语加上语气词共有 412 个音节,包括轻音字,共有 1282 个有调音节字,所以当在小词汇表孤立词语音识别时常选用词作为基元,在大词汇表语音识别时常采用音节或声韵母建模,而在连续语音识别时,由于协同发音的影响,常采用声韵母建模。 基于统计的语音识别模型常用的就是 HMM 模型 λ(N,M,π,A,B)[11],涉及到 HMM 模型的相关理论包括模型的结构选取、模型的初始化、模型参数的重估以及相应的识别算法等。 语言模型与语言处理: 语言模型包括由识别语音命令构成的语法网络或由 统计方法 构成的语言模型,语言处理可以进行语法、语义分析。 语言模型对中、大词汇量的语音识别系统特别重要。 当分类发生错误时可以根据语言学模型、语法结构、 语义学 模型进行判断纠正,特别是一些同音字则必须通过上下文结构才能确定词义。 语言学理论包括语义结构、 语法规则 、语言的数。
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。