基于matlab的语音识别系统的设计本科毕业设计(编辑修改稿)内容摘要:

样自然。 而一旦用户以跟人交谈的方式来进行语音输入时,口语的语法不规范和语序不正常的特点会给语义的分析和理解带来困难。 你也许接触到一些语音软件声称是可以做到自然语言识别,而在这方面真正有实用商业系统的只有 Nuance公司。 Nuance的最新版识别软件所提供的“随意说 (Say anything)”技术,使用户可以以自然的河南理工大学毕业设计(论文)说明书 4 语言说出自己的需求。 例如,“我对我的手机上的一些功能不太明白,想问一下”,或者“嗯,我的账单应该到期了,请帮我查一下要交多少钱”。 它为用户提供了一种像“人人对话”的自然语音交互界面,这种更加友善的界面允许一般对话时的一些行为,如停顿及不完全的语句等。 语音识别发展前景 语音技术是目前世界上最热门和最具有发展前景的技术之一。 从某种意义上说,语音识别是将计算机变成真正的“智能化”设备的最佳途径。 语音作为当前通讯系统中最自 然的通信媒介,随着计算机和语音处理技术的发展,不同语种之间的语音翻译将成为语音研究的热点。 自然语音数据库的设计:语音特征的提取;利用语音料库进行声学模型训练的研究;适应说话人声学模型的研究;语音识别算法的研究:语言翻译和对话处理的研究等成为语音技术的热点方向。 语音识别研究的另一个发展方向是人体语言与口语相结合的多媒体人机交互。 目前这种采用声觉、视觉两种信息融合进行识别的研究在全球范围内己经展开,成为语音识别研究的重要发展方向和研究热点之一。 一位业界的资深人士对 IT产业发展的提出的八大预言之一即为:语音成为 新人机界面。 语音识别技术的成熟使人机界面发生革命性突破,网络时代用户需要更自然、更简单、更方便的以语音为中心点的人机界面。 未来几年里,真正实用的语音识别和音字转换技术将首次走出实验室,走进千家万户的电器设备中。 摩尔定律所预言的硬件产品奇迹般的更新速度使计算机处理复杂运算的能力突飞猛进,也使体积庞大的语音库有机会栖身于普通用户的硬盘或其他存储介质上;技术方面,新的语音统计算法日趋成熟:市场需求方面,简化 PDA、移动电话和其他信息家电原本繁琐的操作步骤的最佳途径便是通过语音技术。 另外,语音识别是一门交叉学科, 语音识别技术关系到多学科的研究领域,在不同领域上的进步都会促进语音识别的发展。 (1)物理学 (声学 ):声音产生与传播原理、声电转换以及声音在房间回响等相关知识。 (2)生理学:有关人的声道与耳朵的生理结构、耳朵的听觉特征,在脑内高层的语言处理等。 (3)统计学和模式识别理论;基于各种统计方法对模式进行匹配,以及建立有关的统计模型,对语音特征参数进行估值和分类。 (4)信息理论和计算机科学:各种算法的研究、快速搜索查找匹配的方法。 (5)语言学:有关人的语言产生、感觉方面的知识。 (7)数字信号处理技术:信号的时域分析、 噪声消除、数字滤波、线性预测等方面的知识。 (8)微电子技术:超大规模集成电路 (VLSI)技术的发展对语音识别的具体应用有很大的影响, VLSI使语音识别系统商品化成为可能。 二、语音信号分析 语音学知识 在连续数字语音识别过程中,为了提高连续数字匹配搜索算法的有效性以及数字的识别率,必须要将对数字语音的研究细化到语音学的层次上,包括对各数字的音素和音节的特性和各数字的声调进行深入研究。 河南理工大学毕业设计(论文)说明书 5 音素是语音信号的最基本组成单位,可分为浊音和清音两大类。 浊音通过喉部发声,发声时声带振动,声带 振动的基本频率称为“基音频率”,其倒数称为“基音周期”。 清音通过将口腔内有的空气释放出来而发声,发声时喉部封闭,由于该气流通过一个狭窄通道时在口腔中形成流,因此具有明显的随机噪声的特点。 音节是由音素结合而成的发声最小单位,一个音节由“元音”和“辅音”构成。 当声带振动发出的声音气流从喉腔、咽腔进入口腔从唇腔出去时,这些声腔完全开放,气流顺利通过,这种音称为元音。 元音构成一个音节的主干,无论从长度还是能量上看,元音在音节中都占主要部分。 所有元音都是浊音。 发音时呼出的气流,由于通路的某一部分封闭起来或受到阻碍, 气流被阻不能畅通,而克服发音器官的这种阻碍而产生的音素称为辅音。 辅音也有清浊之分。 辅音出现在音节的前端或者后端或前后两端。 汉语是一种声调语言,相同声母和韵母构成的音节随声调的不同而具有完全不同的意义,对应着不同的汉字。 所以,在汉语的相互交谈中,不但要凭借不同的元音和辅音来辨别这些字或词的意义,还需要从不同的声调来区别它,也就是说声调有辨义作用。 汉语普通话的声调有阴平、阳平、上声、去声等四种声调 (另外,有时还包括“轻声” ),这些基本的调型在语句中虽然受语法、语气的影响而有所变动,但基 本上不改变原有的模式一调型。 声调的变化就是浊音基音周期 (或基音频率 )的变化,各个韵母段中基音周期随时问的变化产生了声调,变化的轨迹称为声调曲线。 声调曲线从一个韵母的起始端开始,到韵母的终止端结束。 不同声调的声调曲线的开始段称为弯头段,呈共同上升走向;末尾一段呈共同下降走向,称为降尾段;而中间一段具有不同的特点,这一段称为调型段。 一般来说,弯头段和降尾段对声调的听辨不起作用,起作用的是调型段。 而一段语音,它的起始和结尾处的波形幅度较小,要准确地测出这些地方的基音周期并不容易,因此可将这两处的波形忽略,只测调型 段这一部分波形的基音周期。 图 给出了单独说一个音节时的四种声调的典型曲线 ( HzF/0 )。 河南理工大学毕业设计(论文)说明书 6 图 声调的四种模式 语音信号是声道被激励发生共振而产生的输出。 由于在发音过程中声道是运动的,因此可以用一个时变线性系统来模拟。 理想的模型是线性的,且时不变的;但是语音信号是一连串的时变过程,且声门和声道相互耦合形成了语音信号的非线性特性。 做一个合理的假设,当在较短的时间间隔内表示语音信号时,则可以采用线性 时不变模型。 它包括激励模型、声道模型、和辐射模型。 图 给出了经典的语音信号的产生模型,语音信号被看成是线性时不变系统在随机噪声或准周期脉冲序列激励下的输出。 图 语音信号产生模型 河南理工大学毕业设计(论文)说明书 7 语音信号数字化和预处理 为了将原始的模拟语音信号变为数字信号,必须经过采样和量化两个步骤,从而得到时间和幅度上均为离散的数字语音信号。 根据采样定理,当采样频率大于信号的 2 倍带宽时,在采样过程中不会丢失信息,且从采样信号中可以精确地重构原始信号波形。 在实际语音信号处理中,采样频率通常为 7~ 10kHz。 在信号的带宽不明确时,采样前应接入抗混叠滤波器 (低通滤波器 ),使其带宽限制在某个范围内;否则,如果采样频率不满足采样定理,则会产生混叠。 此时,信号中的高频成分将产生失真。 采样之后要对信号进行量化,在量化过程中不可避免的会产生误差。 量化后的信号值与原始信号之间的差值为量化误差,又称为量化噪声。 信号与量化噪声的功率之比为量化信噪比。 若用 2x 表示输入语音信号序列的方差, max2X 表示信号的峰值, B 表示量化分辨率 (量化位长 ), 2e 表示噪声序列的方差,则量化信噪比为: )lg ()lg (10 m a x22 xex XBS N R   ( ) 假设语音信号的幅度服从 Laplacian 分布,此时信号幅度超过 x4 的概率很小 ,只有%,因而可以取 xX 4max。 此时上式变为 SNR=。 上式表明,量化器中每位字长对 SNR贡献为 6dB。 当 B=7位时, SNR=35dB。 此时量化后的语音质量能满足一般通信系统的要求。 研究表明 :要使语音波形的动态变化信噪比达到 55dB的信噪比, B应取 10位以上。 为了在语音信号变化范围内保持 35dB 的信噪比,常用 12 位来量化,其中附加的 5 位用于补偿 30dB左右的输入动态范围变化。 由于语音信号的平均功率谱受声门激励和鼻辐射的影响,在 800Hz以上的高 频时约按6dB/oct 衰减,为此要在预处理中进行预加重。 预加重的目的是提升高频部分,使信号的频谱变得平坦,以便于进行声道参数分析或频谱分析。 预加重在防混叠滤波与 A/D 转换之前进行。 这样,不仅能够进行预加重,而且可以压缩信号的动态范围,有效地提高信噪比。 所以为尽量提高 SNR,应在 A/D 转换之前进行预加重。 同时,预加重也可在 A/D 转换之后进行,用具有 6dB/oct 地提升高频特性地预加重数字滤波器实现。 它一般是一阶的,即:11)(  uzzH ,式中 u值接近于 1,本文中去为。 加重的信号在分析处理后,需要进行去加重处理,即加上 6dB/oct的下降的频率特性来还原成原来的特性。 图 “ 0”的预加重处理结果。 从下图可以明显河南理工大学毕业设计(论文)说明书 8 的看出,加重后语音信号中高频分量增强。 图 语音信号“ 0”的预加重处理效果 A/D转换之前还需要加一个防混叠滤波器。 如果频率干扰 (50或 60Hz)不严重或另有抗干扰措施,则不必用带通滤波器而只用低通滤波器即可。 低通滤波器的截至频率由语音信号带宽决定,用于虑除高于 l/2 采样频率的信号成分 或噪声,并且希望其带内波动和带外衰减特性尽可能好。 A/D 转换后采用低通滤波器作为平滑滤波器,对重构的语音波形的高次谐波起平滑作用,以去除高次谐波失真。 对于这种低通滤波器的特性和 A/D 转换频率,也要求与采样时具有相同的关系。 已经数字化的语音信号序列将被依次存入一个数据区。 在语音信号处理中,一般用循环队列的方式来存储这些数据,以便用一个有限容量的数据区来应付数量极大的语音数据。 在进行处理时,按帧从此数据区中取出数据,处理完成后再取一帧,如此进行下去。 一般来说,语音信号处理的帧长一般取 20ms(当 Fs=8kHz 时,相应每帧由 160个信号样值 )。 在河南理工大学毕业设计(论文)说明书 9 取数据时,前一帧与后一帧的交叠部分称为帧移。 帧移与帧长之比一般取为 0~。 在对语音信号进行短时分析的过程中,信号流的处理用分段或分帧来实现。 一般每秒的帧数为33~ 100,视实际情况而定。 分帧既可连续,也可采用交叠分段的方法,用可移动的有限长度窗口进行加权的方法来实现。 在 10~ 20ms 这样的时间段内,数字化后的语音信号的频谱特性和某些物理特征参量可近似地看作是不变地。 这样就可以采用平稳过程的分析处理方法来处理了。 这种时间以来处理的基本手段,一般是用 一个长度有限的窗序列 w(n)截取一段语音信号来进行分析,并让这个窗滑动,以便分析任意时刻附近的信号。 其一般式为   mn mnwmxTQ )()]([,其中T[*]表示某种运算 {x(m)}为输入信号序列。 通帮采用最多的窗函数是矩形窗、汉宁窗(Hanning)和哈明窗 (Hamming)。 本文主要采用哈明窗,其公式为:    其他nLnL mnw,0~0,1 12c o )(  (22) 其中 L 是窗长。 通常认为在一个语音帧内,应含 有 1~ 7 个基音周期。 然而,不同人的基音周期变化范围很大,从女性儿童的 2ms到老年男子的 14ms(即基音频率为 50~ 70Hz),所以 L 的选择比较困难。 通常在 l0kHz 采样频率下, L 折衷选择为 100~ 200 个采样点 (即持续时间为 10~ 20ms)。 语音信号的时域分析 对信号分析最自然最直接的方法是以时间为自变量进行分析,语音信号典型的时域特征包括短时能量、短时平均过零率、短时自相关系数和短时平均幅度差。 对于信号 x(n),短时能量定义为:              nhnxmnwmxmnwmxE n Nnmmn *1 222    (23) 式中, h(n)=w2(n), N为窗长, En表示在信号的第 n个点开始加窗函数时的短时能量。 可以看出,短时能量可以看作语音信号的平方经过一个线性滤波器的输出,该线性滤波器的单位冲激响应为 h(n),如图。 图 短时能量的方框图表示 如果用 xw表示 x(n)经过加窗处理后的信号,窗函数的长度为 N,则短时能量可表示为: 河南理工大学毕业设计(论文)说明书 10   1 2Nn nm wn mxE (24) 如图 “ 0”时域波形图和语音“ 0”短时能量图。 图 “ 0”的短时能力函数 利用短时能量可以区分清音和浊音,因为浊音的能量比清音的能量大得多;其次可以用短时能量对有声段和无声段进行判定,对声母和韵母分界,以及对连字分界等。 在语音识别系统中,一股也作为特征中的一维参数来表示语音信号能量的大小和超音段信息。 短时能量由于是对信号进行平方运算,因而认为增加了高低信号之间的差距,因此要采用短时平均幅度来表示能量的变化,其公式为:          1Nn nm wmn mxmnwmxM (25) 如图 “ 0”的短时平均幅度图。 从图中可观察到,短时平均幅度对能量小的信号累计效果要比短时能量好。 河南理工大学毕业设计(论文)说明书 11 图 语音信号“ 0”的短时平均幅度 短时平均过零率是指每帧内信号通过零值的次数。 对于连续语音信号,可以考察其时域波形。
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。