基于声纹的说话人特征识别毕业论文(编辑修改稿)内容摘要:

证”、“昭德数字”声纹门禁系统等。 —— 随着现代信息技术的发展,现在各国的国防部门也已经逐步采用声纹信息管理系统,并将其应用到军事命令、机密情报等重要信息的获取和鉴别中。 —— 说话人识别的主要依据是说话人声道结构的差异,从而可知说话人识别技术的研究和医学中生理学的发展是相互促进的,一方面生理学和解剖学的进展可以促进说话人识别问题的研究,另一方面也可借助说话人识别技术进行声道特性的研究。 例如为响应病人请求的命令,设计一个针对患者的说话人识别系统,可方便地实现患者需求的控制等。 取证、刑事案件侦破 —— 对于各种电话勒索、绑架、电话人身攻击等案件,说话人识别技术可以在一段录音中查找出嫌疑人,帮助对嫌疑人的查证, 1971 年美国警方就利用此技术协助破案。 另外,现在很多法庭已经使用声纹作为鉴别犯罪的依据。 当然,这也需要防止发音伪装的问题。 说话人识别的技术优势 生物识别技术是目前最为方便、安全和环保的识别技术,具有不会遗失、无需记忆等优点。 此外,与其他生物认证技术相比,说话人识别技术还有以下几个方面的优势: ( 1) 用户 接受程度高 —— 以说话人的声音作为特征进行识别,用户不需要记住复杂、繁多、易 忘的密码,不需要随时准备着携带智能卡、钥匙之类的东西,九江学院学士学位论文 5 更不需要像其他生物识别技术一样,刻意的用手触摸传感器或把眼睛凑向摄像头,是一种比较自然的识别技术。 ( 2) 设备成本低 —— 说话人识别是一种比较经济的识别方式,一方面它所用的设备(如 PC 机、麦克风等)成本要求较低;另一方面声音的采样、量化芯片的要求也不高。 而如虹膜、视网膜等技术,虽然识别精确度很高,但设备造价也很高,性价比不高。 ( 3) 可用于移动传输中 —— 随着信息智能化发展,语音特征将成为嵌入式系统和手持移动设备最好的交互手段的可能性越来越明显,因此,以声音作为身份识别 特征的技术也越来越受到重视,说话人识别技术也越来越重要。 ( 4) 可实现远程操作 —— 适合远程身份确认,通过麦克风或电话、手机就可以由网络(通讯网络或互联网络)实现远程登陆。 ( 5)实现算法简单 —— 声纹辨认和确认的算法复杂度低 , 配合一些其他措施,如通过语音识别进行内容鉴别等,可以提高准确率。 ( 6) 隐私保护性强 —— 说话人识别技术采用语音特征进行身份确认,只需提供语音信号,不 涉及隐私问题,用户无任何心理障碍。 说话人识别研究的难点和热点 说话人识别技术研究的难点 尽管对说话人识别的研究已长达半个世 纪,说话人识别技术也已从实验阶段走向市场,进入是实用阶段。 但要使其普遍,并像指纹识别一样成为十分可靠的生物特征识别技术,得到广泛应用,还有许多尚需进一步探索研究的难题,主要有以下几个方面: 1 .尚未找到简单可靠的说话人语音特征参数。 说话人语音信号中既包含了说话人语音内容的信息,也包含了说话人的个人信息,是语义特征和说话人特征的混合体。 目前还没有很好的方法把说话人的个性特征从语音特征中分离出来,也没找到简单的声学特征参数能够可靠的识别说话人。 2. 语音信号的变异。 即对于同一说话人和同一文本,语音信号也有很 大的变异性。 因为说话人的发音常常与环境、说话人的情绪、说话人的健康状况有密切关系,说话人的语音特征不是静态的、固定不变的,它具有时变特性。 会随时间、年龄和健康状况的变化而变化;另外,传输语音的通信通道的时变效应问题也是语音信号产生变异的重要方面。 语音信号的变异性从本质上说是说话人特征空间发生移动,说话人模式发生变异,从而增加识别过程中的不确定性。 说话人识别中存在的噪音、多通道、情感等热点研究方向都属于这方面。 基于声纹的说话人特征识别 6 3. 声音容易被录音模仿。 如何处理故意伪装问题,在法庭的说话人识别应用中,这个问题具有特殊的重要性。 比如在法庭查证的识别应用中,罪犯可能会伪装他们的声音或模仿另一个人的声音来逃避罪名。 4. 特征空间有限。 在汉语语音识别中,全体音节的集合很小,其数目仅几百个,而全体汉语说话人却有 14 亿多,对于由同一语音信号组成的特征空间,语音识别要将其划分为 M 个子空间, M 为音节个数,而说话人识别要将其划分为 N 个子空间, N 为说话人个数,由于 N 远大于 M,使得识别说话人要比识别所说的内容复杂,而且当 N 很大时,说话人识别还在理论上存在将有限特征空间进行无限划分的问题,这是说话人识别所面临的新问题。 5. 噪声问题。 鲁棒性问题 一直是说话人识别研究的难点,像用麦克风录音时会产生低频干扰噪声,而在移动信道中传送语音时也会有加性或卷积噪声产生,这些噪声都会使得得到的信号产生失真,最终降低识别率。 目前说话人识别中存在的去噪、多通道等研究热点都属于这个方面的改善。 另外,说话人识别还存在以下一些实用性的问题需要在将来的研究中加以考虑和解决。 1. 说话人识别系统设计的合理化及优化问题。 即在一定的应用场合下对系统的功能和指标合理定义、对使用者实行明智的控制以及选择有效而可靠的识别方法等问题,使得既能正确识别说话人,又能拒绝模仿者。 2. 如何处理长时间 和短时说话人的语音波动,如何区别有意模仿的声音,这点对于说话人识别在司法上应用尤为重要。 如何将语音识别和说话人识别有机的结合起来,对于这一点,指定文本型的说话人识别是一个有益的尝试。 3. 说话人识别系统的性能评价问题。 需要建立与试听人试验对比的方法和指标;由于目前对于说话人识别的性能尚无一致的评价方法,所以这一问题的解决还需长期的努力。 4. 可靠性和经济性。 和语音识别系统相比,说话人识别的使用者要多几个数量级,例如有信用卡的人可以是几百万或上千万,当然不一定所有的都用同一个系统来处理,但是在把说话人识别系统用于社会 以前,必须现设想万位以上的说话人进行可靠的实验。 同理,在经济性方面,每一个说话人的标准模型必须使用尽量少的信息,因此样本和特征量的精选也是亟待解决的。 说话人识别的关键步骤可分为:语音的预处理、语音特征提取、识别系统模型的建立、根据相似性准则进行判定等。 想要提高说话人识别的正确率,应从以上几个方面进行研究。 其中语音特征提取和识别系统模型的建立是说话人识别技术研究的重点。 上述提到的问题主要是这两方面引起的,其系统的优劣性也往往取决于这两方面。 识别模型常用的是高斯混合模型( GMM)、矢量量化模型( VQ)和隐马 尔九江学院学士学位论文 7 可夫模型( HMM),已有实验表明,对于相同的特征参数的与文本无关的说话人识别系统, GMM 的识别率可以达到 %,性能也是最好的,其次是 HMM,而 VQ 的识别率最高仅为 %,模型处理的主要问题集中在算法的准确度和复杂度上。 此外,由于目前大多数研究的说话人识别过程都认为相邻帧间的特征参数是相互独立的,所以如何寻求新的更具个性和更强鲁棒性的动态语音特征,或者对现有的特征参数进行优化的选择、补偿等,仍然是说话人识别技术领域中的研究热点。 说话人识别研究的热点 由于应用的需求和数字信号处理技术的飞 速发展,说话人识别的研究越来越受到人们的重视。 在国际声学、语音和信号处理会议( International Conferrence on Acoustic Speech and Signal Processing, ICASSP)论文集中,每年都有关于说话人识别的专题。 说话人识别的研究已经逐渐从实验室走向实际应用。 目前,说话人识别的研究主要集中在如下几个方面: 1. 语音特征参数的提取和混合。 语音特征参数对说话人识别系统的性能至关重要,虽然倒谱参数得到广泛应用,但语音特征参数仍是一个研究热点。 寻找新的有效的语音特征参 数以及已有特征参数的有效组合是语音特征参数研究的两个方向。 2. 在模型训练和识别技术方面: HMM 模型与其他模型结合,改善说话人识别系统的性能。 如 HMM 模型与神经网络, HMM 模型与支持向量机 SVM( Support Vector Machine)的结合都可以有效地改善系统的性能。 高斯混合模型方面:模型参数估计方法的改进,减少模型运算量及算法复杂度的研究。 矢量量化方面:量化方法的鲁棒性及改进算法。 神经网络方面:大人群识别,级联神经网络。 3. 带噪音,特别是电话和移动通信环境中的语音的说话人识别是现今说话人识别的一个 热点。 4. 文本无关的说话人识别技术是当今说话人识别研究的又一个热点。 影响说话人识别性能的因素 说话人识别技术发展至今已经变的相当成熟,而且在国际上已经有了一些成功的应用。 但是在实际的问题中,说话人识别技术仍然有一些弱点。 人们常认为说话人识别的难点在于有些人的声音非常相似,以至于有时连我们自己都会弄错。 不过这只是原因之一,说话人识别技术中的难点并不局限于此。 最关键的问基于声纹的说话人特征识别 8 题是语音信号本身的多变性,而不是相似性。 也就是说,难度在于要从多变的语音信号中找出每个说话人的特有特征。 语音信号的变化是如此错综复杂,其原 因之一就在于说话人自身语音的变化。 人与人之间声音存在差异使得自动说话人识别技术能够成为可能,但同时也正是因为人的语音具有多变性使得这个问题变得复杂起来。 语音是人的固有生物特征,但同时也是人的一种行为,它同时具有行为和属性两种特点,个人的属性可以不变,而行为却是每一次都不完全相同的。 语音产生的变化有些是刻意为之,有些则不然。 仅仅依靠发音器官的特点而提取出来的特征不足以表示每个说话人的特点。 由于健康状况、紧张程度、不愿意合作等生理和心理因素会大大降低说话人识别系统的辨识率。 除了说话人自身的因素以外,还有其他 方面也会造成说话人识别系统性能表现不稳定。 如噪声、传输信道匹配、系统使用时间长短的。 —— 噪声的影响是语音信号处理中最常见也是影响系统性能最关键的因素之一。 等人证明,通常的说话人识别系统在噪声干扰情况下识别效果会严重下降。 DOBTOTH 等学者从电话交换机上获取的语音信号表示, %的对话过程中都含有其他噪声信号干扰。 因此如何解决噪声条件下的说话人识别是第一重要问题。 通常研究者会从两个方面来解决:一是如何在噪声环境下提高识别率,另外就是训练时和识别时噪声环境不同的情况下如何保证识别效果。 目前多数说话人识别系统都是在实验室里完成的,其训练和识别的数据结果在实验环境中得到。 实际情况中像实验室那种相对安静理想的环境并不是很多,由此带来的问题就是容易造成训练环境和识别环境的不匹配。 现有的识别系统在噪声环境中其实别效果下降的很严重。 语音增强技术属于信号级抗噪处理方法,假设在加性噪声环境下,可以根据噪声的短时平稳特征,通过谱减法来处理带噪语音。 在进行语音信号提取之前,将语音中噪声部分有效的去除,使去噪后的语音背景和信噪比与训练语音相似,特征提取的时候就能得到较为理想的语音特征。 提取对噪声不敏感 的语音特征参数属于特征级抗噪处理方法,如果所提取的特征对噪声免疫,这种语音特征就有了抗噪声的能力。 语音信号处理技术和物理学、心理学、医学都有密切联系,任何一门学科的发展都有可能推动语音信号处理技术的进步。 随着人们对人耳听觉系统生理特征的认识,这两年语音识别领域提出了一些比较新的抗噪声语音特征,比如基于听觉掩蔽特性的特征参数、基于人耳听觉响度特性的特征参数、基于人耳听觉子带特征的提取。 —— 在远距离通信系统中通常会遇到此类问题。 不同的麦克风,不同的采用精度,不同的传输信道(如固定电话和无线移动 通信)都会带来信道匹配的问题。 可以说,只要系统存在失真,那么信道不匹配问题就会一九江学院学士学位论文 9 直存在。 解决这一问题的方法通常是采用补偿技术。 目前补偿技术主要从三个方面考虑,即分别从特征域、模型域和似然比得分进行模型补偿。 —— 通常实验室中的说话人识别系统都要求使用者花费大量的时间来训练和识别,以获取高识别率,或者通过大容量的语音数据库来做到这一点。 近年来流行的 GMM, HMM 等基于统计模型的说话人识别系统都存在这样的问题。 在实际使用时,在实际使用时,这样的说话人识别系统据需要用户花费更多的时间和耐心来完成训 练和识别。 实际使用证明,用户通常会对超过30 秒的训练过程感到厌烦,在这种情况下,很难保证获得足够的、高质量的训练数据。 识别精度也就更无从谈起。 因此更短的系统使用时间也应该是研究者追求的目标之一。 论文的内容安排 全文分为四章,按以下顺序组织: 第一章 概述了说话人识别研究的意义、应用领域、技术优势和研究的热点、难点。 第二章 介绍了说话人识别的基本原理和说话人识别系统的结果、模型。 第三章 对本文所采用的特征参数 线性预测倒谱、 Mel 频率倒谱和基音周期进行介绍,以及给出在 MATLAB 中对这些参数 提取的方法。 第四章 介绍了说话人系统的实现过程,并对实验结果进行分析总结。 基于声纹的说话人特征识别 10 第二章 说话人识别的基本介绍 语音的基础知识 在前面我们提到过一些语音的相关知识,这里我们将继续并更加详细具体的谈到语音方面的知识。 语音的产生原理 语音是由发声器官的运动产生的,发声器官主要有三个子系统构成:肺、气管、支气管构成的次生门系统,声带以及位于声带以上的由咽喉、口咽、口腔组成的声道,鼻咽和鼻腔组成的鼻道。 喉中有声带,决定基音的频率。 声道始于声门止于嘴唇,是气流传输的通道。 鼻道则从小舌开始到鼻 道孔。
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。