情感语音信号中共振峰参数的提取方法毕业论文(编辑修改稿)内容摘要:
情感维度空间两种方法概述了情感的分类,然 4 后介绍了情感语音数据分为 3 个类别以及本文所用的情感语音数据库。 最后介绍了语音情感识别系统。 第三章介绍了共振峰的概念,说明了共振峰在情感语音识别中的重要性;接 下来分析了提取共振峰参数所遇到的问题。 第四章对语音情感识别中的共振峰的提取方法进行了分析介绍。 包括谱包络提取法、倒谱法提取共振峰、 LPC 法提取共振峰、求根法提取共振峰和 LPC 倒谱法提取共振峰,并简单分析了这几种提取共振峰方法的优缺点。 第五章重点介绍了倒谱法提取共振峰的过程。 首先介绍了倒谱的定义以及倒谱法提取共振峰的原理,接下来画出了共振峰提取框图和共振峰提取流程图,最后给出了情感语音中高兴、生气和中立的共振峰提取结果。 并对共振峰提取结果进行分析与总结。 第六章是对本文主要工作和研究成果的总结,并对下一 步语音情感识别中共振峰提取的研究工作做出展望。 5 第 2章 情感的分类与语音情感识别 情感的分类 情感类型的合理界定是对语句进行情感标注的基础。 在情感计算领域,许多学者从不同的角度研究了情感的分类问题,并提出了相应的情感类型定义。 传统的研究通常用日常语言标签来标识和分类情感,比如把情感分为高兴、愤怒、害怕等 [15]。 美国心理学家 Eckman 提出了六种基本情绪 [16]: 愤怒、恐惧、悲伤、惊讶、高兴和厌恶。 而 Plutchik 提出过八种基本情绪 [17]悲痛、恐惧 、惊奇、接受、狂喜、狂怒、警惕、憎恨。 Shaver 等人则认为原始情绪有愤怒、爱、高兴、害怕、悲伤、惊讶六类 [18],这和 Eckman 的六类墓本情绪存在微小差异。 另外,关于语音情感的研究还可以更为简单化,部分研究对情感的分类更侧重于系统的实用性。 例如,将语音仅分为 “ 无情感含义 ”与 “ 带情感含义 ” 两大类 ; 或是分为 “ 情感强烈 ” 与 “ 情感不强烈 ” 两大类 ; 部分研究只关注于用户的情感状态是 “ 正常 ” 还是 “ 不正常 ”; 还有的研究只注重用户的某些负面情感,如 “ 挫败 ” 、 “ 厌烦 ” 、 “ 僧恶 ” 等等。 除了以标签法将情感分成离散的类别之外, 一些研究者尝试在连续的空间中描述情感,也称作维度轮 [19]。 在此基础上, Plutchik 等人提出了 “ 情感轮 ” 理论,认为情感分布在一个类似于钟表盘的圆形结构上,圆心是自然原点,表示人在内心平静时的情感状态,而圆周上的标注标明儿种基本情感类型,其排列方式可根据具体研究需要设置 [20]。 情感语句的情感类型和强度可用情感轮组成的二维空间中的情感矢量表示,该矢量同自然原点之间的距离体现了情感的强度,方向则 表示 情感类别。 尽管心理学、认知学等领域的研究人员对于情感种类的定义五花八门,但在目前绝大多数的语音情感识别系统中 ,使用的情感类别是 MPEG4 国际标准定义的五种情感状态,即 “愤 怒 (Anger)”、“ 恐惧 (Fear)”、“ 高兴 (Happiness)”、“ 悲伤 (Sadness)” 和 “ 惊讶 (Surprise)” ,外加 “中立 (Neutral)” 来表征语音不具有情感含义。 情感语音数据库 要对语音进行情感识别,情感语音数据库的建立是基础。 怎么样才能获取高质量的情感语音是建立语音库的关键问题。 因为语音的质量将直接影响整个语音情感识别系统的性能。 按照表达的情感自然度可以将情感语音数据分为 3 个类别:自然型情感语音、表演型情 感语音和引导型情感语音 [19]。 自然型情感语音是在说话人不知情的情况下获取的完全放松状态下的情感语音。 这种类型的语音被普遍认为是最理想最可信的情感语料。 然而,由于涉及法律和版权问题,这类情感语音的录制较为困难,成本也比较高。 表演型情感语音是指情感表现力较强的演员模仿不同情感朗诵指定语句获得的情感语料。 相对于自然型情感语音,表演型情感语音较容易获取,可控制性较强,可以根据需要录制任意说话内容的情感语句。 然而表演型情感语句中的情感成分被夸张了,而且自然度也受说话人的演技高低影响。 引导型情感语音是指通过一定 的外界环境和手段,引导说话人的情绪进入某种特定的状态,从而录制情感语音的方法。 引导型情感语音通常通过文字对说话者进行引导, 6 即通过说话人朗读带有一定感情色彩的文本,获得所需要的情感语句。 引导型情感语音是自然型和表演型情感语音录制方法的一种折中,定制性比较强且语料的获取相对方便,适合基于不同文本的语音情感方面的研究。 然而,纯文本引导对于内心情感状态的生成比较缓慢和微弱,这种方式获得的情感语句对文本内容的选择性比较强。 由于语音情感信息的地域性差异,目前情感语音研究领域中缺乏标准数据库,需要研究者录制符合自身研究 要求的情感语料库。 本文应用的是由高兴、生气、中立三种情感语音组成的情感语音数据库,每种情感语音分别有中英文两种语言,所用情感语句的中文文本为“我到北京去”英文文本为“ Good morning”以 wav 格式存储,持续时间五秒以内,经过反复的主观听觉实验,认为该情感语音数据库的语料情感辨识度较高,自然度也比较理想,可以满足本文的研究需求。 语音情感识别系统 预 处 理 特 征 提 取情 感 语 音 输 入模 式 匹 配模 板 库参 考 模 式识 别 结 果 输 出 图 21 典型语音情感识别系统的框图 语音情感识别系统与语音识别系统类似,分为 语音情感语句预处理、特征参数提取和模式匹配三个部分。 其识别过程如下 :首先对情感语句进行预处理,语音情感语句预处理包括预加重、分帧加窗和端点检测等。 其次是对情感语句提取特征参数,如 MFCCI、LPCC、 LPMCC 和 ZCPA 等频谱特征参数。 最后将不同情感的特征参数进行训练形成不同的模板库,并将待识别情感的特征参数与模板库进行模式匹配,从而将情感识别结果输出。 典型的语音情感识别系统如图 21 所示。 7 第 3章 共振峰的基本概念 共振峰参数的概念及产生原理 发音时,气流通过声道,引起声道谐振,产生的 一组谐振频率,称为共振峰频率或简称共振峰。 共振峰参数包括共振峰频率和频带宽度,它是区别不同韵母的重要参数。 共振峰信息包含在频率包络之中,因此共振峰参数提取的关键是估计自然语音频谱包络,一般认为谱包络中的最大值就是共振峰 [1]。 共振峰的分布位置是建立在 声音 产生媒介的共鸣物理结构基础上的( Resonant Physical Structure)。 无论是人声还是乐器,它们的声音特性都源自两个因素,一个是发声 系统,如人的声带或乐器的 振动 簧片,另一个是共鸣系统。 乐器不同的共鸣系统使其在一定频域中的分音的 振幅 得以突出,这样,这些区域就产生了这个乐器所特有的共振峰值,这些共振峰值同共鸣体的大小、形状的材料密切相关。 由于一件乐器的结构是稳定的,因此在一件乐器发出的所有 音调 中,不论 基频 如何,都会表现出相同的共振峰值,只不过其显著性有强有弱罢了。 这就可以帮助我们解释为什么在很多的乐器中,同一乐器所发出的不同 音调 具有相同的 音质。 在语音声学中,人声也同样受自身生理如鼻孔、咽腔、口腔大小的影响有自身的共振峰区( Formant Regions)。 通过利用这些共鸣空间的形状和大小不同的变化(例如改变咽喉、嘴形),我们就能改变声音的共振峰。 我们之所以能够区分不同的人声、元音,主要也是依靠它们的共振峰分布的位置。 共振峰参数的研究意义 汉语普通话发音中情感特征信息的特征参数主要包括发音持续时间、振幅能量、 基音 频率和共振峰频率等。 共振峰是反映声道谐振特性的重要特征,它 代表了发音信息的最直接来源,而且人在语音感知中利用 了共振峰信息,所以共振峰参数的提取一直以来都是语音信号处理领域中重要的研究题之一。 共振峰参数已经广泛地用作语音识别的主要特征和语音编码传输的基本信息,共振峰轨迹包含了说话人的个性特征,对说话人识别有着重要意义,同时也是语言学家研究人类发音技能的有效工具 [21]。 提取共振峰参数所遇到的问题 与 基音 检测类似,共振峰估计也是表面上看起来很容易,而实际上又受很多问题困扰。 这些问题包括: ( 1)虚假峰值。 在正常情况下,频谱包络中的极大值完全是由共振峰引起的。 但在线性预测分析方法出现之前的频谱包络估计器中, 出现虚假峰值是相当普遍的现象。 甚至在采用线性预测方法时,也并非没有虚假峰值。 为了增加灵活性会给预测器增加 2~3 个额外的极点,有时可利用这些极点代表虚假峰值。 ( 2)共振峰合并。 相邻共振峰的频率可能会靠的太近而难以分辨。 这时会产生共振峰合并现象,而探讨一种理想的能对共振峰合并进行识别的共振峰提取算法存在很多实际困难。 8 ( 3)高音调语音。 传统的频谱包络估计方法是利用由谐波峰值提供的样点。 高音调语音的谐波间隔比较宽,因而为频谱包络估值所提供的样点比较少,所以谱包络的 估计就不够精确。 即使采用线性预测进行频谱包络估计也会出现这个问题。 在这样的语音中,线性预测包络峰值趋向于离开真实位置,而朝着最接近的谐波峰位移动。 9 第 4章 共振峰的提取方法及分析 谱包络提取法 共振峰信息包含在语音频谱包络中,因此共振峰参数提取的关键是估计自然语音频谱包络,并认为谱包络中的最大值就是共振峰。 下图 41 是对 21 帧信号的线性预测谱包络提取分析 [22]。 ( 1) 原始语音帧信号 ( 2)线性预测 信号 ( 3)预测误差 ( 4)预测信号功率谱 ( 5)预测信号幅频响应 ( 6)声道倒谱 ( 7) LPC 倒谱 ( 8) LPC 倒谱包络 图 41 信号线性预测谱包络提取分析图 10 倒谱法提取共振峰 虽然可以直接对语音信号求离散傅里叶变换( DFT),然后用 DFT 谱来提取语音信号的共振峰参数,但是,直接 DFT 的谱要受基频谐波的影响,最 大值只能出现在谐波频率上,因而共振峰测定误差较大。 为了消除基频谐波的影响,可以采用同态解卷技术,经过同态滤波后得到平滑的谱,这样简单地检测峰值就可以直接提取共振峰参数,因而这种方法更为有效和精确。 因为倒谱运用对数运算和二次变换将基音谐波和声道的频谱包络分离开来。 因此用低时窗 ()ln从语音信号倒谱 c(n)中所截取出来得 h(n),能更精确地反映声道响应。 这样,由 h(n)经 DFT 得到的 H(k),就是声道的离散谱曲线,用 H(k)代替直接 DFT 的频谱,因为去除了激励引起的 谐波波动,所以可以更精确地得到共振峰参数。 图 42 倒谱法求取的共振峰参数图 LPC 法提取共振峰 从线性预测导出的声道滤波器是频谱包络估计器的最新形式,线性预测提供了一个优良的声道模型(条件是语音不含噪声)。 尽管线性预测法的频率灵敏度和人耳不相匹配,但它仍是最廉价、最优良的行之有效的方法。 用线性预测可对语音信号进行解卷:即把激励分量归入预测残差中,得到声道响应的全级模型 H(z)的分量,从而得到这个分量的 ia 参数。 尽管其精度由于存在一 定的逼近误差而有所降低,但去除了激励分量的影响。 此时求出声道响应分量的谱峰,就可以求出共振峰,这里有两种途径:一是用标准的求取复根的方法计算全级模型分母多项式A(z)的根,称为求根法;一是用运算量较少的 DFT 法,求 A(z)的离散频率响应 A(k)的谷点来得到共振峰的位置。 因为 piiizazA11)(,所以求此多项式系数序列( 1, a1, 11 a2,„, ap)的 DFT,就可以得到 A(k)。 但是一般预测阶数 p 不大,这就影响了求其谷点即求其共振峰频率值的精度。 为了 提高 DFT 的频率分辨率,可以采用补 0 的办法增加序列的时间长度,即用( 1, a1, a2,„, ap, 0,0,„, 0)进行 DFT,为了能利用 FFT,长度一般取为 64 点、 128 点、 256 点、 512 点等。 另外也可以采用抛物线内插技术,解决频率分辨率较低的情况下的共振峰频率值的求取。 图 43 LPC 谱估计法求取的共振峰参数图 求根法提取共振峰 找出多项式复根的过程通常采用牛顿 — 拉夫逊( NewtonRaphson)算法。 其方法是一开始先猜测一个根值并就此猜测值计算多项式及其导数的值,然后利用结 果再找出一个改进的猜测值。 当前后两个猜测值之差小于某门限时结束猜测过程。 由上述过程可知,重复运算找出复根的计算量相当可观。 然而,假设每一帧的最初猜测值域前一帧的 根的位置重合,那么根的帧到帧的移动足够小,经过较少的重复运算后,可使新的根的值会聚在一起。 当求根过程初始时,第一帧的猜测值可以在单位圆上等间隔设置。 具。情感语音信号中共振峰参数的提取方法毕业论文(编辑修改稿)
相关推荐
镇陶瓷学院本科生毕业设计(论文) 第 9 页 共 49 页 有最大的产量。 科学技术的逐渐发展进步,超声检测在很多方面都有了越来越广泛的应用。 这里有很多是应用在传感器方面的。 超声显微镜属于超声换能器应用的范围,它预示着超声换能器将会有更新的发展和进步。 现代社会,在生活的各个方面都有压电技术的应用,每个人很多时候都与压电应用息息相关。 例如用打火机点燃香烟、打开煤气炉、汽车发动
指标由上级配给。 拟选场址 基本情况 见表 41。 表 41 拟选场址 基本情况一览表 序号 项目 技术经济指标 1 用地 面积 ㎡ 2 场 址地貌特征 前后无障碍物,场地平整 3 工程地质 较好 4 交通运输条件 在城区,运输方便 5 供水 用县自来水 6 排水 用市政公共管道排水 7 供电 稳定充足 8 周围环境及相互影响 无明显不利影响 惠东县人民医院迁建项目可行性研究报告 17 建设条件
(签名) 年 月 日 ii 中文摘要 : 情境教学在英语课堂中的应用 英语教育专业 随着中国社会和经济的发展,英语在人们的日常生活中变得越来越重要了,英语各个阶段所采用的教学方法也受到大家关注。 情境教学法随也随着中国教育体制的改革而出现,并在中小学英语的教学中取得一定的成就,在中国中小学英语教学中,情境教学法是值得参考和采用的。 情境来源于社会实践活动,是现实生活的一种产物
他不需要 的 模块。 基于 Pro/E 软件的特性,可以设计到生产过程的集成,并实现的并行工程设计。 不仅可以适用于工作站,同时也适用于单机。 在 Pro/E 模块 的结构 设定中 ,可以分别 完成 绘制草图,零件的生产,装 配设计,钣金设计, 处理加工等 机械 装配制造的一些功能 , 因为 其功能强大,所有软件 保证 了 用户可以 充分 选择自己所需要的 模块和功能,然后进行生产和设计。
大起大落。 而目前学校里还不存在类似的实体机构。 市场尚属空白。 漳州居民及高校学生参加聚餐情况表 10 0102030405060708090第一季度 第三季度高校园区周边居民市区居民 由于悠聚小屋所提供的聚餐服务具有广泛的普及性,可面向全部同学。 闽南师范学院、漳州卫校、城市职业学院和学校,共有在校生 5万多名,每年花在聚会休闲反面上大 约 400元左右那一年共有 2020万的消费金额。
改变,电压比较器翻转电压为高电平。 将电平变化送到单片机控制物体的调整方向。 用这种方法即使板面受到不同程度的光照射,比较器正向输入端和反向输入端的变化值相等,比较器输出端不变。 只有黑色引导线进入内侧一组光敏电阻区域才能引起感光量大大改变,比较器 才 翻转 , 这种方法抗干扰能力强。 ( 3) 红外线无线控制 台 电路的设计 采用 红外线无线通信可以对运动物体进行远程控制 并传输 物体的坐标