说话人识别的系统设计_大学毕业论文(编辑修改稿)内容摘要:
待识别者可以在集合外,而闭集假定待识别说话人一定在集合内。 说话人确认和说话人辨认 概念如图 所示 [6]。 北京科技大学本科生毕业设计(论文) 7 图 说话人辨认与说话人确认 文本有关、文本无关和文本提示 与文本有关的识别系统要求用户在训练和识别时按照规定的内容发音,并根据特定的发音内容建立精确 的模型,从而达到较好的识别效果,但系统需要用户配合,如果用户的发音与规定的内容不符合,则无法正确识别该用户。 现有的大部分已商业化的系统都是文本相关的 [7]。 与文本无关的识别系统则不论在训练时还是在识别时都不规定说话内容,即其识别对象是自由的语音信号。 文本提示型的识别系统在每一次识别时,识别系统在一个规模很大的文本集合中 随机 选择提示文本,要求说话人按提示文本的内容发音,而识别和判决是在说话人对文本内容正确发音的基础上 进行的。 文本提示增加了登记和确认的时间,但是它提高了针对磁带录音的安全性。 由于重述的条目不能被预测到,播放录音是非常困难的 [7]。 本文 系统实现 概述 按照 节中提到的分类方法,本论文实现的系统属于 与文本无关的闭集说话人辨认系统。 本系统使用 Java 语言结合 SQL Server 2020 数据库实现,具体的 实现框图如图 所示。 谁的讲话。 A1 X A2 A3 An …… 未知语音 记录讲话者 说话人辨认 记录讲话者 是 A的讲话。 X A 未知语音 说话人确 认 北京科技大学本科生毕业设计(论文) 8 图 说话人识别系统框图 预处理过程包含分帧和端点检测 两 个部分。 由于语 音信号只在短时间内具有平稳性,因此要将信号作分帧处理。 分帧后,语音信号被分割成一帧一帧的短时信号。 本文使用交叠分帧的方法,即前后相邻的两帧有重叠的部分,这样可以使帧与帧之间平滑过渡,保持其连续性。 端点检测是为了减少噪声的影响。 噪声也即无声段。 短时能量可以区分浊音和噪音。 短时过零率可以区分清音和噪音。 因此,本文使用二者的乘积 —— 能频值,来实现语音端点检测,以去除无声段。 特征提取时,本文选用 线性预测倒谱系数( Linear Predictive Cepstral Coefficients ,LPCC)、差分线性 预测倒谱系数、基音频率以及差分基音频率四种特征的特征组合来表征说话人的特征。 其中, 线性预测倒谱系数 和 基音频率 反映的是生成语音的发音器官的差异, 差分线性预测倒谱系数 和 差分基音频率 反映的则是发音器官发音时动作的差异。 组合的方式是加权扩维,其中加权系数是根据最终系统的输出结果反馈选取的。 码本生成和模式匹配也就是一般模式识别中的分类决策,本文选用矢量量化的方法实现。 码本生成部分是对组合特征矢量集进行聚类,生成使矢量集中所有特征矢量的总失真最小的最优码本。 这样做的原因有两个:一是由各帧特征矢量组成的矢量集数据量过大 ,不便于直接用于后续身份判决运算;二是一段语音各帧之间的相关性很大,即代表性不强,直接用为码本来表征说话人会导致失真过大。 模式匹配部分的任务是得到码本集后,用它与再次输入的组合特征矢量集求取平均量化失真,取其中最小的码本对应的注册用户 即 为当前说话人。 识别 训练 识别结果 测试矢量集 码本矢量集 测试语音 训练语音 特征提取 特征提取 语音码本 生成 预处理 模式匹配 北京科技大学本科生毕业设计(论文) 9 2 语音信号预处理 在语音信号特征提取之前,为了突出信号的有效部分以及便于之后的数据操作,首先要进行的一个环节就是对输入语音信号的预处理。 预处理主要包括对输入计算机的语音数据进行分帧和端点检测 两 个过程。 语音信号分帧 语音信号是一种准平稳信号。 但 是,由于语音的形成过程与发声器官的运动密切相关,这种物理运动比起声波振动速度来讲要缓慢得多,因此语音信号常常可以假定为短时平稳的,即可以假定在 10~30ms 的时间段内,其频谱特性和某些物理特征参量可近似地看作是不变的。 任何语音信号数字处理算法和技术都建立在这种 “短时平稳 ”特性的基础上。 因此,一般分帧时,帧长应选取在 10~30ms 之间。 每个短时语音段称为一个分析帧,分析帧可以是连续的,也可以采用交叠分帧的方法。 交叠分帧可以平滑信号,以减少在信号两端处的预测误差,避免频谱出现 “ 破碎 ”现象。 交叠分帧时,前一帧和 后一帧的交叠部分称为帧移。 帧移与帧长的比值一般取0~1/2,图 给出了帧移和帧长的关系 [1]。 本系统中,综合考虑到语音信号的短时平稳性以及之后的基音检测的准确性,最终选取帧长为 30ms(在系统采样率为 8KHz 的前提下,相应于每帧有 240 个信号样值),帧移 15ms。 图 帧长和帧移的示例 第 k 帧 第( k+1)帧 第( k+2)帧 帧移 帧长 北京科技大学本科生毕业设计(论文) 10 分帧是用可移动的有限长度窗口进行加权的方法来实现的,也就是用一定的窗函数)(n 来乘原信号 )(ns ,从而形成加窗语音信号 )(*)()( nwnsns 。 在语音信号数字处理中常用的窗函数是矩形窗和汉明窗等,它们的表达式 为 (其中 N 为帧长): 矩形窗 e l s en Nnn ,0 )1(0,1)( ( 21) 汉明窗 e l s en NnNnn ,0 10)],1/(2c os [)( ( 22) 矩形窗的主瓣宽度比汉明窗小一倍,即带宽约缩小了一倍,所以它具有较高的频谱分辨率。 同时汉明窗的带外衰减比矩 形窗大一倍多,具有更平滑的低通特性,能够在较高程度上反映短时信号的频谱特性。 因此,在语音频谱分析时常使用汉明窗 来获得分段语音,而在计算短时能量和平均幅度时通常使用矩形窗。 本系统考虑到之后语音端点检测的准确性,选用简单实用的矩形窗完成分帧。 经过以上的处理过程后,语音信号就已经被分割成一帧一帧的加过窗函数的短时信号,然后再把每一个短时语音帧看成平稳的随机信号,利用语音信号处理技术来做进一步的处理。 语音信号端点检测 在对语音信号进行特征提取之前, 为了提高数据的有效性同时减少计算量,需要首先进行语音端 点检测, 去除主要的无声段, 以便 减少噪声的干扰。 语音信号 一 般可分为无声段、清音段和浊音段。 无声段是背景噪声段,平均能量最低。 浊音段为声带振动发出对应的语音信号段,平均能量最高。 清音段为空气在口腔中的摩擦、冲击或爆破而发出的语音信号段,平均能量居于两者之间。 采用基于能量的算法来检测浊音通常是可行也是可靠的。 但对清音而言,除非信号具有极高的信噪比,例如在隔音室中录制的高保真度录音 ( 对于这种高信噪比录音,最低电平语音的能量超过背景噪声能量几倍到几十倍 ) ,否则,采用能量算法从背景噪声北京科技大学本科生毕业设计(论文) 11 中鉴别出清音就不够可靠了。 此时 ,需要用到语音信号的另 一 重要特征,即过零率:一定时间内信号穿越零电平的次数。 清音段与无声段的波形特点有明显不同,无声段信号变化比较缓慢,清音段信号由气流摩擦产生,在幅度上的变化比较剧烈,穿越零电平次数较多。 经验表明,通常清音段过零率最大,无声段的过零率的变化范围较大 [8]。 对于一帧信号而言, 其 能量值和过零次数被称为短时能量和 短时 过零率 [9]。 具体定义如下: 短时能量 Nm n mSE 1 2 )( ( 23) 短时过零率 Nm nn mSmSZ 20 )]1(s gn[)](s gn[21 ( 24) 其中 )(mSn 为 短时 信号 的 幅度, N 为 一帧 语音 数据中的样本数 , )sgn(x 为符号函数: 0,1 0,1)s g n( xxx ( 25) 能量特征适合检测浊 音,过零率适合检测清音,为了同时检测两者,一般综合利用两种特征。 为此,引入能频值( EFV, Energy Frequency Value)的概念:能频值等于短时能量乘上短时过零率。 其定义式即为式 26。 Nn nnNm n mSmSmSE F V 212 )]1(s gn[)](s gn[21)( ( 26) 能频值既顾及了清音的高过零率又顾及了浊音的高能量,从而提高了语音信号与背景噪声的分辨力。 同时,考虑到实际应用时周围环境的变换以及讲话者的语音强弱等影响都使阈值的选取无法普遍适用, 为此,我们进一步引入相对 阈 值的概念,它区别于传统意义上的门限 阈 值,而 是 度量两个时刻的语音采样的比值关系 ,具体来说是当前采样点与分析顺序上第一个极大值点的比值。 该 相对 阈 值 即能反映出当前采样点能频值的大小,又能类似归一化方法地屏蔽掉环境影响,因此具有较好的效果。 北京科技大学本科生毕业设计(论文) 12 系统实现时, 具体流程如图 所示。 计 算 每 帧 短 时 能 量 构 成 的 序 列e ( 0 ) , e ( 1 ) , … , e ( n )计 算 每 帧 短 时 过 零 率 构 成 的 序列 f ( 0 ) , f ( 1 ) , … , f ( n )计 算 每 帧 能 频 值 构 成 的 序 列 e f( 0 ) , e f ( 1 ) , … , e f ( n ) t = 0 , j = 0e f ( t + j ) e f ( t + j + 1 )r = e f ( t + j ) / e f ( t ) R当 前 t 即 为 语音 起 始 点j + +e f ( t ) 不 为 0t + +t = t + j + 1 ; j = 0YYYNNN 图 端点检测流程图 图 中 R 就是设定的相对阈值,本系统在输出所有 r 后,根据 r 的取值分布和 最终检测效果选定 R的值为 30。 语音终止点的判定与此类似,只是判定时从时刻 t向前搜索。 北京科技大学本科生毕业设计(论文) 13 本章小结 语音信号 只具有短时稳定性, 也即 语音信号的分析只对于短时间内的语音信号有效。 故此,要对语音信号进行分析,首先需要将该语音信号分成一帧一帧具有稳定性质的短时信号。 为了保证前后帧性质的连续性, 分帧时,本文采用交叠分帧的方法。 帧移等于帧长的一半,即前一帧和后一帧之间有一半的点是重叠的。 分帧后的信号仍包含大量的噪声段(无声段)信号。 要提高系统的精度,这些噪声段必须被去除掉,因此,要进行语音端点检测的工作。 考虑到语音中浊音段具有较高的能量,清音段具有较高的过零率,本文采用二者的乘积作为区分噪音段和语音段的标准。 经过本章的处 理后,语音信号可以被用于下一步特征提取的过程了。 北京科技大学本科生毕业设计(论文) 14 3 说话人识别的 特征提取 经过预处理后,几秒钟的语音就会产生很大的数据量。 提取说话人特征的过程,实际上就是去除原来语音中的冗余信息,减小数据量的过程。 特征参数 的选取 人和计算机能够根据语音信号将说话人识别出来,是因为语音信号中包含了与说话人有关的信息。 首先,语音信号中包含了与说话人有关的一些高级信息( Highlevel Information)。 如方言、遣词用句的特点、说话的习惯风格等。 这些高级信息是人类区分不同说话人的主要依据,也是说话人识 别系统最理想的特征参数。 除了上述高级信息外,还有一些低级信息( Lowlevel Information)。 不同人的发声器官的生理结构有所差别,在不同的环境中成长的人 即使 发同一个音时发声器官的动作也不尽相同。 这种能够表征说话人的信息,是通过共振峰频率及带宽、平均基频、频谱基本形状等这些物理可测量的参数特征表现出来的。 实用的表征说话人特点的基本特征应具有以下特点 [1]: ( 1) 能够有效地区分不同的说话人,但又能在同一说话人的 语音发生变化时相对保持稳定。 ( 2) 较好的鲁棒性。 ( 3) 易于从语音信号中提取。 ( 4) 不易被模仿。 ( 5) 尽量不随时间和空间变化。 发音是一个很复杂的过程,不可能找到能完全覆盖每个说话人所有特征的理想的单一的特征参量。 而各种特征向量是基于不同模型来建立的,所以,选取几种相关性不大的特征量组合使用,就能从不同的角度体现说话人特征,达到比较大的特征覆盖范围,从而提高识别率。 选取语音特征参数时 ,一般考虑两个方面的问题:生成语音的发音器官的差异(先天的)与发音器官发音时动作的差异(后天的)。 前者主要表现在语音的频率结构上,北京科技大学本科生毕业设计(论文) 15 主要包含反映 声道共振特性的频谱包络特征信息,以及反映声带振动等声源特性的频谱细。说话人识别的系统设计_大学毕业论文(编辑修改稿)
相关推荐
水泥砼面层 破老路砼面层 侧平石 人行道 工程收尾 劳 80 人 动 力 60 人 投 入 40 人 20 人 75 50 40 30 35 20 25 10 10 17 本工程业主要求的施工工期为 310 个日历天,我方保证在业主要求的施工工期内完成全部施工任务。 工期保证措施 a、施工准备及开工保证 根据施工现场的具体情况,按本施工组织设计所规划的施工准备阶段工作认真落实
拉瑟的惟实疗法、英国文学家德赖库尔斯的临床诊疗模式、美国心理学家托马斯戈登 的教师有效训练法为代表。 随着行为主义方法论的兴起和流行,课堂管理研究的重 点也由关注学生纪律转向教师控制,教师对付学生不良行为的重点放在矫正技术上,这一时期以 美国教育家李坎特和马琳坎特的果断纪律法、新西兰数学家弗雷德里克琼斯的教师管理训练计划为代表。 其研究教师如何预防或引发学生不良行为的过程。
1日至 1964年 12月 31日资料得出 (此验潮站 1964 年以后不再测潮位,而且只测了这四年潮位 ) 平均潮差: 最大潮差: 1995 年 7月份测得:平均潮差: ,最大潮差: 根据相关分析得: 平均潮位: 历史最高潮位: +(1989 年 7月 ) 历史最低潮位: (1990 年 12 月 ) (5)单宽潮量 各测站的单宽净潮量和运移方向见下表: 表 42 潮型 测站 单宽净潮量
用了几十年的教学大纲。 国家课程标准无论从目标、要求还是结构、体例上都是全新的,蕴含着素质教育的理念,体现着鲜明的时代气息,是一部内容十分丰富的全新意义上的“教学大 纲”。 课程标准是国家对学生接受一定教育阶段之后的结果所做的具体描述,是国家教育质量在特定教育阶段应达到的具体指标,它具有法定的效力。 因此,它是国家管理和评价课程的基础,是教材编写、教学、评估和考试命题的依据。
页 共 24 页 料。 土方路堤施工 常用机械,水平分层填筑法、纵向分层填筑法、纵向分层填筑法与横向分层填筑法特点的比较。 土方路堤填筑常用的机械有推土机、铲运机、平地机、挖掘机、装载机等。 水平分层填筑 法:填筑时按照横断面全宽分成水平层次,逐层向上填筑,是路基填筑的常用方法。 纵向分层填筑法:依路线纵坡方向分层,逐层向上填筑。 常用于地面纵坡大于 12%的用推土机从路堑取料填筑距离较短的路堤
个自然段,要求读出感情。 并通过指名读, 齐读,会背的站起来背诵等形式,使学生在反复的诵读中切实受到强烈的感染,同时也体现了分层次要求。 然后,再通过质疑:作者只看见了总理一夜的工作,为什么说他每个夜晚都是这 样工作的呢。 此时,出示课后资料袋《周总理的一天》时间表,让学生补充交流总理忘我工作的感人事例,体会“一个夜晚”和“每个夜晚”的关系。 这样再次引进课前搜集的资料,决不是重复,而是深化。