基于谱减法的语音增强及其dsp实现(编辑修改稿)内容摘要:
信号具有声门气流脉冲的实际波形,需要使上述的冲激序列通过一个声门脉冲模型滤波器。 清音激励信号则由随机噪声发生器产生。 声道模型 声道可近似地看作是由多段均匀截面积的声管级联而成,采用流体力学的方法可以推导出, N 节级联的无损声管的系统函数是一个 N 阶的全极点函数: pi iizazv 01)( (21) 其中 0a = 1, ia 为实数, p 为全极点滤波器的阶。 p 取得越大,模型的传输函数与声道实际传输函数的吻合程度越高,但同时也增加了算法的复杂程度。 辐射模型 基音频率 周期脉冲发生器 声门脉冲模型 G( Z) Av 随机噪声发 生器 Au 声道模型 V(Z) 声道参数 辐射模型 R(Z) 语音信号 s(n) 6 声道的终端为口和唇,因此辐射模型与嘴型有关。 经研究表明,口唇端辐射在高频端较为显著,在低频端时影响较小。 口唇的辐射效应可表示为: )1()( 10 zRzR (22) 综上所述,完整的语音信号数字模型可以用三个子模型:激励模型、声道模型和辐射模型的串 联来表示。 其转移函数为: )()()()( ZRzVzUzH (23) 语音信号的短时分析技术 语音信号是一种非平稳的时变信号,产生过程与发音器官的运动密切相关,而这种物理运动比起声音振动速度要缓慢得多,因此语音信号常常假定为短时平稳的,即在 10~ 30ms 时间段内,其频谱特性和某些物理特征参量可近似地看作是不变的。 所以把每个短时的语音段称为一个分析帧,对该帧进行处理就相当于对固定特性的持续语音进行处理。 分析帧可以是连续的,也可以是交叠分帧。 预滤波、采样、 A/D 变换 预滤波的目的有两个: (1)抑制输入信号各频域分量中频率超出 2sf (sf 为采样率 )以防止混叠干扰。 (2)抑制 50Hz 的电源干扰。 这样,预滤波器必须是一个带通滤波器,其上、下截至频率分别是 Hf 和 Lf。 对于绝大多数语音编码器, Hf = 3400Hz, Lf = 60~100Hz,采样率为 sf = 8kHz。 语音信号经预滤波和采样后,由 A/D 变换器变换为二进制数字码。 加窗处理 通常采用一个长度有限的窗 函数 w(n)来乘语音信号 s(n),从而形成加窗语音 )(nsw = s(n)w(n)。 理想的窗函数的频率响应要求,主瓣无限狭窄且没有旁瓣(无频谱泄漏),但在实际过程中无法实现。 根据不同应用,通常采用矩形窗、海明窗和汉宁窗等窗函数来逼近理想的频率响应。 矩形窗主瓣最小,但旁瓣最高;海明窗具有最宽的主瓣和最低的旁瓣高度。 从应用的角度来说,矩形窗有最高的频域分辨率,但泄漏较高,海明窗可以有效克服泄漏7 现象,具有平滑的低通特性。 短时频谱 加窗 信号 )(nsw 的离散傅立叶 ( DTFT) ))(exp( js 称为 s(n)的短时频谱,可以用下面公式计算: 10)e x p ()())( e x p ( NnnjnsjS ( 24) 2))(exp( js 称为 s(n)的短时功率谱。 假设 s(n)的 DTFT 是 (exp( ))Sj ,且 w(n)的 DTFT 是 (exp( ))Wj ,那么 (exp( ))Sj 是 (exp( ))Sj 和 (exp( ))Wj 的周期卷积。 在语音信号数字处理中,都是采用 nws 的 离散傅立叶变换( DFT) ()Sk 来代替(exp( ))Sj ,并且可以用高效的快速傅立叶变换( FFT) 算法完成由 nws 至 ()Sk 的转换。 为了使 ()Sk 具有较高的分辨率,所取的 DFT 以及相应的 FFT 点数 1N 较 nws 的长度 N 要大。 例如,在通常采样率为 8kHz 且帧长为 20ms 时 N= 160,而 1N 一般取为256, 512 或 1024。 为了将 nws 的点数从 N 扩大为 1N ,可以在扩大的部分添 若干 的0 采样值。 短时能量和短时平均幅度 语音信号的一帧内的能量称为短时能量,用 mE 表示: mNnnm mnwmxmnwmxEm1 22 )()()()( ( 25) 短时能量为一帧样点值的加权平方和。 可以由它的量值粗略判别语音信号的有无,同时也可以由它 判断该帧是浊音还是清音。 短时能量的一个主要问题是对于信号电平值过于敏感,而且需要计算信号样值的平方和,在定点实现时很容易溢出。 为了克服这个缺点,定义短时平均幅度 mM 来衡量语音幅度的变化。 1 )()(1 Nnnmm mnwnxNM ( 26) 但 mM 的动态范围(最大值与最小 值之比)要比短时能量小,接近于短时能量计8 算的平方根,所以用 mM 区分清音 /浊音、无 /有声不如短时能量明显。 短时过零率 短时过零率其定义为: 1)()]1(s g n [)](s g n [)()]1(s g n [)](s g n [NnnmmnmnwnxnxmnwnxnxZ ( 27) 其中 sgn[]表示取符号,即 0011]s g n [ xxx ( 28) 由短时过零率可以概略地得到信号的变化快慢。 短时过零率也可以表征清音帧与浊音帧,及区别语音的有无。 但过零率容易收到噪声电平的扰动。 一般实际应用中多设置一个门限电平,以使过零率检测有一定的抗干扰性。 准确地检测语音开始需要用短时能量和短时过零率配合检测。 语音特性 1. 语音是一个时变的、非平稳随机过程 人类发声系统的生理结构的变化速度是有限的,在 10~ 30ms 时间段内具有相对稳定性,可以认为其特性是不变的,因此语音的短时谱分析也有相对稳定性。 2. 语音大体上可以分为清音和浊 音两大类 浊音在时域上呈现出明显的周期性,在频域上有共振峰结构,而且能量大部分集中在较低频段内;清音则没有明显的时域和频域特征,类似于白噪声。 3. 语音感知对语音增强研究有重要作用 语音增强效果的最终度量是人的主观感受。 人耳对背景噪声有惊人的抑制作用,了解其中机理将大大有助于语音增强技术的发展。 (1)人耳对语音的感知是通过语音信号中各频谱分量幅度获得的,对各分量的相位则不敏感; 9 (2)人耳对频谱分量强度的感受是频率和能谱的二元函数,响度与频谱幅度的对数成正比; (3)人耳有掩蔽效应,掩蔽的程度是声音强度与 频率的二元函数。 对频率临近分量的掩蔽要比频差大的分量有效得多; (4)短时谱中的共振峰对语音的感知十分重要,特别是第二共振峰比第一共振峰更重要。 因此对语音信号进行一定程度的低通滤波不会对可懂度造成影响。 语音增强的基本理论 噪声特性 噪声可以分为加性噪声和噪声。 对于乘性噪声,有些可以通过变换而转变为加性噪声。 加性噪声大致上有:周期性噪声、脉冲噪声、宽带噪声和同声道其它语音的干扰等。 1. 周期性噪声 具有许多离散的线谱,主要来源于发动机等周期性运转的机械,可以用梳状滤波器予以抑制。 然而,实际中 产生的周期性噪声是由许多窄谱带组成,并且往往是时变的,且与语音信号频谱重叠,所以必须采用自适应滤波的方法才有可能自动识别和区分噪声分量。 2. 脉冲噪声 表现为时域波形中突然出现的窄脉冲,来源于爆作、撞击和放电等。 可根据带噪语音信号幅度的平均值确定阀值,当信号幅度超出阀值时,判别为脉冲噪声,然后对它进行适当的衰减;也可以根据相邻信号样值通过内插的方法,在时域上进行平滑。 3. 宽带噪声 宽带噪声来源很多,热噪声、气流 (风、呼吸 )噪声及各种随机噪声源 ,量化噪声也可视为宽带噪声。 由于它与语音信号在时域和频域上完全 重叠,因而消除最为困难。 这种噪声只有在语音间歇期才单独存在。 对于平稳的宽带噪声,通常可以认为是白色高斯噪声。 不具有白色频谱的噪声,可以先进行预白化处理。 4. 同声道语音干扰 人耳可以在两人以上讲话环境中分辨出所需的声音,这种分辨能力是人体内部语10 音理解机理所具有的感知能力,来源于人的双耳输入效应,称之为 “ 鸡尾酒会效应 ”。 但当多个语音叠合在一起,在单信道传输时,双耳信号因合并而消失。 5. 背景噪声对发声的影响 强噪声不仅会使人疲劳,而且还对讲话人产生影响,使讲话人改变了在安静环境或低噪声环境中的发音方式,从而改 变了语音的特性参数,这称为 “ Lombard” 效应,它对语音识别系统有很大影响。 语音增强效果的评价方法 语音增强效果可以用主观测量或客观测量来评价。 主观测试方法有:平均意见得分 (MOS)、判断韵字测试 (DRT)和判断满意度测试 (DAM)等。 主观评定方法符合人类听话时对语音质量的感觉,目前得到了广泛的应用。 其中,MOS 采用五级评分标准。 参加测试的实验者在听完所测语音后,从五个等级中选择某一级作为他对所测语音质量的评定。 全体实验者的平均分就是所测语音质量的MOS 分。 DRT 是反映清晰度或可懂度的一种测试 方法,使用若干对同韵母进行测试,其主要用于低速率语音编码的质量测试。 DAM 是对话音质量的综合评估,它是在多种条件下对话音质量可接受程度的一种度量,也采用百分比评分。 至于客观测试方法,可以直接观测语音的时域 /频域波形,也可以给出客观的数值度量,通常采用原始语音信号功率与归一化后的增强语音和原始语音之差的功率比值来度量,简称信噪比 ( SNR)。 11 第三章 谱减法的原理、算法及分析 谱 减 法 的原理 谱减法是消除噪声的经典算法,它是处理宽带噪声最通用的技术,即从带噪语音估计值中减去噪声频谱估计值,而得到纯 净语音的频谱。 本文基于 MATLAB 对谱减法进行设计和实现。 仿真表明, 谱减法可以有效的降低背景噪声,提高信噪比。 谱减法在频域将带噪语音的功率谱减去噪声的功率谱得到纯净语音功率谱估计,开方后就得到语音幅度谱估计,用带噪语音的相位来近似纯净语音的相位,在采用反傅里叶变换恢复时域信号。 它的优点是比较简单,只需要进行正反傅里叶变换,而且实时实现较容易。 假定语音为平稳信号,而噪声和语音为加性信号且彼此不相关。 此时带噪语音信号可表示为 Nnndnsny 0)()()( (31) 式中 ,s(n)为纯净语音信号, d(n)为平稳加性高斯噪声, y(n)为加窗后的带噪信号。 因为减谱法不需分析语音信号的频谱特性,所以本文采用矩形窗函数。 设 y(n)的傅里叶系数为 k k kY Y exp j= , s(n)的傅立叶系数为 k k kS S exp j= , d(n)的傅立叶系数为 kN ,由( 3- 1),则有 k k kY S N= +。 语音增强的任务就是利用估计的噪声功率谱信息,从 kY 中得到 kS。 由于人耳对相位不敏感,所以只要估计出 kS ,然后借用带噪语音相位,进行反傅立叶变换后就 可以得到增强的语音。 减谱法的原理框图如图 31 所示: y( n) 经 FFT 变化后,有 k k kY S N= + ,由此可得 kkkkkkk NSNSNSY 222 (32) 其中, *表示共轭。 因为假定噪声为不相关的,所以 kS 与 kN 独立,互谱的统计平均值 12 为 0,而 kN 为零均值的高斯分布,所以有 222 kkk NESEYE (33) 图 31 谱 减 法原理框图 因为噪声是局部平稳的,故认为发语音前和发语音期间的噪声功率 谱相同,所以可以利用发语音前(或后)的“寂静帧”来估计噪声。 对于一个分析帧内的时平稳过程,有: )(22 kSY nkk (34) 其中, n ( k) 为无语音时 2kN 的统计平均值,即 n ( k) = 2kEN。 由此可得原始语音的估计值: 2122122)()(ˆkYNEYSnkkkk。基于谱减法的语音增强及其dsp实现(编辑修改稿)
相关推荐
kΩ,没有接受信号是该端输出为高电平,有信号时则产生下降。 8 脚:为电源端。 该引脚接电源正极,电压为 ~ 5V。 2. 1. 3 超声波接收器的设计 超声波接收器包括超声波接受探头,信号放大电路及波形变换电路 3 部分。 超声波接收器设计图如图 3a 和图 3b所示。 按照超声波原理,微处理器需要的只是第一个回波的时刻。 接收电路的设计可采用通用电路来实现。 超声波在空气中传播时
河南机电高等专科学校毕业论文 6 本章小结 本章 主要 介绍了软开关发展历程以及软开关逆变的技术基础,即 PWM 脉宽调制原理 ,同时介绍了电力电子技术的发展方向,也介绍了软开关发展的三个阶段及 软开关的 损耗。 软开关逆变整流器 7 第 3 章 软开关的分类 软开关型逆变主电路 目前常见的软开关型逆变主电路基本形式 : ① 零电流开关( ZCS)谐振逆变主电路; ② 零电压开关(
通过法兰盘栓接,法兰盘宽度 8cm,为 4mm 厚钢板,螺栓间距为 2530cm。 模板纵横肋均采用 L45 45 5mm 厚角钢,纵肋间距 50cm,横肋间距 40cm。 加工要求板面平整,强度、刚度和稳定性经检算符合要求,安装 方便,支撑牢固,模板横竖缝排列有序,板间加 3mm厚胶垫保证模板缝不漏浆,不出砂线。 模板第一次使用前,用电动除锈刷彻底除锈,涂刷脱模剂后才能支立。 拆模后
、HMI、驱动装置和通信网络等)进行组态、编程和监控。 在本次设计中的参数设置: CPU接口类型为 MPI,地址为 2,传输率为 ;SM33 模块测量类型为 4DMU,测量范围为 420mA;硬件组态如图 3 所示。 基于语句表编程的温度控制程序设计 5 图 3 PLC 硬件组态画面 SIMATIC WinCC 在设计思想上, SIMATIC WinCC 秉承西门子公司博大精深的企业文化理念
越来越高,在此期间温控系统技术得到迅猛的发展。 尤其以日本,美国,德国,瑞典为代表,它们的技术遥遥领先,并且已经生产出商品化,性能高的温度控制器及仪器仪表。 我国与他们相比,虽然在各行各业都有广泛使用温度控制系统,但是在生产制造、科学研究等方面,我国与日本,美国等国有很大差距。 目前国内有基于单片机的、 PLC 的、 IPC 的温度控制系统,还有集散型、现场总线温度控制系统。
W,主要用到的设备是 NIPCI6251 数据采集卡。 通过在 LabVIEW 中编写程序,来实现对外围传感器的信号进行采集。 然后在 LabVIE中编写与设计题目相关数据处理程序,达到设计要求。 NI6251引脚如右图所示,其功能如下图所示。 其 有 16单端模拟输入或 8个差分模拟输入,分辨率为 16位,采 样率为 ,不支持同步采样。 最大电压范围 10V~10V。 精度范围 1920uV