基于s3c2410声音频谱分析系统设计

基于s3c2410声音频谱分析系统设计内容摘要：

响的成份，最高频率约为。但声音信号本身冗余度是比较大的，少数辅音清晰度下降并不明显影响语句的可懂度。一个正常人声音的频率一般在 40Hz～ 4000Hz的范围内，成年男子的声音频率较低，妇女和儿童的声音频率较高。电话声音频率范围在 60Hz~3400Hz左右。现代的声音合成或识别系统中，需将声音频率的上限提高到 10kHz左右。根据奈奎斯特采样定律 (Nyquist Sampling Theorem)，采样频率应为原始声音频率的两倍以上，考虑到滤波器性能的影响，这个阈值还应该提高。一般来说，电话声音的采样率为 8kHz( 1标准 )，普通声音的采样率在 15kHz~20kHz左右。否则，如果采样率不满足采样定律，将会产生频谱混叠，使信号中的高频失真。考虑到高频噪音的存在，为了防止频率高于二分之一采样频率的高频噪音产生频谱混叠，通常声音信号在采样前要进行一次预滤波以滤掉高频噪音。预滤波还有一个目的是避免 50Hz的电源干扰，因此预滤波是一个带通滤波器，其下截止频率 Lf =50 Hz，上截止频率 Hf 根据需要定义。采样后的声音数据要能为 DSP所存储和处理还必须进行量化处理。量化过程中，不可避免地会引入误差。量化时，如果采用较多的量化级数来记录样点的幅度，量化误差就较小，相应的比特 (Bit)数就会增多。但是这是以增加存储容量和处理时的计算量为代价的，因此必须根据应用场合合理地选择量化字长。北华大学毕业设计（论文） 10 声音信号的时间依赖由于人自身的发音器官的运动，声音信号是一种典型的非平稳信号。但是，由于声音的形成过程是与器官的运动密切相关的，这种物理运动比起声音振动速度来要缓慢得多，因此声音信号常常可假设为短时平稳的，即在 10~30ms这样的时间段内，其频谱特性和某些物理特征参量可近似地看作是不变的。几乎所有的声音信号处理方法都是基于这个假设。这样，我们就可以采用平稳过程的分析处理方法来处理了。以后的几乎所有的处理方法都立足于这种短时平稳的假定。本章所要讨论的短时能量、短时平均差幅度以及自相关函数，都是在这种短时平稳假设下从时域来分析一些物理参量。这种时间依赖处理的基本手段，是用一个长度有限的窗序列 {w(m)}截取一段声音信号来进行分析，并让这个窗滑动以便分析任一时刻附近的信号，其一般表达式为： n m = Q = [ ( ) ( )T x m w n m （）其中 T[ ]表示某种运算， x(m)为输入信号序列。几种常用时间依赖处理方法是：当 T[x(m)]为 2xm（）时， nQ 相应于短时能量；当 T[x(m)]=|sgn[x(m)]一 sgn[x(m1)]|时， nQ 就是短时平均过零率；当 T[x(m)] nQ 为 x(m)x(m+k)时， nQ 就是短时自相关函数。式 (2． 1)是卷积形式的，因此 Q可以理解为离散信号 T[x(m)]经过一个单位冲激响应为 {w(m)}的 FIR低通滤波器产生的输出，如图 2． 1所示。．图由于窗函数一般取为 (x,z)中间大两头小的光滑函数，这样的冲激响应所对应的滤波器具有低通特性。其带宽和频率响应取决于窗函数的选择。用得最多的三种窗函数是矩形 (Rectangular)窗、汉明 (Hamming)窗和汉宁 (Hanning)窗。 1) 矩形窗矩形窗属于时间变量的零次幂窗。矩形窗使用最多，习惯上不加窗就是使信号通过了矩形窗。这种窗的优点是主瓣比较集中，缺点是旁瓣较高，线性滤波器 T[ ] 低通滤波器北华大学毕业设计（论文） 11 并有负旁瓣，导致变换中带进了高频干扰和泄漏，甚至出现负谱现象。 2) 三角窗三角窗亦称费杰（ Fejer）窗，是幂窗的一次方形式。与矩形窗比较，主瓣宽约等于矩形窗的两倍，但旁瓣小，而且无负旁瓣。 3) 汉宁（ Hanning）窗汉宁窗又称升余弦窗，汉宁窗可以看作是 3个矩形时间窗的频谱之和，或者说是 3个 sin(t)型函数之和，而括号中的两项相对于第一个谱窗向左、右各移动了 π/T，从而使旁瓣互相抵消，消去高频干扰和漏能。可以看出，汉宁窗主瓣加宽并降低，旁瓣则显著减小，从减小泄漏观点出发，汉宁窗优于矩形窗．但汉宁窗主瓣加宽，相当于分析带宽加宽，频率分辨力下降。这些窗函数都有低通特性。矩形窗的主瓣宽度最小，但其旁瓣高度最高；汉明窗的主瓣最宽，而旁瓣高度最低。汉宁窗和汉明窗的差异在于前者随频率增加衰减很快，而后者基本保持一个常量。矩形窗的旁瓣太高，会产生严重的泄露现象 (Gibbs)，因此只在某些特殊场合中采用；汉宁窗衰减太快，低通特性不平滑；汉明窗旁瓣最低，可以有效地克服泄露现象，具有更平滑的低通特性。汉明窗由于其平滑的低通特性和最低的旁瓣高度而得到最为广泛的应用。长窗具有较高的频率分辨率，但具有较低的时间分辨率；短窗的频率分辨率低，但却具有较高的时间分辨率。对于同一种窗函数，主瓣宽度与窗长成反比，一般说来，窗长越长，它对信号的平滑作用越厉害，如果想要反映变化快的信息，应该缩短窗长。在对声音信号进行短时傅立叶分析时，窗的长度的选择必须折中进行考虑。一方面，短窗具有较好的时间分辨率因而能够提取出声音信号中的短时变化，但同时却损失了频率分辨率。还应当注意到，声音信号的基音周期是有一个覆盖范围的，因此，窗宽的选择还应当考虑到这个因素。短时自相关函数自相关函数的定义和性质能量有限信号 {x(m,z)}的自相关函数定义为： ( ) ( ) ( )mk x m x m k     （）信号的自相关函数具有一些有用的性质： (1)偶性：( ) ( )kk    (2) ( ) | (0)k  ，即零滞后自相关值最大。北华大学毕业设计（论文） 12 (3)若 {x(n)}为能量有限信号，则其能量为 (0) ；短时自相关函数这种修正自相关函数又称为协方差函数，它不具有偶对称性，即( ) ( )nnR k R k。自相关函数的计算，除直接计算之外，还有多种快速算法。例如：快速傅立叶变换法、递归计算法等。目前，高速数字信号处理器可以在一个很短的指令周期内做一次乘加运算，而且专为卷积运算、递归运算设计了一些效率很高的运算指令。所以，如果采用数字信号实现自相关运算，常常是直接进行计算反而更加简单有效，不必采用结构复杂的快速算法。自相关计算在功率谱估计、线性预测分析和基音检测等方面经常用到。基音周期估计方法基音周期 (或基音频率 )是声音信号的一个重要参数，在声音产生的数字模型中它也是激励源的一个重要参数。在声音分析、声音合成和声音识别中，估计基音周期都是一个重要任务。浊音信号是一种准周期性信号，其周期称为基音周期。由于它只是准周期性的，所以只能采用短时平均方法估计其周期，基音周期估计也常称为基音周期检钡 ,t](PitchDetection)。前两节介绍的自相关函数和短时平均幅度差函数都能反映原信号的周期，因此它们可构成两种最常用的基音检测方法。声音信号包含十分丰富的谐波分量，基音频率最低可达 80Hz左右，最高可达 500Hz左右，但基音频率处在 100Hz～200Hz的情况占多数。因此，浊音信号可能包含有三四十次谐波分量，而其基波分量往往不是最强的分量。因为声音信号的第一共振峰通常在 300Hz~lkHz范围内，这就是说， 2~8次谐波成份常常比基波分量还强。丰富的谐波成份使声音信号的波形变得非常复杂，给基音检测带来了困难，经常发生基频估计结果为其实际基音频率的二、三次倍频或二次分频的情况。加之还有清浊混杂等情况，使基音检测和清浊判别成为一大难题。可以说，至今没有一种万能的方法在任何情况下都能准确可靠地估计出基音周期。值得注意的是，从估计基音周期的角度来看，短时自相关函数所包含的信息有许多是多余的。真正反映基音周期的只是其中少数几个峰值，而其余大多数都是由于声道的谐振特性引起的。因此，为了突出反映基音周期的信息同时压缩与此无关的信息，就应该对声音信号进行适当的预处理。基音检测预处理由于声道的共振峰特性会对基音周期造成干扰，为了提高自相关法和平均幅北华大学毕业设计（论文） 13 度差函数法检测基音周期的可靠性，采用两种预处理方法对原始信号进行预处理： (1)中心削波处理。对于估计基音周期真正有用的只是出现在基音周期处的自相关峰，其余较低的峰都是多余的。有用的自相关峰是由于声音信号中的一些最高峰形成的，这些最高峰是由于准周期激励脉冲产生的；无关的峰是声道对激励脉冲产生的响应。基于这种认识，完全有理由采用中心削波处理去掉声音信号中所有低振幅部分而仅保留高振幅的峰值。 (2)先对声音信号进行低通滤波，然后计算短时自相关函数。这样处理的依据是，声音信号的基音频率一般都在 500Hz以下，即使女高音升 C调最高也不会超过 lkHz。因此，从只保留基音频率的角度出发，用低通滤波器事先对声音信号进行滤波是有好处的。用一个通带为 900Hz的线性相位低通滤波器滤除高次谐波分量，这样处理以后的信号，基本上只含有第一共振峰以下的基波和谐波分量。实验表明，用这种方法作预处理，对改善自相关法和平均幅度差函数法的基音检测都有明显的效果。自相关法基音检测算法由短时自相关函数的定义可知，对于准周期信号，短时自相关函数在基音周期的各个整数倍点上有很大的峰值。如果我们能求得第一最大峰值点并计算其与零点的距离 ,该距离就是估计出来的基音周期。下面结合测算法计算步骤。这里设信号的采样率 10kHz，窗序列采用 300点长的矩形窗，连续分析信号时采有 10ms(且 P 100个样点 )的帧问隔，即每相邻两帧重叠 200个样点。截止频率为 900Hz的低通滤波器是一个 20阶线性相位的有限冲激响应滤波器。下面是对每一帧进行基音周期估计的计算步骤： (1)用 900Hz低通滤波器对一帧声音信号 {x(n)}进行滤波，并去掉开头 20个输出值不用 (置 0)，得到 {x(n)}； (2)分别求 { x(n)}的前部 100个样点和后部 100个样点的最大幅度，并取其中较小的一个，乘以因子；基音检测的后处理声音信号的周期性从波形上观察可以看得很明显，但是其形状表现得比较复杂，自动基音检测算法很难做到处处准确可靠。基音周期估值落在其实际基音的倍频或分频所对应的周期等情况时有发生。没有任何一种预测方法能够准确计算出所有的基音周期。往往大部分的点是比较准确的，但是也有一部分偏离到标准值的两倍或一半的点，好在声音信号的基音频率通常是连续地缓慢变化的，因此可以采用某种平滑技术来纠正个别估值的错误。常用的平滑技术有三种：北华大学毕业设计（论文） 14 (1)中值滤波平滑处理中值平滑处理是一种采用滑动窗的直方图统计处理的方法。其基本原理是：设 {x(n)}为输入信号 ,{y(n)}为中值滤波器的输出，窗长为 2L+l，那么此处的输出值 y( 0n )就是将窗的中心移到 0n 处时窗内输入样点的中值。所谓中值就是将窗内的 2L+1个输入样本进行统计，求出一个累计直方图，其中 1/2分位数就是中值。例如五点窗，若窗中心处 0n 于处时，相应的五个输入样本值依次为： x( 0n 2)，x( 0n 1),x( 0n ),x( 0n +1),x ( 0n +2)=4,5,0,6,6。显然，它们的中值为 5，那么中值滤波器的输出值 Y( 0n )就是 5，而原输入信号 X( 0n )=0，通过中值滤波得到了纠正。然后滤波窗向后平移一个样点，用同样的方法求出窗内样本的中值，即得到Y(no+1)。如此进行下去，中值滤波可以纠正个别奇异点而不影响周围的样点的值。 (2)动态规划平滑处理动态规划平滑处理的基本思想是：定义一个代价函数，由每一步寻找最低累计代价的路径，达到最终累计总代价最小。北华大学毕业设计（论文） 15 3 声音信号频域分析大量的实验表明，人类感知声音的过程和声音本身的频谱特性关系密切。人类本身的听觉对声音的频谱特性更为敏感。两段时域上相差很大的声音如果具有类似的频谱特性，人类在感知它们时的感觉也是相似的。声音信号的频谱具有非常明显的语言声学意义，能反映一些非常重要的声音特征，比如共振峰频率和带宽等。因此，对声音信号进行频谱分析，是认识声音信号和处理声音信号的重要方法。傅立叶变换是分析线性系统和平稳信号稳态特性的强有力手段，它在许多工程和科学领域中得到了广泛的应用。这种以复指数函数为基函数的正交变换，理论上很完善，计算上很方便，概念上易于为人们理解，在声音处理领域也是一个非常重要的工具。声音信号是一种典型的非平稳信号，但是其非平稳性是由发音器官的物理运动过程而。

阅读剩余 0%

本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体)，仅供学习参考。用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权，请联系我们反馈本站将在三个工作日内改正。

标签： s3c2410 声音基于

基于s3c2410声音频谱分析系统设计

相关推荐

密码登录

账号注册