毕业论文基于dsp音视频矩阵控制的研究与实现(编辑修改稿)内容摘要:

x 年 等学者 提出基于噪声特征空间投影的鲁棒性端点检测算法 [4 ]。 语音与噪音 在能量域 通常 有不同的分布,如果我们能分清含有低功率噪音和高功率语音的成分,即使带噪语音的平均信噪比很低,我们也有可能提取更多可靠的语音信息。 由 此,首先,用主元分析 (PCA)分析噪声观察值的估计协方差矩阵构造噪声特征空间。 将带噪语音映射到噪声特征空间。 在具 有较小特征值得子特征空间中可以找到可靠的信息。 与规模较小的特征值。 因此,基于可靠信息就可以实现鲁棒性 VAD。 除了 上述 几种方法外,近些年来,还有短时分形维数的带噪声语音信号端点检测方法;应用倒谱系数作为判决特征的带噪语音端点检测方法,它包括应用倒谱距离测量轨迹和应用循环神经网络的方法。 经过研究发现,倒谱 4 特征参数的语音信号端点检测方法 [5]在噪声环境下具有传统的能量方法无法比拟的优越性。 基于 HMM 模型的检测方法也是语音信号端点检测中的重要方法,用 viterbi 解码算法对待测信号进行分解,求出语音的哪些语音帧与模型相匹配,从而得出端点所在处。 随着小波分析在信号处理领域的广泛应用,也有不少基于小波分析语音端点检测算法被提出,如:选择小波部分子带跟踪信号的能量变化以实现端点检测,将小波变换模极大值应用于信号突变点的检测等 [6]。 数字信号处理器 (DSP)的发展状况 DSP(Digital Signal Processing)是一种具有特殊结构的微处理器,是建立在数字信号处理的各种理论和算法基础上,专门完成各种实时数字信息处理的芯片。 与单片机相比, DSP 有着更适合数字信号处理的优点。 芯片内部采用程序和数据分开的哈佛结构 ,具有专门的硬件乘法器,广泛采用流水线操作,具有良好的并行特性,提供特殊的 DSP 指令,可以快速地实现各种数字信号处理算法。 DSP 发展历程大致分为三个阶段: 70 年代理论先行, 80 年代产品普及, 90 年代突飞猛进。 在 DSP 出现之前数字信号处理主要依靠 MPU( 微处理器 ) 来完成。 但 MPU 较低的处理速度无法满足高速实时的要求。 因此,直到 70 年代,有人才提出了 DSP 的理论和算法基础。 随着大规模集成电路技术的发展, 1982 年世界上诞生了首枚通用可编程 DSP 芯片 TI 公司 的TMS320xx。 DSP 芯片的问世是个里程碑,它标志 着 DSP 应用系统由大型系统向小型化迈进了一大步。 当时的 DSP 技术在医疗电子、生物电子、应用地球物理等领域获得应用。 进入 80 年代后期,随着数字信号处理技术应用范围的扩大,要求提高处理速度,到 1988 年出现了浮点 DSP,同时提供了高级语言的编译器,使运算速度进一步提高,其应用范围逐步扩大到通信、计算机领域。 90 年代 DSP 发展十分惊人,相继出现了第四代和第五代 DSP器件。 以 DSP 作为主要元件,再加上外围设备和特定功能单元综合成的单一芯片,加速了 DSP 解决方案 (DSP Solution)的发展,同时产品价格降低,运 算速度和集成度大幅提高 [7]。 进入 21 世纪, DSP 正 向着 高速,高系统集成,高性能方向发展。 当前的 DSP 多数基于 RISC( 精简指令集计算机 ) 结构,且进入了 VLSI( 超大规模集成电路 ) 阶段。 如 TI 公司的 TMS320C80 代表了新一代芯片集成技 5 术,它将 4 个 32 位的 DSP, 1 个 32 位 RISC 主处理器, 1 个传输控制器, 2个视频控制器和 50Kb SRAM 集成在一个芯片上。 这样的芯片通常称之为MVP( 多媒体视频处理器 )。 它可支持各种图像规格和各种算法,功能相当强。 而第六代 TMSC6000 系列则是目前速度最快,性能最高的 DSP 芯片,该系列芯片的发展 中有高至 5000MIPS, 3G FLOPS 的处理性能。 按照CMOS 的发展趋势, DSP 的运算速度提高到 1000MIPS 是完全有可能的。 作为 DSP 业界公认的龙头, TI 一直在技术上独领风骚,为 适应 不同领域提供了不同的解决方案。 TI 公司将常用的 DSP 芯片归纳为三大系列,即TMS320C20xx 系列 (TMS320C2xx), TMS320C5000(TMS320C54xx/C55x),TMS320C6000 系列 (TMS320C62x/67x)。 其中 C54xx 以其低廉的价格,低功耗和高性能等 特点被广泛应用到通信和个人消费电子领域。 而以 C54xx 系列内核为基础的 DSP 器件 TMS320C5402 不仅继承了上述优点,而且存储器有三个独立的可选择的空间:程序存储空间、数据存储空间和 I/O 空间。 大小都是 64K,总共是 192K 大小。 包括随机存储器 (RAM)和只读存储器(ROM)。 其中, TMS320C5402 所 采 用的 RAM 是 双 存 取访 问 RAM (DARAM)。 片上双存取访问 RAM 被组织在一些块上,因为每个 DARAM块能够在每个机器周期中被访问两次,结合并行的体系结构,使得 5402 得以在一个指定的周期内完成四个 并发的存储器操作:一个取指操作、两个数据读操作和一个数据写操作。 DARAM 总是被映射到数据存储空间上,也可被映射进程序存储空间用于保存程序代码。 TMS320C5402 的 26 个 CPU 寄存器和片上外设寄存器被映射在数据存储空间。 所以, TMS320C5402 是 54系列芯片的典型代表。 本文开发的系统就是建立在 TMS320C5402 的基础上。 本论文主要把语音端点检测的算法应用到实际的音视频矩阵控制系统中,借住了 TI 公司的数字信号处理器 TMS320C5402 利用语音端点检测的算法实现音视频矩阵的智能控制,符合了音视频 矩阵控制的发展现状。 本论文主要工作内容和任务 本文以语音端点检测的算法为核心,以小波分析理论为基础,分析讨论了子带平均能量方差和小波系数方差的算法,并将优化算法运用到了基于DSP 音视频矩阵控制的系统中,本论文主要工作如下: 1.掌握语音信号处理的相关理论和处理方法, 分析 基于小波理论的 子 6 带平均能量方差和小波系数方差的语音端点检测算法。 本文主要研究音频信号的处理,对视频信号只用做控制和传输。 2.使用 MATLAB 软件进行算法仿真,分析实验结果得出并验证优化后的算法。 3.掌握 DSP 开发板的工作原理、硬件结构, 以 TMS320C5402 为核心设计硬件电路。 4.使用 CCS 开发环境进行 软件系统的设计 , 算法的移植与 DSP 内核的配置、针对硬件平台对应用程序的编写和实现。 5.优化系统,对软硬件进行合理配置,提高系统性能。 7 第 2章 语音端点检测算法的分析 及其优化 语音分析的一般方法 计算机语音分析是计算机语音处理的一个重要内容,也是计算机语音合成及语音识别的基础 [8 ]。 计算机合成的语音音质的好坏,计算机语音识别率的高低,都取决于计算机语音分析工作质量的高低。 例如 : 利用带通滤波器组法来进行计算机语音识别,其先决条件是要弄清楚语音的共 振峰的幅值、个数、频率变化范围及其分布情况。 因此,可以先对语音做频谱分析,得到提高语音识别率的有用数据,并据此来设计计算机语音识别系统的硬件和软件。 国外的经验说明,语音分析的工作必须先于其它的语音处理工作。 例如, 20 世纪 40 年代,贝尔电话实验室的研究人员就对语音分析做了大量、细微且卓有成效的工作,这些工作的成果推动了计算机语音处理的发展。 语音分析有时域分析、频谱分析和语谱分析 3 种方法。 这 3 种方法分别由对应的图来表示:时域分析对应时域波形图 、 频谱分析对应频域波形图 、语谱分析则对应语谱图。 时域分析法 时域 分析是最早被使用的一种方法,也是应用范围最广泛的一种方法。 各种电信号可以记录成时域波形,人体的生物电 ( 如脑电、心电等 ) 也可以记录成时域波形。 语音的时域分析采用时域波形图,一般来说,横坐标是时间,纵坐标是幅值。 时域分析法的特点是: 1. 用时域波形表示的语音信号比较直观,清晰易懂。 2. 时域波形语音信号的数字处理实现起来比较简单。 3. 用时域语音信号进行一些数字处理,可以得到语音信号的一些重要特征参数,为分析语音信号提供了有用的基础。 4. 分析语音信号的时域波形图,所采用的方法较为简单。 音频时域波形图如图 21 所示。 8 图 21 音频时域波形图 The plot of audio in time domain 频域分析方法 频域分析是常用的第二种语音分析方法。 语音信号的频域分析包含有语音信号的频谱、功率谱、倒频谱、频谱包络、短时间频谱等。 常用的频域分析方法有带通滤波器组法、傅立叶变换法、线性预测法等几种。 与上文时域图相对应的一幅频谱图如图 22 所示。 图 22 音频频域波形图 plot of audio in frequency domain 9 频域分析方法的特点是: 1. 语音信号的频谱波形不太容易受外界环境的影响,而时域波形易随外界环境变化。 2. 语音信号的频谱具有非常明显的声学概念,利用频谱分析获得的语音特征具有实际的物理意义。 3. 频域分析容易获得某些重要的音频特征参数,如信息嫡、带宽、共振峰等。 4. 频域分析要用到 FFT 变换等,有时会需要专门的硬件工具。 语谱分析法 利用语谱图是第三种语音分析方法。 20 世纪 40 年代已经研制成功了语谱仪,将它用于语音分析做出的图叫语谱图。 语谱图的横坐标是时间,纵坐标是频率,黑度是第三个坐标,表示音强。 语谱图提供有关不同时间不同频率的相对音强的有价值信息,可以在二个维度 ( 时间及频率 ) 上表示出音强的关系。 语谱分析法的特点是: 1. 它是时间、频率、音强的三位显示图,同时 也是时域波形与频谱图的结合。 这一点是优于前两种分析方法的。 从语谱图中可以得到一些频域分析参数 ( 如共振峰、基音周期等 )随语音发生过程 ( 时间 ) 的变化情况,这是 前两种分析方法所没有的。 3. 从语谱图上还可以得到能量随语音发生过程 ( 时间 ) 的变化情况,由此可以区别浊音及清音、辅音 ( 或声母 ) 等的不同种类。 4. 由于语谱图具有不同的黑白程度,形成不同的花纹,这种花纹被称作声纹。 与不同的人有不同的指纹类似,不同讲话者的语谱图有不同的声纹,据此可以用于识别讲话者的身份。 论文中用到了时域分析方法和频域分析方法,分别提取分析了时域和频域中的一些重要音频特征参数。 对于语谱分析方法,目前在语音端点检测的方法中应用还有待进一步的研究。 语音端点检测算法的分析 随着越来越多的学者对语音 端点检测技术的关注,大量新的语音端点检测算法相继被提出。 通过大量的文献调研与实际研究发现,现有的各种语音 10 信号端点检测技术都存在各自的不足,比如基于自相关相似距离的语音信号端点检测方法,总的来说它与 HMM 方法的效果大致相同,但是对于结尾的判断却优于 HMM 模型,这是因为语音大多以浊音结尾,此时自相关法的判断精度较高,但是对于清音开头的语音,尤其是 [s], [ks], [n]等音节,自相关算法的检测精度就不高。 主要几类方法各自的优点与不足列于表 21。 表 21 各类方法优缺点比较 Table 21 The camparison of characteristic of several methods 方法 优点 缺点 短时平均过零率 较简单 难以识别弱爆破音、摩擦音、 末尾的鼻音拖长的元音等 短时能量或平均幅度 较简单 弱摩擦音与结尾时的鼻音易和 噪声混淆 HMM 较准确 需要事先训练 双门限比较法 有效区分语音信号中的 浊音和噪声 难以区分清音和噪声 自相关相似距离 对浊音的检测精度较高 对开端的清音检测精度不够 频带方差 较准确 在脉冲干扰下门限值需要 测定 尽管语音端点检测的研究工作迄今已近几十年,取 得了辉煌的成就,但是现有的语音识别系统还面临着许多困难,具体表现在以下几个方面: 1.语音端点检测算法的适应性差。 主要体现在对环境条件的依赖性很强,继续要保持测试条件和训练条件的一致性,否则系统性能严重下降。 另外,全世界有近百种官方语言,每种语言有多达几十种方言,同种语言的不同方 言 在语音上相差悬殊,这样,随着语言环境的改变,系统性能也会变得很差。 2.噪声问题,在强噪声干扰环境下语音端点检测困难。 由于语音数据大部分都是在接近理想的条件下采集的,语音一般都要在高保真设备上录制语音,尤其要在无噪环境下录音。 然而 ,当语音处理由实验室走向实际应用时,环境噪声的存在所带来的问题就变得越来越重要。 3.对于一些能量较低的爆破音、鼻音,如: ///,//,//,//,/ shstthf 等,与噪声相混合容易造成误判而截去这些音节的有效成分,对识别结果造成影响。 11 4.为了更好的应用,理想的端点检测应具备以下特点:可靠性 、 鲁棒性、低的存储器和计算资源消耗、实时性、自适应性和不需要对噪音的先验知识 等 [9]。 基于上述提到的噪声和适应性 等 问题,论文在研究了两种基于小波的语音端点检测算。
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。