基于凌阳spce061a单片机声控小车的设计(word)内容摘要:

大研究范围 ,分别是口音独立、连续语音、可辨认词汇数量。 (一) 口音独立 特定发音人识别 SD( Speaker Dependent)模式,语音样板由单个人训练,也只能识别训练人的语音命令,而他人的命令识别率较低或几乎不能识别。 非特定发音人识别 SI( Speaker Independent)模式,语音样板适用不同年龄、不同性别、不同口音的人进行识别,使用者无需训练即可使用,并进行辨识。 (二) 连续语音 单字音辨认:确保每个字音都能正确分割出来,但必须给一字一字的分 开来读,非常不自然,与平常说话的连续方式有所不同。 整句辨识:能按正常说话速度,整句表达,中间不需要停顿。 这种方式自然,但难度高,现阶段识别率不高。 由于中文同音太多,因此目前所有中文语音识别系统几乎都以词为依据,来判断同音字词。 (三) 可辨认词汇数量 在系统内部建立词汇数据库的多少,将直接影响其辨识能力。 按辨识的词汇量来说,可分为小词汇量 (10~100 个 )、中词汇量 (100~1000 个 )、无限词汇量 图 3 是文本到语音的转换过程 : 贵阳学院本科毕业论文(设计) 8 文本输入 合成语音输出 图 3 从文本到语音转换过程示意 文本处理 韵律处理 语音合成 词典及语言规范 语音数据库 贵阳学院本科毕业论文(设计) 9 第三章 凌阳 SPCE061A 单片机简介 台湾凌阳公司推出的 16 位嵌入式语音处理 SPCE061A 是一款高度集成化的单片机处理器,不仅有同类型单片机的通用功能,而且最在的特点在于它具有语音识别处理能力。 它的主要性能: 32 位通用可编程输入输出 /输出端口;内置换 2K 字的 SRAM 和 32K 的Flash; 2 个 16 位可编程的定时器 /计数器; 2 个 10 位 DAC(数 模转换 )输出通道; 7 通道 10 位电压模 数转换器 (ADC)和单通道声音模 数转换器;声音模 数转换器输入通道,内置麦克风放大器和自动增益控制 (AGC)功能; SPCE061A 处理芯片是一款功能齐全的单片机,且包含了 DSP 功能,在设计上它所需的外接的器件数量大大减少。 同时, SPCE061A 也是一款 16 位结构的 u39。 nSP 微控制器,支持可编程音频处理,使用凌阳音频处理,使用凌阳公司音频编码 SACM_S24 方式( ),能容纳 210 秒的语音数据; CPU时钟为 具有较高的处理速度 ,能够非常容易地、快速地处理复杂的数字信号。 工作电压低,具有睡眠功 能,能耗低。 因此,以 SPCE061A 为微控制器适用于语音识别领域的一种经济的选择。 SPCE061A 的结构如图 5 所示。 图 5 凌阳 SPCE061A 单片机内部结构 双 16 位定时器 /计数器 时基 中断控制 7 通道 10 位 ADC 单通道语音 ADC +AGC 双通道 10 位 DAC 串行 I/O 接口 锁相环 振荡器 CPU 时钟 实时时钟 低电压监测与复位 32 个管脚通用输入输出端口 16 位微控 制器 u39。 nSP 内核 ICE FLASH RAM UART 通信接口 ICE_EN ICE_SCK ICE_SDA Vcp MIC_IN AUD1 XI/R XO AUD2 IOA0~15 IOB0~15 图 4 SPCE061A 外观 贵阳学院本科毕业论文(设计) 10 第一节 音频压缩算法的编码标准及分类 一、压缩算法的编码 不同音频质量等级的编码技术标准 (频响),如表 2。 表 2 不同音频质量标准比较 信号类型 频率范围( Hz) 采样率( kHz) 量化精度(位) 电话 话音 200~3400 8 8 宽带音频 ( AM 质量) 50~7000 16 16 调频广播 ( FM 质量) 20~15k 16 高质量音频 ( CD 质量) 20~20k 16 凌阳音频压缩算法处理的语音信号的范围是 200Hz- 的电话话音。 二、压缩分类 压缩分无损压缩和有损压缩。 所谓无损压缩格式,是利用数据的统计冗余进行压缩,可完全回复原始数据而不引起任何失真,但压缩率是受到数据统计冗余度的理论限制,一般为2:1 到 5:,程序 和特殊应用场合的图像数据 (如指纹图像,医学图像等 )的压缩。 无损压缩一般指:磁盘文件,压缩比低: 2:1~ 4:1。 无损压缩的优势具有 100%的保存、没有任何信号丢失;音质高,不受信号源的影响;在不同无损压缩格式之间互相转换,而不会丢失任何数据等特点。 所谓有损压缩是利用了人类对声波或图像中的某些频率成分不敏感的特性,允许压缩过程中损失一定的信息;虽然不能完全恢复原始数据,但是所损失的部分对理解原始声音的影响缩小,却换来了大得多的压缩比。 有损压缩广泛应用于语音,图像和视频数据的压缩。 如音 /视频文件,压缩比可高达 100:1。 凌阳音频压缩算法根据不同的压缩比分为以下几种,如表 3 所示。 表 3 不同压缩算法的压缩比 音频压缩编码 凌阳音频压缩算法 压缩比 波形编码 SACMA2020 8:1, 8:, 8: 混合编码 SACMS480 80:3, 80: 参数编码 SACMS240 80: 由压缩比可知音质排序 : A2020S480S240 第二节 凌阳常用的音频形式和压缩算法 一、 波形编码 波形编码采用子带编码技术 (subband)即 SACMA2020。 特点为语音质量高、编码率高,适于高保真语音和音乐。 二、 参数编码 贵阳学院本科毕业论文(设计) 11 参数编码采用声码器( vocoder)模型表达,抽取参数与激励信号进行编码。 如:SACMS240。 特点为压缩比大,计算量大,音质不高,廉价。 三、 混合编码 CELP 即 SACMS480。 特点为综合参数和波形编码之优点。 第三节 凌阳语音的播放、录制、合成和辨识 一、 语音的播放 凌阳的 SPCE061A 是 16 位单片机,具有 DSP 功能,有很强的信息处理能力,最高时钟频率可达到 49MHz,具备运算速度高的优势等,这些优势为语音的播放、录放、合成及辨识提供了有利的条件。 二、 语音的录制 凌阳压缩 算法中 SACM_S2 SACM_A20 SACM_S480 主要是用来进行语音播放,而 DVR 则用来录制语音的。 调用它们的 API 函数即可。 三、 合成和辨识 对于语音辨识主要有以下两种: (一)特定发音人识别 SD( Speaker Dependent):是指语音样板由单个人训练,也只能识别训练人的语音命令,而他人的命令识别率较低或几乎不能识别。 (二)非特定发音人识别 SI( Speaker Independent):是指语音样板由不同年龄、不同性别、不同口音的人进行训练,可以识别一群人的命令。 语音识别电路基本结 构如图 6 所示 : 识别 语音 结果 图 6 语音识别电路结构 第四节 语音识别系统结构 要实现说话人识别,需要解决以下几个基本问题:对语音信号的预处理、声音模型的建立和模型参数的训练、测试音与发音人的匹配问题。 语音识别系统的逻辑框图如图 7 所示,包括特征提取、模型训练、模式匹配以及逻辑决策 4 个主要模块。 语音分析 除噪音 预加重 滤波器组 PARCOR 系数线性预测系数 过零次数 相关函数 模式匹配 词典 贵阳学院本科毕业论文(设计) 12 录入阶段 识别阶段 图 7 语音识别系统逻辑框图 (一) 特征提取模块:指采用各种模拟和数字处理技术,运用软件和硬件的手段,处理语音信号,选择和提取能够表语音信号的特征。 说话人的模型不是由语音信号得到的,而是通过从语音信号中提取特征得到的,是声音特征的模型。 训练音和测试音中有进行语音特征提取才能进行后续的处理。 (二) 模型训练模块:指建立声音模型的过程。 声音模型可以是单一模板模型、向量量化模型、高斯混合模型、隐马尔可夫模型、神经网络模型、支持向量机、动态贝叶斯网络、以及它们的混合模型。 无论是什么样的模型,模型的参数和优化都在这一 步完成。 (三) 模型匹配模块:测试音的特征与说话人模型进行匹配,计算匹配距离。 说话人确认时,只与说话人模型进行匹配及进行匹配距离计算;说话人鉴别时,与所有人的模型进行匹配计算。 这实际上是一个得分计算过程。 (四) 决策逻辑模块:根据匹配距离计算结果,判决说话人是否是所声称的说话人或说话人 (说话人确认 )到底是谁 (说话人鉴别 )。 语音识别技术最为关键的就是特征提取和语音模型。 其语音识别的特征提取分为 4 个阶段:采样与量、预加重处理、加窗和特征提取,如图 8 所示,其中,前三个阶段为语音预处理过程。 语音信号处理过程中,必须先对大量的 样本进行参数化,也就是提取较少具有代表性的部分数据来表征某一段语音信号,这个过程就是特征提取。 图 8 特征提取的基本过程 特征向量序列 语音帧 序列 语音信号数字形式 高、中、低幅度相当 语音信号 模拟语音 信号 录音设备 特征提取模块 模型训练模块 特征提取模块 ↓ 语音 1 模型 语音 2 模型 语音 N 模型 模式匹配模块 决策逻辑模块 录音设备 鉴别 /确认结果 采样与量化 预加重处理 加窗 特征提取 贵阳学院本科毕业论文(设计) 13 第四章 语音控制器总体设计 第一节 设计要求 语音控制小车的主要功能: 一、可以通过简单的 I/O 操作实现小车的前进、后退、左转、右转功能; 二、配合 SPCE061A 的语音特色,利用系统的语音播放和语音识别资源,实现语音控制的功能; 三、可以在行走过程中声控改变小车运动状态。 语音控制器设计的目的是通过语音来控制小车的两个直流电机的正转、反 转,实现小的前进、后退、左转、右转等基本运动。 本语音控制小车是经凌阳 16 位 SPCE061A 单片机为核心的精简开发板,简称 61 板。 61 板除了具有 SPCE061A 最小系统电路外,还包括得有电源电路、音频电路、复位电路、下载电路等。 采用 61 板设计声控小车,只需要设计小车驱动电路即可。 其语音控制器的总体结构图如图 9 所示。 图 9 语音控制器的总体设计 SPCE061A 电源 模块 声音播放模块 电机驱动模块 声音采集模块 贵阳学院本科毕业论文(设计) 14 第二节 61 板简介 图 10 61 板硬件框图 表 4 框图说明 POWER 5Vamp。 3V 供电电路 PLL 锁向环外部电 路 Power-电源指示灯 Sleep-睡眠指示灯 RESET 复位电路 K4 复位按键 PROBE 在线调试器串行 5 针接口 S5 EZPROBE 和 PROBE 切换的拨断开关 J1 J3 耳机插孔和两针喇叭插针 DAC 一路音频输出电路,采用SPY0030 集成音频放大器 MIC 麦克风输入电路 OSC 32768 晶振电路 VREF A/D 转换外部参考电压输入接口 R/C 芯片其他外围电阻、电容电路 K1~K3 扩展的按键:接IOA0~IOA2 SPCE061A 61 板 核心: 16 位微处理器 PORTA/B 32 个 I/O 口 贵阳学院本科毕业论文(设计) 15 图 11 61 板接口说明图 第三节 小车车体简介 小车选用直流电机、变速齿轮。 一个电机控制左侧 2 个轮子,另一个电机控制右侧 2 个子轮。 如图 5 所示。 此小车能在碎石路、沙地,草地或斜坡路面等,都能畅行无阻四轮驱动车,其运动过程颇为有趣,灵活的机械式动作。 车轮使用能够扎实地与地面接触,富有弹性的实心橡胶制轮胎, 260 马达驱动,能让您的基础车有充足的动力越过障碍。  长宽高: 145*108*55mm  重量: 260g  最大负 载:  额定电压: ~9V。
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。