基于语音识别的家居智能监控系统本科生毕业设计说明书内容摘要:

领域的优势开发出智能家居的产品,能更好地和家电结合在一起,他们利用自己的渠道优势和市场影响力,积累多年的管理经验、生产经验和良好的售后服务、企业信誉来打开市场。 内蒙古科技大学毕业设计说明书(毕业论文) 3 智能家居的功能及意义 智能家居 ( Smart Home) 频繁出现在各大媒体上,成了人们耳熟能详的词汇。 目前关于智能家居的称谓多种多样,诸如:电子家庭 ( Electronic Home) 、 eHome、数字家园 ( Digital family) 、家庭自动化 ( Home Automation) 、家庭网络 ( Home /Networks for Home) 、网络家居 ( Network Home) 、智能化家庭 ( Inte1ligent home) 等等几十种,尽管名称是五花八门,但它们的含义和所要完成的功能大体是相同的。 目前通常把智能家居被定义为利用电脑、网络和综合布线技术,通过家庭信息管理平台将与家居生活有关的各种子系统有机地结合的一个系统。 也就是说,首先,它们都要在一个家居中建立一个通讯网络,为家庭信息提供必要的通路,在家庭网络的操作系统的控制下,通过相应的硬件和执行机构,实现对所有家庭网络上的家电和设备的控制和监测。 其次,它们都要通过一 定的媒介平台,构成与外界的通讯通道,以实现与家庭以外的世界沟信息,满足远程控制 /监测和交换信息的需求。 最后,它们的最终目的都是为满足人们对安全、舒适、方便和符合绿色环境保护的需求。 Speech SDK简介 微软的 Speech SDK是是微软提供的软件开发包,其中包含了语音识别和合成引擎相关组件、帮助文档和例程,它是 —个语音识别和合成的二次开发平台。 我们可以利用这个平台,在自己开发的软件里嵌入语音识别和合成功能,从而使用户可以用声音来代替鼠标和键盘完成部分操作,例如:文字输入、菜单控制等,实现真正的 “人机对 话 ”。 Speech SDK是基于 COM的视窗操作系统开发工具包。 这个 SDK中含有语音应用程序接口( SAPI),微软连续语音识别引擎( MCSR)以及串联语音合成(又称文本到语音)引擎( TTS)等等。 图 SAPI框架图 内蒙古科技大学毕业设计说明书(毕业论文) 4 SAPI 中还包括对于低层控制和高度适应性的直接语音管理,训练向导,事件,语法,编译,资源,语音识别管理以及文本到语音管理,其结构如图。 在 图 ,语音框架主要靠 SAPI运行来实现应用程序与语音引擎之间的协作,而SAPI提供各种接口实现不同的语音功能, SAPI使得应用 程序和语音引擎之间高度紧密的结合,实时处理各种语音引擎在底层工作中的细节。 本系统会同时使用到 SPEECH SDK的语音识别引擎和 TTS合成引擎.因此,对这两个引擎的相关控制命令介绍如下。 语音识别引擎接口 (1)识别上下文 (1spRecoContext)接口:是主要的语音识别程序接口,主要用于发送和接收与语音识别相关的消息通知,创建语法规则对象。 (2)语音识别引擎 (1spReeognizer)接口:用于创建语音识别引擎的实例。 SAPI拥有两种不同的语音识别引擎类型,一个是共享的语音识别引擎 (SharedRecognizer)。 由于它可以与其他语音识别应用程序共享其程序资源,所以在大多数场合中被推荐使用。 需要建立一个采用共享语音识别引擎的识别环境 (IspRecoContext)。 一个是独占(1nProcRecognizer)的引擎,它只能由创建的应用程序使用,而共享引擎可以提供多个应用程序使用。 (3)语法规则 (IspRecoGrammar)接口:定义引擎需要识别的具体内容,创建、载入和激活识别用的语法规则。 (4)识别结果 (IspVoice)接口:用于获取识别的结果,包括识别的文字,识别的语法规则等。 语 音合成引擎接口 语音合成 (ISpVoice)接口:主要功能是实现文本到语音的转换。 它的作用如使用IspVoice:: Speak来从文本数据生成语音,从而使电脑会说话。 当处于异步工作时,可以使用 IspVoiee:: CetStatus来获得发音状态及文本位置等。 在接口中,有许多成员函数,通过这些成员函数可以实现对发音频率、发音音量等合成属性进行调整。 在 C中,我们通过实现 ISpVoice接口的 SpVoice类来实现语音合成。 具体步骤如下: (1)首先创建 SpVoice类的对象; (2)利用对象成员函数设置语音属 性,如果不设置,则按默认方式处理; (3)调用对象成员函数 speak函数来朗读指定文本 Speak函数需要两个参数,第一个参数指明需要朗读的文本。 第二个参数指明发音方式。 内蒙古科技大学毕业设计说明书(毕业论文) 5 语音识别的发展历史及应用领域 国外研究历史及现状 语音识别的研究工作可以追溯到 20世纪 50年代 ATamp。 T贝尔实验室的 Audry系统,它是第一个可以识别十个英文数字的语音识别系统。 但真正取得实质性进展,并将其作为一个重要的课题开展研究则是在 60年代末 70年代初。 这首先是因为计算机技术的发展为语音识别的实现提供了硬件和软件的可能,更重要的是语音 信号线性预测编码( LPC)技术和动态时间规整( DTW)技术的提出,有效的解决了语音信号的特征提取和不等长匹配问题。 这一时期的语音识别主要基于模板匹配原理,研究的领域局限在特定人,小词汇表的孤立词识别,实现了基于线性预测倒谱和 DTW技术的特定人孤立词语音识别系统;同时提出了矢量量化 (VQ) 和隐马尔可夫模型 (HMM) 理论。 随着应用领域的扩大,小词汇表、特定人、孤立词等这些对语音识别的约束条件需要放宽,与此同时也带来了许多新的问题:第一,词汇表的扩大使得模板的选取和建立发生困难;第二,连续语音中,各个音素、 音节以及词之间没有明显的边界,各个发音单位存在受上下文强烈影响的协同发音( Coarticulation)现象;第三,非特定人识别时,不同的人说相同的话相应的声学特征有很大的差异,即使相同的人在不同的时间、生理、心理状态下,说同样内容的话也会有很大的差异;第四,识别的语音中有背景噪声或其他干扰。 因此原有的模板匹配方法已不再适用。 实验室语音识别研究的巨大突破产生于 20世纪 80年代末:人们终于在实验室突破了大词汇量、连续语音和非特定人这三大障碍,第一次把这三个特性都集成在一个系统中,比较典型的是卡耐基梅隆大学 (Carnegie Mellon University)的 Sphinx系统,它是第一个高性能的非特定人、大词汇量连续语音识别系统。 这一时期,语音识别研究进一步走向深入,其显著特征是 HMM模型和人工神经元网络 (ANN) 在语音识别中的成功应用。 HMM 模型的广泛应用应归功于 ATamp。 T Bell 实验室Rabiner 等科学家的努力,他们把原本艰涩的 HMM纯数学模型工程化,从而为更多研究者了解和认识,从而使统计方法成为了语音识别技术的主流。 统计方法将研究者的视线从微观转向宏观,不再刻意追求语音特征的细化,而是 更多地从整体平均(统计)的角度来建立最佳的语音识别系统。 在声学模型方面,以 Markov链为基础的语音序列建模方法 HMM(隐式 Markov链)比较有效地解决了语音信号短时内蒙古科技大学毕业设计说明书(毕业论文) 6 稳定、长时时变的特性,并且能根据一些基本建模单元构造成连续语音的句子模型,达到了比较高的建模精度和建模灵活性。 在语言层面上,通过统计真实大规模语料的词之间同现概率即 N元统计模型来区分识别带来的模糊音和同音词。 另外,人工神经网络方法、基于文法规则的语言处理机制等也在语音识别中得到了应用。 20世纪 90年代前期,许多著名的大公司如 IBM、苹果、 AT& T和 NTT都对语音识别系统的实用化研究投以巨资。 语音识别技术有一个很好的评估机制,那就是识别的准确率,而这项指标在 20世纪 90年代中后期实验室研究中得到了不断的提高。 比较有代表性的系统有: IBM公司推出的 Via Voice和 Dragon System公司的 Naturally Speaking, Nuance公司的 Nuance Voice Platform语音平台, Microsoft的 Whisper, Sun的 VoiceTone等。 其中 IBM公司于 1997 年开发出汉语 ViaVoice 语音识别系统,次 年又开发出可以识别上海话、广东话和四川话等地方口音的语音识别系统 ViaVoice98。 它带有一个 32 000 词的基本词汇表,可以扩展到 65 000 词,还包括办公常用词条,具有纠错机制,其平均识别率可以达到 95 %。 该系统对新闻语音识别具有较高的精度,是目前具有代表性的汉语连续语音识别系统。 国内研究历史及现状 我国语音识别研究工作起步于五十年代,但近年来发展很快。 研究水平也从实验室逐步走向实用。 从 1987年开始执行国家 863计划后,国家 863智能计算机专家组为语音识别技术研究专门立项,每两年滚动一次。 我国语音识别技术的研究水平已经基本上与国外同步,在汉语语音识别技术上还有自己的特点与优势,并达到国际先进水平。 中科院自动化所、声学所、清华大学、北京大学、哈尔滨工业大学、上海交通大学、中国科技大学、北京邮电大学、华中科技大学等科研机构都有实验室进行过语音识别方面的研究,其中具有代表性的研究单位为清华大学电子工程系与中科院自动化研究所模式识别国家重点实验室。 清华大学电子工程系语音技术与专用芯片设计课题组,研发的非特定人汉语数码串连续语音识别系统的识别精度,达到 %(不定长数字串)和 %(定长数字 串)。 在有 5%的拒识率情况下,系统识别率可以达到 %(不定长数字串)和 %(定长数字串),这是目前国际最好的识别结果之一,其性能已经接近实用水平。 研发的 5000词邮包校核非特定人连续语音识别系统的识别率达到 %,前三选识别率达 %;并且可以识别普通话与四川话两种语言,达到实用要求。 内蒙古科技大学毕业设计说明书(毕业论文) 7 中科院自动化所及其所属模式科技 (Pattek)公司 2020年发布了他们共同推出的面向不同计算平台和应用的天语中文语音系列产品 ——Pattek ASR,结束了中文语音识别产品自 1998年以来一直由国外 公司垄断的历史。 内蒙古科技大学毕业设计说明书(毕业论文) 8 第二章 智能家居监控系统的方案设计 系统实现过程分析 在此设计中,主要体现了无线收发一体化,即无线在始终的进行着收和发,这样能更好的实现实时性。 主控通过 AT89C52单片机做控制,将数据通过串口发送至电脑上,通过上位机界面显示,在微软公司的语音识别包的基础上,以电脑为载体,可以通过语音来控制家中电器的工作,同时了解家中一切是否正常。 这种方案的最大好处在于能够帮助一些行动不便的老人或者一些残疾人,在不需要走动的情况下了解家中安全状态,且可通过说话来直接控制家中电器的工作。 如图 示。 图 系统整体结构框图 单片机最小系统板设计 本设计采用自己设计的最小系统开发板,分为四个模块,主控模块、现场控制模块、通信模块、电源模块。 下面分别介绍各个模块。 内蒙古科技大学毕业设计说明书(毕业论文) 9 主控模块 该系统采用的是 Atmel公司生产的 AT89C52单片机为主控器。 AT89C52是一个低电压,高性能 CMOS 8位 单片机 ,片内含 8k bytes的可反复擦写的 Flash只读程序存储器和 256 bytes的随机存取数据存储器( RAM),器件采用 ATMEL公司 的高密度、非易失性存储技术生产,兼容标准 MCS51指令系统,片内置通用 8位中央处理器和 Flash存储单元,AT89C52单片机在电子行业中有着广泛的应用。 在单片机的引脚外围固定的引脚,如 VCC( 40), GND( 20) 已经正确固定到电源和地上。 X1( 18), X2( 19)是接晶振的引脚已经外接到 30PF的电容。 RST(9)是单片机的复位引脚,通过 RC回路,作为单片机的上电复位。 作为 P3口的第二功能端口, ( 10) , ( 11) 为单片机的通信引脚,和 MAX232芯片连接。 方便在下载程序时,只要上电复位即可完成下载的硬件操作。 另外,为了提高 P0口的驱动能力,在 P0口的各引脚上接了上拉电阻 Vcc=5V。 采用一片 MAX232,为 RS232与 TTL电平的转换,使得可以方面使用电脑的 COM口,对单片机进行程序的烧录。 XTAL30pFC230pFC3X1 X2P11 图 主控模块晶振电路 10UFC110KR2VCCRESS1SWPB 图 复位电路 内蒙古科技大学毕业设计说明书(毕业论文) 10 另外,通过单片机驱动无线模块,无线模块在数据传输过程中起到了至关重要的作用,先简单介绍下主控单片机原理图,如果想让单片机正常工 作,最重要的是晶振电路和复位电路了,其原理如图。 现场控制模块 这个控制模块也是以 AT89C52为主体,通过读取无线接收到的数据或者通过将数据通过无线发送至主控,同时通过 12864液晶显示器显示现场得到的数据。 AT89C52主体电路如图。 VCCP00P01。
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。