印刷体汉字识别技术的研究毕业设计(编辑修改稿)内容摘要:

比行切分困难得多。 ( 5) 归一化 归一化也称规格化,它是把文字尺寸变换成统一大小,纠正文字位置 ( 平移 ) ,文字笔画粗细变换等文字 图像的规格化处理,并只对文字图像进行投影。 汉字图像的归一化往往会带来两个问题:一是字符图像的缩放可能会引入一些干扰。 二是图像缩放本身的运算量较大。 所以,必须采用恰当的归一化方法来 尽可能的 消除尺度变化对特征值 提取的影响。 ( 6) 平滑 对数字图像进行平滑,目的是去处孤立的噪声干扰,以平滑笔画边缘。 平滑在图像处理中实质是一幅文字图像通过一个低通滤波器,去除高频分量,保留低频分量,在实际应用中,采用 WXW(一般采用 3x3) 的辅助矩阵对二值文字图像进行扫描。 根据辅助矩阵中各像素 0、 1的分布,使处于矩阵中心的被 平滑的像素 X 从“ 0”变成“ 1”或者从“ 1”变成“ O”。 常用的平滑滤波方法有中值滤波和均值滤波 [7]。 ( 7) 细化 细化处理是在图像处理中相当重要和关键的一环,它是将二值化文字点阵逐层剥去轮廓边缘上的点,变成笔画宽度只有一个比特的文字骨架图形。 细化处理的目的是搜索图像的骨架,去除图像上多余的像素,从而在不改变图像主要特征的前提下,减少图像的信息量。 细化处理结果的好坏,直接影响到识别的效果和质量。 在细化处理过程中,一方面,去除的像素太少,则不能充分有效地减少图像的信息量;另一方面,去除的像素太多,特别是 某些关键像素若被去除,则改变了原始图像的主要特征。 因此,高质量的细化算法程序对图像识别有很大的实用价值。 针对文字图像的细化算法已有很多,它的优劣对系统的识别效果影响很大。 对细化的一般要求是保持原有笔画的连续性,不能由于细化造成笔画断开;细化成为单层像素线;保持文字原有特征,既不要增加,也不要丢失,保持笔画特征,最好细化掉笔锋:细化结果是原曲线的中心线,保留曲线的端点,交叉部分中心线不畸变。 针对各种不同印刷体汉字识别技术的研究 上海应用技术学院 电气与电子工程学院 毕业论文 8 的应用,国内外已发表了许多细化算法,如 Hilditch 经典细化算法、 Deutsch 算法等。 然而,细化过程本 身固有的弱点总是造成笔画骨架线的畸变,增加对识别的干扰,主要的畸变包括:交叉笔画畸变、转折处出现分叉笔画、失去短笔画和笔画合并等。 可以说,这些问题依赖细化算法本身是无法克服的,需要在后续的处理中尽量消除这些畸变的干扰。 汉字特征提取 预处理的最终目的是为了更加方便、准确地进行汉字的特征提取,从而提高汉字识别率。 对于汉字,其特征大致分为两类,包括结构特征和统计特征,至今总数己经不下百种。 但每种汉字特征的适用环境都有所不同,有的特征在一些情况下有很强的自动纠错能力,但在另外一些情况下却完全失去了 效用 [8]。 例如,汉字特征点特征算法本身是一种比较简单、完善的特征提取算法。 在汉字图像满足清晰、无笔画连联、无断笔等细化要求时,是能够完全将汉字的各种特征点位置提取处理的;若汉字图像本身模糊不清,预处理工作也无法达到要求,这样再好的汉字特征点特征提取算法也无法提取正确的汉字特征点特征,已经获得的特征点特征一旦应用到汉字识别系统中去,将会极大地影响整个系统的实用性。 针对不同的系统需求,应该选择不同的汉字特征,进行优化特征组合,这样才能达到系统最佳识别效果。 所以选择哪种特征,如何组合特征将是汉字特征提取这一部分 的重点研究领域。 但不得不提到的是,任何一个实用的。 识别系统只利用其中部分子空间的信息。 由于信息的缺陷,便不可避免地遇到识别“死角”的问题。 如下介绍并分析一下常用的一些的可供提取的汉字特征。 ( 1) 结构特征 ① 抽取笔画法 抽取笔画法是利用汉字由笔画所构成的特点进行识别,它利用汉字的结构信息来进行汉字的联机识别,在印刷体和脱机印刷体识别中,由于笔画提取的困难,结果不是很理想。 ② 松弛匹配法 松弛匹配法是一种基于全局特征的匹配方法,它对输入汉字作多边近似,抽取边界线段,将这些边界线段组成临近线 段表,然后用松弛匹配操作,完成边与边的匹配。 这种方法利用弹性吸收汉字的变形,一个字只用一个样本。 其缺点是操作速度较慢,计算量大。 ③非线性匹配法 非线性匹配法是由 Tsukumo 等提出的,用以解决字形的位移、笔画的变形等现象。 此方法试图克服从图形中正确抽取笔画的困难,以提高正确判别的能力。 ( 2) 统计特征 ① 特征点 法 印刷体汉字识别技术的研究 上海应用技术学院 电气与电子工程学院 毕业论文 9 特征点提取算法的主要思想是利用字符点阵中一些有代表性的黑点 (笔画 )、白点 (背景 )作为特征来区分不同的字符。 特征点包括笔画骨架线的端点、折点、歧点和交点,汉字的背景也含有 一定的区别于其它汉字的信息,选择若干背景点作为特征点,有利于提高系统的抗干扰能力。 其特点是能够大大压缩特征库的容量,对于内部笔画粘连字符,其识别的适应性较强、直观性好,但不易表示为矢量形式,匹配难度大,不适合作为粗分类的特征。 ② 笔段特征 法 汉字是由笔画组成的,而笔画又由笔段组成,笔段可近似为一定方向、长度和宽度的矩形段。 利用笔段与笔段之间的关系组成特征对汉字进行识别,受字体和字号的影响小,对于多体汉字的识别获得了良好效果。 其缺点是笔段的提取会较为困难,匹配的难度大,抗内部笔画断裂或者粘连能力差。 当然,汉字的特征多种多样,各有各的优点、短处和不同的适用范围。 选择什么样的特征使得此单分类环节的识别效果达到最佳,选择哪些特征来优化组合来达到整个系统的识别效果达到最佳,这也是设计者需要考虑的因素。 ③四边码 ( Fourside Code) 四边码是在汉字点阵图的四周各取一条带,计算其中的文字图像素点数,并将它分成四级,构成一个四元组。 由于汉字边框不但含有丰富的结构信息,而且边框部分笔画一般较少,不易粘连,抗干扰能力强,但对汉字的位移和旋转比较敏感,与笔画复杂性指数正好形成互补。 当然,汉字的特征多 种多样,各有各的优点、短处和不同的适用范围。 选择什么样的特征使得此单分类环节的识别效果达到最佳,选择哪些特征来优化组合来达到整个系统的识别效果达到最佳,这都需要通过具体的实验来验证。 但不管使用什么样的特征,汉字特征的提取都要遵循区别性、可靠性、独立性和特征数量这四个标准 [9]。 而本文为实现特征提取,我们将着重于对汉字的横竖撇捺四种特征的提取 (汉字本身属性决定 ),一般而言,特征提取的常用方法有逐象素特征提取法,垂直方向数据统计特征提取法, 13 特征点提取方法等,本设计中将引入 13点特征提取法。 汉字识别 算法 分类 识别算法是整个识别过程的核心部分。 原始图像经过预处理后 ,得到一个较为理想的二值图像 ,然后就可以对这个处理后的二值图像进行识别。 识别的过程包括根据识别算法选择和提取汉字的特征、与标准文字的特征进行匹配判别。 汉字的分类识别方法也是汉字识别系统的重要环节之一。 诸多分类方法各自有其优缺点。 ( 1) 相关匹配 这是一种统计识别方法,它通过在特征空间中计算输入特征向量与各模板向量之间印刷体汉字识别技术的研究 上海应用技术学院 电气与电子工程学院 毕业论文 10 的距离进行分类判决。 相关匹配是一种统计识别方法。 统计方法的优点是特征提取和模板的建立都比较容 易,抗干扰能力强,使局部噪声不敏感:缺点是分辨相似字的能力较弱,对书写风格的变化比较敏感。 ( 2) 文法分析 文法分析的基本思想是将输入的汉字看作是一个语句或符号串,将识别问题转化为判断输入的语句是否属于某种语言,即句子是否符合某种语言的语法约束条件,这种方法在汉字识别中也得到了应用。 文法分析是典型的结构识别方法,由于其侧重点是在笔段形状、位置以及笔段之间相互关系的分析上,所以它的优点是分辨相似字的能力较强,对书写风格的变化不敏感:缺点是对局部噪声敏感,特征提取比较复杂。 ( 3) 松弛匹配 无 论是相关匹配还是文法分析,都要求输入特征向量和模板特征向量的各分量之间具有确切的对应关系,然而在结构分析中,往往事先难以确定两者各分量间的对应关系,此时可以采用松弛匹配法。 松弛匹配法首先通过迭代运算,找出输入向量与模板向量各分量间的对应关系,然后再根据这一对应关系进行匹配。 迭代开始之前,首先根据输入向量各分量与模板向量各分量之间的相似度构成一个初始权值矩阵。 矩阵中各元素的值为相应分量之间的初始匹配概率,然后通过迭代运算对各个权值进行修正,并将其中趋近于零的值置为零,直至权值的变化趋于稳定,此时,可以认为权 值矩阵中非零元素所对应的分量之间只有对应关系,然后根据这一对应关系计算输入量与该模板问的距离,重复上述过程。 求出输入量与每个模板间的距离,取其中距离最小的模板所代表的类别为识别结果。 松弛匹配法兼具统计方法和结构方法的特长。 由于它是根据总体的匹配程度来决定识别结果的,所以这一点它类似于统计方法,同时它在迭代中还把基元间位置关系等结构信息考虑在内,这一点又很像结构方法。 因此松弛匹配法在汉字识别中取得了很好的效果,它不仅可以用于特征点的匹配,而且还可以用于笔段、笔画和部件的匹配。 其主要缺点是运算量较大,识别中往 往需要增加预分类环节以减小运算量。 另外,它吸收畸变的能力仍有不足。 ( 4) 人工神经网络 汉字识别是一个非常活跃的分支,不断有新的方法涌现出来,为汉字识别的研究注入新的活力,其中基于人工神经网络的识别方法是非常引人注目的方向。 目前神经网络理论的应用己经渗透到各个领域,并在模式识别、智能控制、计算机视觉、自适应滤波和信号处理、非线性优化、自动目标识别,连续语音识别、声纳信号的处理、知识处理、传感技术与机器人、生物等领域都 得到了日益 广泛地应用。 印刷体汉字识别技术的研究 上海应用技术学院 电气与电子工程学院 毕业论文 11 后处理 后处理就是利用相关算法对识别后的汉字文本或者 初级识别结果做进一步的处理,纠正误识的汉字,给出拒识的汉字,确定模棱两可的汉字。 汉字识别的后处理方法从用户的参与程度来说,可分为三类:手工处理,交互式处理和计算机自动处理。 一般而言,后处理可以在相关编程过程中由计算机自动实现 [6]。 以下对各种常用的后处理方法做简单的介绍。 ( 1) 简单的词匹配 简单的词匹配就是利用文本中字的上下文匹配关系和词的使用频度,给识别后文本中的拒识字提供一个“最佳”的候选字,其关键是建立汉语词条数据库。 该数据库应具印刷体汉字识别系统的特征提取和匹配识别研究有完善的词条存储、 维修功能,应该能够反映不同词的使用频度,应尽可能的提高词条的检索速度,只有这样才能方便汉字后处理程序的使用。 ( 2) 综合词匹配 综合词匹配方法,就是综合利用初级识别结果和字的上下文关系及词的使用频度,来决定最后的识别结果。 这种方法实际上己把识别过程和后处理过程融为一体了。 综合利用初级识别结果与词条信息的纠错优于单纯利用词条的纠错。 综合词匹配法可以减少搜索词条关系时的搜索空间,从而提高纠错速度。 这是因为在寻找字的上下文匹配关系时,利用初级识别结果的待选集,可以大大缩小搜索范围,避免了在整个词条库中查 询。 在不利用待选集时,对于有可能识别出错的地方,只能采用拒识,而拒识不提供任何未知汉字与已知汉字字符集中汉字相似度的信息,所以寻找词条时的搜索空间只能是整个词条库。 另外,当某一个词前后两个字都被拒识时,简单的词匹配法就无能为力,而综合词匹配法仍能利用词条信息进行纠错。 ( 3) 词法分析 语言是语音和意义的结合体。 语素是最小的语言单位。 无论是词还是短语,都有其构成规则,利用这些规则,将它们分类。 另外,不同的应用背景,也有不同的分类结果。 汉字识别后处理的词法分析方法,就是在词匹配的基础上,对仍难以确定的 汉字,找出这些汉字与前后汉字所能组成的词,然后通过词法分析,确定一个能和该词的前后词组成“最佳”匹配的词,从而确定要识别的汉字。 基于词法分析的汉字识别后处理的关键是构造一个完善的词条数据库。 该数据库中的每一个词条项都要包括本词条的词性、词频、连接属性、语义信息等。 ( 4) 句法、语义分析 语句无论是从结构上,还是从意思上都有一种人类共同理解、共同接受和共同遵守的语言组合法则。 所以利用语义句法的方法,在初级识别结果的基础上,在利用词法分析进行匹配之后或匹配的同时,再进行句法分析和语义分析,从而确定要识别 的汉字。 进行语义句法分析也要首先建立词条库。 这时词条库中的每一个词条项,还要包括印刷体汉字识别技术的研究 上海应用技术学院 电气与电子工程学院 毕业论文 12 该词的句法信息和语义信息。 另外,还要建立起一套句法规则和语义规则,以便指导语法分析和语义分析。 ( 5) 人工神经元网络 利用人工神经元网络的汉字识别后处理可以采取两种方式。 一种是把识别过程和后处理过程分开,网络的输入是初级识别结果的短语或者句子,其中包含不确定的汉字 ( 或拒识的汉字 ) ,通过网络的运行,最终确定这些字。 另一种方法是把识别过程和后处理过程综合在一起,初级识别给出的结果是每一个待识汉字的前几个候选字和每一候选字与 待识字之间的相似度。 然后,把这些候选字以及与之相连的相似度输入网络,通过网络的并行作用,找到最符合汉语语法和语义组合关系的词或句子,从而确定出要识别的。
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。