人工智能artificialintelligence第八章内容摘要:

然语言处理的新思想。 语料库语言学 2020/11/17 史忠植 人工智能:自然语言处理 50 • 基于语料库的处理思想能够在工程上、在宽广的语言覆盖面上解决大规模真实文本处理这一极其艰巨的课题,对传统的处理方法的一个强有了的补充。 • 新型的智能计算机和多媒体计算机均要求设计出更为友好的人机界面,使自然语言、文字、图像和声音等信号都能直接输入计算机。 要求计算机能以自然语言与人进行对话交流,就需要计算机具有自然语言能力,尤其是口语理解和生成能力。 语料库语言学 2020/11/17 史忠植 人工智能:自然语言处理 51 • 语料库语言学及其特点 – 传统的句法 语义分析技术,所采取的主要研究方法是基于规则的方法 – 由于自然语言理解的复杂性,各种知识的“数量”浩瀚无际,而且具有高度的不确定性和模糊性,利用规则不可能完全准确地表达理解自然语言所需的各种知识,而且,规则实际上面向语言的使用者人的,将它面向机器则分析结果始终不尽如人意。 – 研究语言知识所用的真实文本称为语料,大量的真实文本即构成语料库 语料库语言学 2020/11/17 史忠植 人工智能:自然语言处理 52 WordNet  WordNet是按一定结构组织起来的义类词典 , 主要特征表现在 1. 整个名词组成一个继承关系。 WordNet有着严格的层次关系 , 这样一个单词可以把它所有的前辈的一般性的上位词的信息都继承下来 , 可以提供全局性的语义关系 ,具有 ISA关系 2. 动词是一个语义网 动词大概是最难以研究的词汇 , 在动词词典中 , 很少有真正的同义动词。 表达动词的意义对任何词汇语言学来说都是困难的。 WordNet不做成分分析 , 而是进行关系分析。 这一点是计算语言学界所热衷的课题 , 与以往的语义分析方法不同。 这种关系讨论的是动词间的纵向关系 , 即词汇蕴涵关系  WordNet基于名词和动词以及其他词性的关系进行词类间的纵向分析, 在国际计算语言学界有很大的影响。 但是 , 它也有不足之处 , 如对横向关系还没有考虑。 2020/11/17 史忠植 人工智能:自然语言处理 53 WordNet  WordNet是 1990由 Princeton大学的米勒 ( Miller G A) 等人设计和构造 的。 一部 WordNet词典将近 95600个词形 (51500单词和 44100搭配词 ) 和 70100个词义 , 分为五类:名词 、 动词 、 形容词 、 副词和虚词 , 按语义而不是按词性来组织词汇信息。  在 WordNet词典中 , 名词有 57000个 , 含有 48800个同义词集 , 分成 25类文件 , 平均深度 12层。 最高层为根概念 , 不含有固有名词。 2020/11/17 史忠植 人工智能:自然语言处理 54 知网  知网( HowNet)是董振东研制的以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识 知识库。 公布的中文信息结构库包含: •信息结构 模式: 271个 •句法 分布式: 49个 •句法 结构式: 58个 •实例 : 11,000词语 •总 字数:中文 60,000字 2020/11/17 史忠植 人工智能:自然语言处理 55  20世纪 90年代,使用统计的方法,使机器翻译的正确率达到 60%,汉语切分的正确率达到 70%,汉语语音输入的正确率达到 80%,这是对传统语言学的严重挑战。 许多研究人员相信,基于语料库的统计模型(如 ngram模型、 Markov模型、向量空间模型)不仅能胜任词类的自动标注任务,而且也能够应用到句法和语义等更高层次的分析上来。 这种方法有希望在工程上、在宽广的语言覆盖面上解决大规模真实文本处理这一极其艰巨的课题,至少也能对基于规则的自然语言处理系统提供一种强有力的补充机制。 统计方法的 应用 2020/11/17 史忠植 人工智能:自然语言处理 56 统计方法的 应用 大规模真实文本处理的数学方法主要是统计方法。 基于语料库的统计模型(如 Markov模型、向量空间模型)不仅能胜任词类的自动标注任务,而且也能够应用到句法和语义等更高层次的分析上来。 2020/11/17 史忠植 人工智能:自然语言处理 57 • 由于汉语句子的最小构成单位是字,有 意义的最小单位却是词,而汉语词与词 之间又没有分割符号(英语词和词之间 是空格)。 因此,汉语理解首先要进行 汉语自动分词。 • 可以概括为两大类方法, – 无词典分词,它完全依靠整段文章中汉字之间的搭配的频率算出成词可能 – 有词典分词,是一种更有普遍意义的分词方法。 有词典分词主要有最大匹配法,逆向最大匹配法,逐词遍历匹配法,设立切分标志法,以及正向最佳匹配和逆向最佳匹配法,而这些方法的一个基本思想都是要依次分出待切分串的可能最长成词 汉语自动分词 2020/11/17 史忠植 人工智能:自然语言处理 58 • 首先,根据汉语词典 (有 56800条词汇 )进 行统计,发现:虽然词典中的最长词可 以达到为 20多个字节(十几个汉字), 但是大多数汉语词都可以由前两字唯一 确定,这样的词占绝大多数 (如在上述词典中占总词汇量的 85%以上 )。 基于统计结果的分词 2020/11/17 史忠植 人工智能:自然语言处理 59 两个首字相同的词的个数的统计 • 根据前两字可确定的词个数 词总数 所占百分比 (% ) 1 48431 2 2801 2 3 514 3 4 118 4 5 46 5 6 30 6 7 16 7 8 6 8 9 8 9 10 5 10 14 2 14 15 3 15 18 1 18 汉语自动分词 2020/11/17 史忠植 人工智能:自然语言处理 60 • 主要是在字典索引的支持下进行的,索引结构可以分为两级。 • 一级索引就用汉字内码,查找算法用散 列方法。 • 而二级索引采用整个词长。 汉语机械分词 2020/11/17 史忠植 人工智能:自然语言处理 61 • 最大匹配法。 最大匹配法简称 MM方法。 其思想是:在计算机磁盘中存放一个分词用词典 , 从待切分的文本中按自左到右的顺序截取一个定长的汉字串 , 通常为为词典中的最大词长 , 这个字符串的长度称作最大词长。 将这个具有最大词长的字符串与词典中的词进行匹配 , 若匹配成功 , 则可确定这个字符串为词 , 计算机程序的指针向后移动与给定最大词长相应个数的汉字 , 继续进行匹配;否则 , 把该字符串从右边逐次减去一个汉字 , 再与词典中的词进行匹配 , 直到成功为止。 • 逆向最大匹配法。 逆向最大匹配法简称 RMM法。 这种方法的基本原理与 MM法相同 , 所不同的是分词时对待切分文本的扫描方向。 MM方法从待切分文本中截取字符串的方向是从左到右 , 而 RMM方法则是从右向左。 在与词典匹配不成功时 , 将所截取的汉字串从左至右逐次减去一个汉字 , 再与词典中的词进行匹配 , 直到匹配成功为上。 实验表明 ,RMM法的切词正确率要比 MM法高 匹配法分词 2020/11/17 史忠植 人工智能:自然语言处理 62 • 分词过程中的歧义问题。 歧义字段在中文文本中是普遍存在的,歧义切分是自动分词中不可避免的现象,是自动分词中的一个比较棘手的问题。 对歧义字段的处理水平,直接影响着自动分词系统的分词准确率。 • 未登录词的识别问题。 未登录词是指没有在词典中出现、在汉语文本中又应该当作一个词将其分开的那些字符串。 包括中外人名、中外地名、机构组织名、事件名、缩略语、派生词、各种专业术语以及在不断发展和约定俗成的一些新词语。 未登录词种类繁多、规模宏大,对它们识别正确与否直接影响着分词系统的正确率。 然而,目前对于这些词语的自动辨识尽管作了不少的研究,但要想达到实际应用的要求,仍还有不少的困难。 汉语分词的难点 2020/11/17 史忠植 人工智能:自然语言处理 63 • 除了由于未登录词而引起的歧义,切分歧义主要有三种类型: – 交集型歧义,即汉字串ABC既可切成AB/C,又可切成A/BC。 – 组合型歧义,即汉字串既可切分成AB,又可切分成A/B。 – 混合型歧义,是前两种的自我嵌套或三者的交叉组合产生的。 • 为了既能得到较高的准确率,又有较小的开销,可以 着重解决相对数量较大又较容易解决的交集型歧义。 汉语分词的难点 2020/11/17 史忠植 人工智能:自然语言处理 64  词类分析 汉语的发展是先有字后有词,所以关于 词的研究还存在一些问题,比较突出的 是汉语词类的兼类问题。 例如,大量的 双字动词兼作名词。 要进行汉语理解, 如果不把词类先确定下来的话,那么下 一步的分析也难以进行。 汉语词类的兼类处理方法  两种方法 – 根据规则消除兼类, – 根据预料库统计消除兼类 汉语分词的难点 2020/11/17 史忠植 人工智能:自然语言处理 65 2020/11/17 史忠植 人工智能:自然语言处理 66 内容提要 概述 词法分析 句法分析 语义分析 语用分析 语料库 信息检索 机器翻译 问答系统 小结  信息检索 (information retrieval, IR)是指将信息按一定的方式组织和存储起来,并根据用户的需要找出有关信息的过程。 1950年 , 穆尔 (Moore C)根据图书馆的参考咨询和文摘索引提出了信息检索。 信息检索包括信息存储和检索。 在检索之前必须将信息收集起来,按科学方法进行整理,并按一定准则存储起来,形成书本式检索工具或者计算机可读数据库。 在检索时,用户根据自身需求提交查询给信息检索系统,系统利用存储信息所依据的准则,在文档集中找出与查询条件相关的文档子集,并按照它们与查询条件的相关性进行排序,最后为用户返回一个有序的文档子集。 信息检索 2020/11/17 史忠植 人工智能:自然语言处理 67 • 从广义上讲,信息检索包括两个过程, • 一是信息存储 (information storage),即信息的标引、加工和存储过程: • 二是信息检索 (information retrieval),即信息用户的查找过程。 • 从狭义上讲,信息检索仅指后一部分。 • 信息检索的本质是一个匹配的过程 – 即用户的信息需求和信息存储的信息集合进行比较和选择的过程 信息检索 2020/11/17 史忠植 人工智能:自然语言处理 68 信息检索过程 2020/11/17 史忠植 人工智能:自然语言处理 69 信息检索的类型  按信息检索的内容划分 • 文献检索 • 数据检索 • 事实检索 • 概念检索  按信息检索的组织方式划分 超文本检索是对每个节点中储存。
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。