搜索引擎技术、现状、以及未来发展趋势的文献综述内容摘要:
、基于理解的分词方法 这种分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果。 其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。 它通常包括三个部分:分词子系统、句法语义子系统、总控部分。 在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。 这种分词方法需要使用大量的语言知识和信息。 由于汉语语言知识的笼 统、复杂性,难以将各种语言信息组织成机器可直接读取的形式,因此目前基于理解的分词系统还处在试验阶段。 、基于统计的分词方法 从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。 因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。 可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息。 定义两个字的互现信息,计算两个汉字 X、 Y的相邻共现概率。 互现信息体现了汉字之间结合关系的紧密程度。 当紧密程度高于某一个阈值时,便可认为此字组可能构成了 一个词。 这种方法只需对语料中的字组频度进行统计,不需要切分词典,因而又叫做无词典分词法或统计取词方法。 但这种方法也有一定的局限性,会经常抽出一些共现频度高、但并不是词的常用字组,例如“这一”、“之一”、“有的”、“我的”、“许多的”等,并且对常用词的识别精度差,时空开销大。 实际应用的统计分词系统都要使用一部基本的分词词典(常用词词典)进行串匹配分词,同时使用统计方法识别一些新的词,即将串频统计和串匹配结合起来,既发挥匹配分词切分速度快、效率高的特点,又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。 分词中的难点 有了成熟的分词算法,是否就能容易的解决中文分词的问题呢。 事实远非如此。 中文是一种十分复杂的语言,让计算机理解中文语言更是困难。 在中文分词过程中,有两大难题一直没有完全突破。 、歧义识别 歧义是指同样的一句话,可能有两种或者更多的切分方法, 典型的歧义有交集型歧义(约占全部歧义的 85%以上)和组合型歧义。 例如:表面的,因为“表面”和“面的”都是词,那么这个短语就可以分成“表面 的”和“表 面的”。 这种称为交叉歧义。 像这种交叉歧义十分常见, 又例如:“ 学生会 ” 既可能是一个名词,指一 种学生组织,也可能是 “ 学生 /会 ” ,其中 “ 会 ” 为可能 或 “ 能够 ” 的意思。 在 “ 学生会主席 ” 中只能是前者,在 “ 学生会去 ” 中只能是后者,在 “ 生会组织义演活动 ” 中歧义仍然排除不了,则需要看更多的语境信息。 交叉歧义相对组合歧义来说是还算比较容易处理,组合歧义就必需根据整个句子来判断了。 例如,在句子“这个门把手坏了”中,“把手”是个词,但在句子“请把手拿开”中,“把手”就不是一个词;在句子“将军任命了一名中将”中,“中将”是个词,但在句子“产量三年中将增长两倍”中,“中将”就不再是词。 这些词计算机又如何去识别 ? 如果交叉歧义和组合歧义计算机都能解决的话,在歧义中还有一个难题,是真歧义。 真歧义意思是给出一句话,由人去判断也不知道哪个应该是词,哪个应该不是词。 例如:“乒乓球拍卖完了”,可以切分成“乒乓 球拍 卖 完 了”、也可切分成“乒乓球 拍卖 完 了”,如果没有上下文其他的句子,恐怕谁也不知道“拍卖”在这里算不算一个词。 、新词识别 (未登录词识别) 新词,专业术语称为未登录词。 未登录词即未包括在分词词表中但必须切分出来的词 ,包括各类专名 (人名、地名、企业字号、商标号等 )和某些术语、缩略词、新词 等等。 最典型的是人名,人可以很容易理解句子“王军虎去广州了”中,“王军虎”是个词,因为是一个人的名字,但要是让计算机去识别就困难了。 如果把“王军虎”做为一个词收录到字典中去,全世界有那么多名字,而且每时每刻都有新增的人名,收录这些人名本身就是一项巨大的工程。 即使这项工作可以完成,还是会存在问题,例如:在句子“王军虎头虎脑的”中,“王军虎”还能不能算词。 新词中除了人名以外,还有机构名、地名、产品名、商标名、简称、省略语等都是很难处理的问题,而且这些又正好是人们经常使用的词,因此对于搜索引擎来说,分词系统 中的新词识别十分重要。 目前新词识别准确率已经成为评价一个分词系统好坏的重要标志之一。 几种典型的 汉语 自动分词系统 、几个早期的自动分词系统 、 我国第一个实用的自动分词系统 CDWS 、 山西大学计算机系研制的自动分词系统 ABWS 、 北京航空航天大学于 1988年实现的分词系统 CASS 、 北京师范大学现代教育研究所于 1991 前后研制实现的书面汉语自动分词专家系统 、清华大学 SEG分词系统 、清华大学 SEGTAG系统 、国家语委文字所应用 句法分析技术的汉语自动分词 、复旦分词系统 、哈工大统计分词系统 、杭州大学改进的 MM 分词系统 、 Microsoft。搜索引擎技术、现状、以及未来发展趋势的文献综述
本资源仅提供20页预览,下载后可查看全文
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。
用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。
相关推荐
摩比公司股权分配设计方案
划 /目标或岗位职责 /分工要求,在主要方面有明显不足或失误 ( 5)特殊贡献指标 S5 根据员工工作表现、 对公司的历史贡献 进行评分,各级人员评分主体规定如 下: 副总级以上高管人员由董事会进行评分,取各位参评人员评分的平均值为最终得分结 果; 其他人员由总裁、副总裁进行评分,取各人评分的加权平均分为员工的最终得分结果(总裁的评分权重为 40%,二位副总裁的评分权重均为 30%)
收费站安全生产应急管理规定
八条 安全生产应急小组应当结合实战需要,制定训练计划,开展相应训练,提高临场指挥协调救援能力。 第九条 安全生产应急小组和相关部门负责人应当定期对工作范围内进行预防性安全检查,熟 悉应急预案内容、周边环境、危险源危害因素等。 第十条 收费站应当根据本站内安全生产形式和生产安全事故特点 ,储备必要的应急救援物资装备 第十一条 收费站应当采取多种形式,开展安全生产应急法律法规、事故预防和避险、自救
搅拌站调度工作管理条例
工地确认上述内容,如发现问题,及时通知相关部门 ; 四、调度在和工地沟通时,应使用礼貌用语,言谈不得带脏字、不得和客户争吵谩骂,语速要适中,尽量使用普通话,将客户反映问题进行记录,并及时反馈到相关部门,如发生和客户争吵谩骂,对当班调度员给予 200 元 /次的经济处罚,情节严重的,公司予以辞退; 五、调度 派车时,应本着公平、公正的原则,不得徇私,不得收受司机或外租车辆的礼品、财物