汉语分词内容摘要:

汉语分词 21 逆向最大匹配分词 (Backward Maximum Matching method, BMM法 )  分词过程与 FMM方法相同,不过是从句子 (或文章 )末尾开始处理,每次匹配不成功时去掉的是前面的一个汉字  “市场 /中 /国有 /企业 /才能 /发展 /  实验表明:逆向最大匹配法比最大匹配法更有效, 错误切分率为 1/ 245 汉语分词 22 双向匹配法( Bidirection Matching method, BM法)  比较 FMM法与 BMM法的切分结果,从而决定正确的切分  可以识别出分词中的交叉歧义 汉语分词 23 最少分词问题  分词结果中含词数最少  等价于在有向图中搜索最短路径问题 发 展 中 国 家 1 2 3 4 5 6 汉语分词 24 最少匹配算法 (Fewest Words Matching,FWM) )  分段  逐段计算最短路径 (Dijkstra算法 )  得到若干分词结果  统计排歧 发展 \中 \国家 发展 \中国 \家  算法复杂性与 FMM相当 汉语分词 25 基于统计的词网格分词  第一步是候选词网格构造:利用词典匹配,列举输入句子所有可能的切分词语,并以词网格形式保存  第二步计算词网格中的每一条路径的权值,权值通过计算图中每一个节点(每一个词)的一元统计概率和节点之间的二元统计概率的相关信息  根据图搜索算法在图中找到一条权值最大的路径,作为最后的分词结果 汉语分词 26 字串 “ 中华人民共和国 ” 的切分词网格 字节点 中 华 人 民 共 和 国 词节点 中华 人民 共和国 华人 共和 时 间 汉语分词 27 分析  可利用不同的统计语言模型计算最优路径  具有比较高的分词正确率  算法时间、空间复杂性较高 汉语分词 28 一种基于 Ngram信息的生词获取  基本思想: N元对 → 词频过滤 → 互信息过滤 → 校正 → 生词获取  词频  互信息( Mutual Information)  词频与互信息的关系  候选生词的校正 )()(),(log)。 (212121wpwpwwpwwI汉语分词 29 一些抽取出的新词(三元组) 字数 抽取出的新词 3 阿拉伯(地名)、艾滋病、白求恩(人名)、独联体(组织名)、洞庭湖(地名)、工商局(机构名)、摄氏度(计量单位)、世乒赛(缩略名)、塔利班(组织名) 4 标本 |兼 |治(成语)、求 |真 |务实、萨 |马兰 |奇(人名)、神 |州 |大地、升 |旗 |仪式、体制 |转 |轨、政企分开、通 |货 |膨胀(术语)、玩 |忽 |职守、新闻 |媒 |体、音 |像 |制品、优胜 |劣 |汰 5 奥地利 |先 |令(货币名)、波 |黑 |穆斯林(地名)、抽样 |合格 |率(术语)、电视 |连续 |剧 6 反 |法西斯 |战争、高 |新技术 |产业、工商 |行政 |管理、股份 |有限 |公司、国民 |生产 |总值(术语) 7 农村 |剩余 |劳动力、全国 |人大 |常委会(机构名)、香港 |特别 |行政区(地名)、常驻 |联合国 |代表 汉语分词 30 一些抽取出的新词(二元组)。
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。