汉语分词

汉语分词

范文 2025-04-21 3° 格式：PPT大小：170.00KB页数：45价格：30

汉语分词内容摘要：

汉语分词 21 逆向最大匹配分词 (Backward Maximum Matching method, BMM法 )  分词过程与 FMM方法相同，不过是从句子 (或文章 )末尾开始处理，每次匹配不成功时去掉的是前面的一个汉字  “市场 /中 /国有 /企业 /才能 /发展 /  实验表明：逆向最大匹配法比最大匹配法更有效，错误切分率为 1／ 245 汉语分词 22 双向匹配法（ Bidirection Matching method, BM法）  比较 FMM法与 BMM法的切分结果，从而决定正确的切分  可以识别出分词中的交叉歧义汉语分词 23 最少分词问题  分词结果中含词数最少  等价于在有向图中搜索最短路径问题发展中国家 1 2 3 4 5 6 汉语分词 24 最少匹配算法 (Fewest Words Matching,FWM) )  分段  逐段计算最短路径 (Dijkstra算法 )  得到若干分词结果  统计排歧发展 \中 \国家发展 \中国 \家  算法复杂性与 FMM相当汉语分词 25 基于统计的词网格分词  第一步是候选词网格构造：利用词典匹配，列举输入句子所有可能的切分词语，并以词网格形式保存  第二步计算词网格中的每一条路径的权值，权值通过计算图中每一个节点（每一个词）的一元统计概率和节点之间的二元统计概率的相关信息  根据图搜索算法在图中找到一条权值最大的路径，作为最后的分词结果汉语分词 26 字串 “ 中华人民共和国 ” 的切分词网格字节点中华人民共和国词节点中华人民共和国华人共和时间汉语分词 27 分析  可利用不同的统计语言模型计算最优路径  具有比较高的分词正确率  算法时间、空间复杂性较高汉语分词 28 一种基于 Ngram信息的生词获取  基本思想： N元对 → 词频过滤 → 互信息过滤 → 校正 → 生词获取  词频  互信息（ Mutual Information）  词频与互信息的关系  候选生词的校正 )()(),(log)。 (212121wpwpwwpwwI汉语分词 29 一些抽取出的新词（三元组）字数抽取出的新词 3 阿拉伯（地名）、艾滋病、白求恩（人名）、独联体（组织名）、洞庭湖（地名）、工商局（机构名）、摄氏度（计量单位）、世乒赛（缩略名）、塔利班（组织名） 4 标本 |兼 |治（成语）、求 |真 |务实、萨 |马兰 |奇（人名）、神 |州 |大地、升 |旗 |仪式、体制 |转 |轨、政企分开、通 |货 |膨胀（术语）、玩 |忽 |职守、新闻 |媒 |体、音 |像 |制品、优胜 |劣 |汰 5 奥地利 |先 |令（货币名）、波 |黑 |穆斯林（地名）、抽样 |合格 |率（术语）、电视 |连续 |剧 6 反 |法西斯 |战争、高 |新技术 |产业、工商 |行政 |管理、股份 |有限 |公司、国民 |生产 |总值（术语） 7 农村 |剩余 |劳动力、全国 |人大 |常委会（机构名）、香港 |特别 |行政区（地名）、常驻 |联合国 |代表汉语分词 30 一些抽取出的新词（二元组）。

阅读剩余 0%

本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体)，仅供学习参考。用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权，请联系我们反馈本站将在三个工作日内改正。

标签：分词汉语

相关推荐

密码登录

账号注册