基于语料库的工作内容摘要:

严守一把手机关上 — 严守一 把 手机 关上 –德语中大多数的词语有空格分割,但是复合名词写成单独的词 •Lebensversicherungsgesellschaftsangestellter 人身保险公司的雇员 – database – data base harddisk – hard disk 2020/11/17 中文信息处理 基于语料库的工作 20 标记化:什么是一个词 •非词语分界的空格 – data base – database, 9365 1873 – 93651873 – New York, San Francisco –如果和连字符一起出现,问题就更加复杂了 •the New York – New Haven Railroad –习惯搭配形成的词 •Work out – I couldn’t work the answer out. 2020/11/17 中文信息处理 基于语料库的工作 21 标记化:什么是一个词 电话号码 国家 电话号码 国家 0171 378 0647 UK +45 43 48 60 60 Denmark ( 830 1007) UK 9551279648 Pakistan +44 (0) 1225 753678 UK +411/284 3797 Switzerland 01256 468661 UK (941) 866854 Sri Lanka (202) 5222239 USA +49 69 1362 98 05 Germany 19252253000 USA 33 1 34 43 32 36 France USA ++31205202061 The Netherlands 2020/11/17 中文信息处理 基于语料库的工作 22 词法 •词干化 –去除词缀只留词干的过程 – operatingoperate, putingpute •词干化的优点 –对词的各种变化形式进行归类,减少了词的数目 –意味着一定水平上的词义消歧 •Lying—lie, lay(卧倒) lie, lied(欺骗) 2020/11/17 中文信息处理 基于语料库的工作 23 词法 • 词干化中的问题 – 词干化会浪费一些信息 • operating system—operate system • business—busy – 词法分析把词切分成词次,但是有的时候把密切相关的信息组合到一起是有意义的 • 保卫祖国 —保卫 祖国 – 公民有 保卫祖国 ,依法服兵役的义务 – 保卫 社会主义建设 ,战斗在 祖国 边疆及各个岗位上 – 英语中只有很少的词态,所以对其进行词态处理不是很有必要。 而其它语言中,进行词态处理可能会有很大的意义 • 芬兰语,每个动词有百万种变化形式 2020/11/17 中文信息处理 基于语料库的工作 24 句子 • 句子:以一个 “。 ” 、 “ , ” 、 “。 ” 或者 “。 ”结尾的内容。 90%的情况都是这样 – 句子可能会被其它的分隔符号切分开 (., :。 ) – 句子的顺序可能会被打乱 • “ You should be here,” she said, “before I know it!” – 引号可能在句子的最后一个标点。
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。