语料库的制作和应用内容摘要:
ching and replacing all • $line=~s/^\s*$//g。 matching and replacing all • $line=~s/\\s{0,}/\s/g。 matching and replacing all • $line=~s/\\s\n/\n/g。 matching and replacing all • $line=~s/\Z\n//g。 matching and replacing all • $line=~s/ +/ /g。 replace more whitespaces with just one • $line=~s/\s+({2,})/$1/g。 matching and replacing all 语料文本的基本处理:主要处理方式 5 • 添加 metadata后的语料样态 语料文本的基本处理:主要处理方式 6 双语语料的对齐:方式和方法 1 • 对齐就是源文和译文对应。 翻译语料的主要特征是对齐。 • 对齐的语言层级: o 段对齐 o 句对齐 o 段对齐中的句对齐 • 对齐方式不同,与创建语料库的目的有关。 比如,如果仅仅用于辅助翻译,就可以采用句对齐。 而要用于翻译研究,就需要考虑段落层面的语言使用信息,如衔接、话语标记等。 对齐软件有很多, CAT类软件 、 Paraconc、专门软件。 双语语料的对齐:方式和方法 2 • 初始对应:源语、目标语文本段对齐, word下完成校对。 这一步最重要。 • Paraconc可以考虑添加 s标记。 • 对齐:软件对齐。 如 aligner, paraconc; Trados,dejavu, bitext2tmx。 前两者提供段对齐和句对齐;后三个软件一般只提供句对齐。 语料赋码 • Annotation, 就是加标签( tagging) . • 标注 的分类:自动标注、人工标注; 词性 句法标注、功能标注 ;标注标记 _、 /、。 • 人工标注主要是指功能性标注,如语义标注、翻译手段的标注,以及为满足特定研究目的进行的附码如话轮、间接、直接言语行为,等等。 从一定意义上说,人工标注涉及更深语言层面,标注充分对于研究自然更有意义。 • 自动标注主要包含词性标注和句法标注,可以通过软件来实现。 语料编码、存储格式 • 使用 text文本时,缺省编码为 ANSI。 用于 WordSmith用的语料文本一般应为 un。语料库的制作和应用
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。
用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。