双语语料库段落重组对齐方法研究内容摘要:

tence Number in English TextSe n ten ce Nu m b e r in Ch in e se Te xt BInformation Retrieval Lab HIT 20 段落重组对齐 总体思想  篇章定位  句长搭配  词典校对 Information Retrieval Lab HIT 21 形式对齐评价函数  P[i,j] = a(Pu[i,j]P0)178。 + (Pl[i,j] P0)178。 + a(Pd[i,j] P0)178。 P0为对应文本长度之比; Pu[i,j]为对应上文部分长度之比; Pl[i,j]为对应句长度之比; Pd[i,j]对应下文部分长度之比; a为加权系数 Information Retrieval Lab HIT 22 第 150句 第 50句 第 12句 英语文本 第 120句 第 40句 第 10句 汉语文本 重组段落对齐思想 P0 锚点句对 Pu[i,j] Pl[i,j] Pd[i,j] Information Retrieval Lab HIT 23 锚点句对的校验  词典检验 L| |表示全部元素的字符长度和; Match(S)表示译文出现在汉语句中英语单词; Match(T)表示成为英文单词译文的汉语单词 ; | ( ) | | ( ) || | | |L M a tc h S L M a tc h THL S L TInformation Retrieval Lab HIT 24 主要内容  引言  方法  结果  讨论 Information Retrieval Lab HIT 25 试验结果 (1)  召回率 = (返回段落总数 – 错误段落总数)/ 双语文本中 (1:1)型正确句珠总数;  准确率 = (返回段落总数 – 错误段落总数)/ 返回段落总数; Information Retrieval Lab HIT 26 试验结果 (2) 文本 1 文本 2 (1:1)型句珠总数 158 169 提取锚点总数 108 121 准确率 % 100% 召回率 % %  重组分段的结果一般每一段落的句子数在10句以内。 Information Retrieval Lab HIT 27 重组分段的实例 (1)original  Around 30 people have staged a naked protest against GM food. The protesters spelled out no GM with their bodies in a meadow at Forest Row, East Sussex.  Organiser Mike Grenville said he hoped it would send a message to the Government of people39。 s concern, particularly over mercial planting of GM crops.  Mr Grenvil。
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。