统计机器翻译简介内容摘要:

GYPT可在网上免费下载,成为 SMT的基准 NLP课题组例会报告 2020126 EGYPT工具包的性能 “ 当解码器的原形系统在研讨班上完成时 , 我们很高兴并惊异于其速度和性能。 1990年代早期在 IBM公司举行的 DARPA机器翻译评价时 , 我们曾经预计只有很短( 10个词左右 ) 的句子才可以用统计方法进行解码 , 即使那样 , 每个句子的解码时间也可能是几个小时。 在早期 IBM的工作过去将近 10年后 , 摩尔定律 、 更好的编译器以及更加充足的内存和硬盘空间帮助我们构造了一个能够在几秒钟之内对 25个单词的句子进行解码的系统。 为了确保成功 , 我们在搜索中使用了相当严格的阈值和约束 , 如下所述。 但是 ,解码器相当有效这个事实为这个方向未来的工作预示了很好的前景 , 并肯定了 IBM的工作的初衷 , 即强调概率模型比效率更重要。 ” —— 引自 JHU统计机器翻译研讨班的技术报告 NLP课题组例会报告 2020126 对 IBM方法的改进 IBM方法的问题  不考虑结构:能否适用于句法结构差别较大的语言。  数据稀疏问题严重 后续的改进工作  王野翊的改进  Yamada和 Knight的改进  Och等人的改进 NLP课题组例会报告 2020126 王野翊的改进 (1) 背景:德英口语翻译系统  语法结构差异较大  数据稀疏(训练数据有限) 改进:两个层次的对齐模型  粗对齐:短语之间的对齐  细对齐:短语内词的对齐 NLP课题组例会报告 2020126 王野翊的改进 (2) 文法推导  词语聚类:基于互信息的方法  短语归并  规则学习 优点  机器翻译的正确率提高:错误率降低了 11%  提高了整个系统的效率:搜索空间更小  缓解了因口语数据缺乏导致的数据稀疏问题 NLP课题组例会报告 2020126 Yamada和 Knight的改进 (1) 基于语法的翻译模型( Syntaxbased TM) :  输入是源语言句法树  输出是目标语言句子 翻译的过程:  每个内部结点的子结点随机地重新排列:排列概率  在每一个结点的左边或右边随机插入一个单词  左、右插入和不插入的概率取决于父结点和当前结点标记  插入哪个词的概率只与被插入词有关,与位置无关   对于每一个叶结点进行翻译:词对词的翻译概率  输出译文句子 NLP课题组例会报告 2020126 Yamada和 Knight的改进 (2) NLP课题组例会报告 2020126 Yamada和 Knight的改进 (3) NLP课题组例会报告 2020126 Yamada和 Knight的改进 (4) NLP课题组例会报告 2020126 Yamada和 Knight的改进 (5) 训练  英日词典例句 2121对,平均句长日  词汇量:英语 3463,日语 3983,大部分词只出现一次  Brill’s POS Tagger和 Collins’ Parser  用中心词词性标记取得短语标记  压扁句法树:中心词相同的句法子树合并  EM训练 20遍迭代: IBM Model 5用 20遍迭代 NLP课题组例会报告 2020126 Yamada和 Knight的改进 (6) 困惑度 Perplexity: Our Model: IBM Model: (Overfitting) Alignment ave. score Perfect sents Our Model 10 IBM Model 5 0 结果 NLP课题组例会报告 2020126 Och等人的改进 (1) 著名语音翻译系统 VerbMobil的一个模块 对 IBM方法的改进  基于类的模型:词语自动聚类:各 400个类  语言模型:基于类的五元语法,回退法平滑  翻译模型:基于对齐模板的方法  短语层次对齐  词语层次对齐  短语划分:动态规划 NLP课题组例会报告 2020126 Och等人的改进 (2) 对齐模板 NLP课题组例会报告 2020126 基于最大熵的 统计机器翻译模型 (1) Och等人提出,思想来源于 Papineni提出的基于特征的自然语言理解方法 不使用信源-信道思想,直接使用统计翻译模型,因此是一种直接翻译模型 是一个比信源-信道模型更具一般性的模型,信源-信道模型是其一个特例 与一般最大熵方法的区别:使用连续量作为特征 NLP课题组例会报告 2020126 基于最大熵的 统计机器翻译模型 (2) 假设 e、 f是机器翻译的目标语言和源语言句子,h1(e,f), …, hM(e,f)分别是 e、 f上的 M个特征, λ1, …,λM是与这些特征分别对应的 M个参数 , 那么直接翻译概率可以用以下公式模拟:  39。 11...]),39。 (e x p []),(e x p [ )|()|Pr (1eMmmmMmmm fehfehfepfeMNLP课题组例会报告 2020126 基于最大熵的 统计机器翻译模型 (3) 对于给定的 f, 其最佳译文 e可以用以下公式表示: Mmmmeefehfee1)},({m a xa r g)}|{ P r (m a xa r gNLP课题组例会报告 2020126 基于最大熵的 统计机器翻译模型 (4) 取以下特征和参数时等价于信源-信道模型:  仅使用两个特征  h1(e,f)=log p(e)  h2(e,f)=log p(f|e)  λ1= λ2= 1。
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。