【摘要】 一种基于非连续短语的泛化重排序统计翻译方法及装置,由词对齐 模块、语言模型模块、抽取短语模块、训练最大熵分类器模块,最小错 误训练模块以及解码器组成装置,对基于短语的统计机器翻译给出泛化 的重排序模型,引入非连续短语,对于给定的待翻译文种中的任何一个 连续的串,利用规则来组合连续短语和非连续短语,来获取尽可能多的 连续的目标翻译,同时与一个重排序的子模型结合,实现短语的局部和 全局的重排序,得到该源语言句子的最后的目标翻译。该模型能够抓住 短语的局部和全局重排序知识,而且能够通过非连续的短语获得短语的 泛化能力。实验结果表明模型改善了基于最大熵的重排序模型和基于层 次短语的翻译模型大约1.54%and 0.66%的BLEU打分。 【专利类型】发明申请 【申请人】中国科学院自动化研究所 【申请人类型】科研单位 【申请人地址】100080北京市海淀区中关村东路95号 【申请人地区】中国 【申请人城市】北京市 【申请人区县】海淀区 【申请号】CN200810222771.X 【申请日】2008-09-24 【申请年份】2008 【公开公告号】CN101685441A 【公开公告日】2010-03-31 【公开公告年份】2010 【IPC分类号】G06F17/28 【发明人】宗成庆; 何彦青 【主权项内容】 1、一种基于非连续短语的泛化重排序统计翻译方法,步骤如下: 训练步骤包括: a)对待翻译文种和翻译文种的平行训练语料,利用GIZA++工具, 从待翻译文种到翻译文种和翻译文种到待翻译文种两个方向,双向运行 GIZA++工具并应用启发式的修正规则为每一个句子对获取一个多对多 的词对齐; b)使用SRILM工具对训练语料的翻译文种进行训练,生成三元或者 多元的语言模型; c)在训练语料词对齐结果的基础上,抽取连续和非连续的短语翻译对 并统计其概率信息; d)在训练语料词对齐结果的基础上,抽取连续短语的重排序实例,训 练最大熵分类器; e)利用最小错误训练算法在开发集上训练翻译模型参数; 翻译步骤包括: 在抽取的连续和非连续短语翻译对以及训练出的最大熵分类器的基 础上,应用翻译模型参数,使用规则对待翻译文种句子进行翻译及顺序 的调整,直至完成解码、翻译。 【当前权利人】中国科学院自动化研究所 【当前专利权人地址】北京市海淀区中关村东路95号 【统一社会信用代码】12100000400010945B 【被引证次数】18 【被他引次数】18.0 【家族被引证次数】18