24小时服务热线
效率高速
品质保障
厂家直供
售后保障
行业新闻
当前位置:行业新闻>

一种基于非连续短语的泛化重排序统计翻译方法及装置专利

发布时间:2026-06-15

【摘要】 一种基于非连续短语的泛化重排序统计翻译方法及装置,由词对齐 模块、语言模型模块、抽取短语模块、训练最大熵分类器模块,最小错 误训练模块以及解码器组成装置,对基于短语的统计机器翻译给出泛化 的重排序模型,引入非连续短语,对于给定的待翻译文种中的任何一个 连续的串,利用规则来组合连续短语和非连续短语,来获取尽可能多的 连续的目标翻译,同时与一个重排序的子模型结合,实现短语的局部和 全局的重排序,得到该源语言句子的最后的目标翻译。该模型能够抓住 短语的局部和全局重排序知识,而且能够通过非连续的短语获得短语的 泛化能力。实验结果表明模型改善了基于最大熵的重排序模型和基于层 次短语的翻译模型大约1.54%and 0.66%的BLEU打分。 【专利类型】发明申请 【申请人】中国科学院自动化研究所 【申请人类型】科研单位 【申请人地址】100080北京市海淀区中关村东路95号 【申请人地区】中国 【申请人城市】北京市 【申请人区县】海淀区 【申请号】CN200810222771.X 【申请日】2008-09-24 【申请年份】2008 【公开公告号】CN101685441A 【公开公告日】2010-03-31 【公开公告年份】2010 【IPC分类号】G06F17/28 【发明人】宗成庆; 何彦青 【主权项内容】 1、一种基于非连续短语的泛化重排序统计翻译方法,步骤如下: 训练步骤包括: a)对待翻译文种和翻译文种的平行训练语料,利用GIZA++工具, 从待翻译文种到翻译文种和翻译文种到待翻译文种两个方向,双向运行 GIZA++工具并应用启发式的修正规则为每一个句子对获取一个多对多 的词对齐; b)使用SRILM工具对训练语料的翻译文种进行训练,生成三元或者 多元的语言模型; c)在训练语料词对齐结果的基础上,抽取连续和非连续的短语翻译对 并统计其概率信息; d)在训练语料词对齐结果的基础上,抽取连续短语的重排序实例,训 练最大熵分类器; e)利用最小错误训练算法在开发集上训练翻译模型参数; 翻译步骤包括: 在抽取的连续和非连续短语翻译对以及训练出的最大熵分类器的基 础上,应用翻译模型参数,使用规则对待翻译文种句子进行翻译及顺序 的调整,直至完成解码、翻译。 【当前权利人】中国科学院自动化研究所 【当前专利权人地址】北京市海淀区中关村东路95号 【统一社会信用代码】12100000400010945B 【被引证次数】18 【被他引次数】18.0 【家族被引证次数】18

  • 【摘要】本发明公开了一种番茄树式栽培营养生长与生殖生长的调控方法。主要是在温室中利用营养生长期营养液和生殖生长期营养液,结合控制营养液的温度、pH和EC以及温室的温度、湿度、光照强度等对营养生长期和生殖生长期的生长发育进行调控,从而达到使番
  • 【摘要】本发明公开一种抛料机包括:机体,所述机体上设有加料口和抛料口;位于机体内的抛料胶带;可转动地设置在所述机体内、支承抛料带的带轮;和气幕装置,所述气幕装置设置在机体的抛料口附近以在朝向离开机体的方向喷出气体。根据本发明的抛料机,能够降
  • 【摘要】: 本实用新型涉及了一种中央空调风管灰尘清洗机器人,主要包括:用于移动的小车;用于操作人员观看的视频监视模块,前摄像头和后摄像置于所述小车体上;用于控制行走电机和升降电机的控制器;用于测定距离的超声波距离传感器,置于所述清洗臂上,和
  • 【摘要】本发明提出了一种时域同步正交频分复用(TDS-OFDM)系统中 CP-OFDM信号重构的方法,该方法在TDS-OFDM系统的发送端设 计了一种新的帧结构,在TDS-OFDM系统的接收端则利用新设计的 帧结构,通过简单的加减运算完成帧
  • 【摘要】本发明公开了一种识别转子叶片连续碰磨数目的方法,此方法通过四步来实现:1.绘制时域响应信号曲线,查找响应异常区段,记录该区段的时间域、幅值范围和响应峰值的数目。2.绘制三维谱图;3.找出上一步记录的时间点对应的时域响应曲线并做出自谱
  • 【摘要】本发明公开了一种打印控制器客户端的模板参数互斥处理方法及系统,属于图形图像打印领域。该方法包括如下步骤:根据模板参数的互斥关系编写互斥描述XML文件;用户在界面设置模板参数的界面组件;判断用户的设置是否引发互斥;给用户提供方案选择解