24小时服务热线
效率高速
品质保障
厂家直供
售后保障
行业新闻
当前位置:行业新闻>

一种汉英短语翻译对自动抽取与过滤方法专利

发布时间:2026-06-14

【摘要】 本发明汉英短语翻译对自动抽取与过滤方法,是对原始汉、英双语句对提取划分语块和对候选短语进行过滤的特征信息;根据不同的特征信息确定划分语块锚点,将原始汉、英句对划分为多个单语语块;利用原始汉、英双语句对的词对齐信息在语块内进行候选短语的抽取;利用候选短语的出现频率的特征信息来对生成的候选短语过滤,生成需要的短语对。本发明采用遍历语块内的短语抽取来取代现有遍历整句进行抽取的方法,对于空词的无限制扩展尤其有用,从而有效的解决了目前短语抽取量过大对于存储空间的要求,并且有效的过滤掉了很多噪音短语。本发明能够直接根据当前句对的固定词对齐生成多组短语,从而在满足精度的前提下提高了短语对的召回率。 【专利类型】发明授权 【申请人】中国科学院自动化研究所 【申请人类型】科研单位 【申请人地址】100080 北京市海淀区中关村东路95号 【申请人地区】中国 【申请人城市】北京市 【申请人区县】海淀区 【申请号】CN200810055782.3 【申请日】2008-01-09 【申请年份】2008 【公开公告号】CN101482860B 【公开公告日】2010-12-01 【公开公告年份】2010 【授权公告号】CN101482860B 【授权公告日】2010-12-01 【授权公告年份】2010.0 【IPC分类号】G06F17/27; G06F17/28 【发明人】宗成庆; 周玉 【主权项内容】1.一种汉英短语翻译对自动抽取与过滤方法,其特征在于,自动抽取与过滤的步骤包括: 步骤1:对原始汉、英双语句对提取划分语块的特征信息,并提取对候选短语进行过滤的特征信息;所述提取划分语块的特征信息,是两个相邻单语单词间的互信息特征、双语单词间的互信息特征、t-检验(t-test)特征、χ2检验特征、Dice系数特征;提取过滤候选短语的特征,所述过滤候选短语的特征包括:单语候选短语的出现频率特征、双语候选短语的联合出现概率特征、单语候选短语词性出现系列频率特征、单语候选短语词类出现系列频率特征、双语候选短语词性系列的联合出现概率特征、双语候选短语词类系列的联合出现概率特征; 步骤2:根据不同的特征信息确定划分语块锚点,将原始汉、英双语句对划分为多个单语语块;所述确定划分语块锚点的步骤包括: 步骤21:分别利用相邻两个汉语或英语单词之间的互信息来分别对汉、英句子进行单语语块的划分;相邻单词间的互信息比较了这两个单词的联合概率与这两个单词的独立概率: 如果两个单词间存在较强的邻接关系,其联合概率将远远大于独立概率,从而互信息远远大于0; 如果不存在较强的邻接这种关系,则两个单词的联合概率和两个单词的独立概率基本相等,互信息约等于0; 如果以互补出现,则互信息远远小于0,利用两个单词之间的互信息在一定程度上反映这两个单词的联系紧密性,选择相邻词的互信息来作为划分锚点的依据; 步骤22:确定划分锚点:首先计算出当前汉英句子所有单语相邻两个单词间的互信息,然后找到那些互信息为负数的点的个数;如果互信息为负数的点的个数大于设定的阈值,则利用互信息为负数的点的位置作为初始划分锚点,并给出该点的标记,否则选择最小的几个点作为划分锚点,这最小的几个点的个数就是设定的阈值;设定阈值为句子长度除以最大短语长度; 步骤23:将最大短语长度与奥赫(Och)方法抽取短语的最大短语长度保持一致,用于与奥赫抽取方法进行对比的公正性; 步骤3:利用原始汉、英双语句对的词对齐信息在语块内进行候选短语的抽取;所述根据词对齐信息在语块内进行候选短语的抽取的步骤包括: 步骤31:针对当前汉英句对,结合汉英句对在GIZA++工具包下生成的词对齐,利用生成的划分锚点信息确定划分点,然后利用划分点作为抽取候选短语的初始或终止点,具体操作是:找到第一个划分锚点的位置,确定汉语或英语第一个语块,遍历汉语或英语的第一个语块下所有的候选短语,结合词对齐信息,根据奥赫短语抽取方法进行遍历该语块内部的所有候选短语对抽取; 步骤32:执行完第一个语块后,重复步骤31执行下一个语块的候选短语对的抽取,直至处理完原始句子包含的所有划分语块; 步骤33:最后组合所有语块的候选短语,生成该原始汉、英双语句对的所有候选短语对; 所述根据词对齐信息在语块内进行候选短语的抽取的步骤还包括:根据不同方向的限 制条件生成三组不同的短语为:汉语方向在语块内遍历短语、英语方向在语块内遍历短语和双方向都只能在语块内遍历短语;三组不同的短语呈现互补趋势,对产生的短语对以更高的权重,用于计算短语对概率打分时给予权重高的短语以更高的概率打分,在解码的时提高此类短语的位置,用于得到更好的翻译结果; 步骤4:利用候选短语的出现频率的特征信息来对生成的候选短语进一步过滤,生成需要的短语对;所述对生成的候选短语进一步过滤的步骤包括: 步骤41:利用额外的特征对生成的候选短语进行进一步的过滤,利用单语候选短语的出现频率进行约束,或利用更多的特征来进行约束过滤; 步骤42:利用单语候选短语的出现频率来进一步过滤时采用的启发函数,或逐步加入更细化的特征信息来设计启发函数;利用候选短语的出现次数来启发就是:如果候选短语的出现次数大于设定的阈值也就是短语最少出现次数,则舍弃不用;如果是新闻领域,则对那些出现次数为1的单个词短语进行了召回,用于新闻领域语料的多变性及新词系列; 对于两个单词w1,w2间的互信息用如下公式来表示: 其中p(w1,w2)表示单词w1w2的联合概率,p(w1)表示单词w1的独立概率,p(w2)表示单词w2的独立概率;c(w1,w2)表示单词w1w2同现的次数,c(w1)表示单词w1出现的次数,c(w2)表示单词w2出现的次数;N表示语料库的规模,即所有单词的个数。 【当前权利人】中国科学院自动化研究所 【当前专利权人地址】北京市海淀区中关村东路95号 【统一社会信用代码】12100000400010945B 【引证次数】2.0 【自引次数】1.0 【他引次数】1.0 【家族引证次数】2.0 【家族被引证次数】12

  • 【摘要】本发明提供了一种侧流式膜生物反应器装置及利用该装置的污水处理方法,该装置依次包括:调节池(10-2)、至少一个第一生物反应器(20-0),超滤系统(40-0),其中,所述第一生物反应器(20-0)包括第一好氧池(20-2)、第一缺氧
  • 【摘要】本发明涉及客户端服务器、智能终端、网络游戏系统和方法。其中,客户端服务器与客户端和主服务器通信,并包括:本地数据库,用于存储客户端的信息;判断模块,用于判断客户端的请求是否能在客户端服务器的本地进行处理;和本地逻辑模块,用于在判断模
  • 【摘要】本发明提供了一种用于等离子显示器的电极制作方法,所述等 离子显示器包括基板及设置在所述基板上的电极,其中,所述电极 制作方法包括以下步骤:在所述基板上设置电极材料层,所述电极 材料层具有对应于所述电极的预定图案;对形成有所述电极材料
  • 【摘要】一种基于DSP和FPGA的组合导航计算机,由数据输入模块、数据采集模块、导航解算模块和数据输出模块组成,用于GPS和惯性导航系统的组合导航。数据输入模块实现输入信号的电平转换,数据采集模块利用FPGA实现IMU脉冲信号与GPS信号的
  • 【摘要】本发明提供了一种用来进行植物蛋白发酵的乳酸杆菌、筛选方法及其在固体发酵中应用,用这种方法分离的保藏号为CGMCC No.2426的乳酸杆菌菌株,该菌株既用于脱除植物蛋白中的大豆凝集素、胰蛋白酶抑制因子、棉酚等的抗营养因子,又可以作为
  • 【摘要】本发明属于废印刷电路板的回收利用,特别涉及分离废印刷电路板中玻璃纤维布与金属层(如铜箔、铜线等)的方法。根据废印刷电路板的结构与要求的不同,选择合适的热介质;在室温至250℃下,将废印刷电路板置于热介质中,使玻璃纤维布与金属层之间的