【摘要】 本发明为一种汉英机构名翻译方法和装置,将待翻译的中文机构名 使用基于字的条件随机场模型切分为四种语块,并对四种语块进行分词 处理。选择具有一定信息量和翻译置信度的词进行统计翻译,得到机构 名中若干词的翻译结果,并同待翻译的中文机构名构成一个双语查询。 借助引擎对该查询进行检索,得到若干中英双语混合网页的片段。 抽取出网页片段中的英文,并借助中英文非对称对齐技术,筛选英文句 子中与该中文机构名对齐概率最高的片段。通过统计每个片段出现的频 率等信息,确定一个最优片段作为中文机构名的翻译。该方法克服统计 翻译模型在机构名翻译过程中容易出现的结构、顺序和选词错误,机构 名翻译精确率提高了35.26%。 【专利类型】发明申请 【申请人】中国科学院自动化研究所 【申请人类型】科研单位 【申请人地址】100080北京市海淀区中关村东路95号 【申请人地区】中国 【申请人城市】北京市 【申请人区县】海淀区 【申请号】CN200810222335.2 【申请日】2008-09-17 【申请年份】2008 【公开公告号】CN101676898A 【公开公告日】2010-03-24 【公开公告年份】2010 【授权公告号】CN101676898B 【授权公告日】2011-12-07 【授权公告年份】2011.0 【IPC分类号】G06F17/28; G06F17/30 【发明人】赵军; 杨帆 【主权项内容】1、一种借助网络知识辅助的汉英机构名翻译方法,包括步骤如下: 步骤S1:使用基于字的条件随机场序列标注模型将待翻译的中文机 构名切分为四种语块的序列,并对每个语块分别进行分词处理,得到一 个中文机构名的分词序列; 步骤S2:从中文机构名的分词序列中选择若干词,使用统计翻译模 块将所选择中文机构名的待翻译中文词语翻译为对应的英文单词并生成 查询; 步骤S3:将待翻译的中文机构名和翻译得到的部分单词组合为一个 查询,利用引擎得到包含该查询的若干网页片段,提取网页片段中 的英文部分; 步骤S4:将待翻译的中文机构名与提取的英文句子进行非对称对齐, 计算英文句子中每个片段与中文机构名的对齐概率,并结合所述片段出 现的频率信息以及与中文机构名的距离,筛选出最优翻译候选。。 【当前权利人】中国科学院自动化研究所 【当前专利权人地址】北京市海淀区中关村东路95号 【统一社会信用代码】12100000400010945B 【被引证次数】27 【被他引次数】27.0 【家族引证次数】5.0 【家族被引证次数】27