【摘要】 本发明公开了一种采用层次管道过滤器体系结构的多语言信息抽取方法。该方法中,对于待处理的语言材料,首先由多语种自动识别构件进行判别,然后由简单命名实体识别构件识别时间、日期、百分比、金额这四种简单命名实体,由人名地名识别构件提取人名和地名;然后由语种独立的分词构件进行分词,由词性标注构件进行词性标注;再由组织机构名识别构件进行组织机构名的识别,由最长名词短语识别构件进行最长名词短语的识别。本发明提供了信息抽取系统的实用基础框架,成功解决了多个相互交叉重叠的算法的重用和泛化问题,改进了软件的可重用、可维护和可扩展性能,提高了信息抽取应用系统研发效率。 【专利类型】发明申请 【申请人】华建机器翻译有限公司 【申请人类型】企业 【申请人地址】100083 北京市海淀区北四环中路257号 【申请人地区】中国 【申请人城市】北京市 【申请人区县】海淀区 【申请号】CN200810239836.1 【申请日】2008-12-19 【申请年份】2008 【公开公告号】CN101751385A 【公开公告日】2010-06-23 【公开公告年份】2010 【授权公告号】CN101751385B 【授权公告日】2013-02-06 【授权公告年份】2013.0 【IPC分类号】G06F17/27 【发明人】黄河燕 【主权项内容】一种采用层次管道过滤器体系结构的多语言信息抽取方法,包括作为任务层构件的多语种自动识别构件、简单命名实体识别构件、语种独立的分词构件、词性标注构件、人名地名识别构件、组织机构名识别构件和最长名词短语识别构件实现,各构件之间通过连接件传递数据流,其特征在于:(1)对于待处理的语言材料,首先由所述多语种自动识别构件进行判别,然后由所述简单命名实体识别构件识别时间、日期、百分比、金额这四种简单命名实体,由所述人名地名识别构件提取人名和地名;(2)在步骤(1)的基础上,由语种独立的分词构件进行分词,由所述词性标注构件进行词性标注;(3)由所述组织机构名识别构件进行组织机构名的识别,由所述最长名词短语识别构件进行最长名词短语的识别。 【当前权利人】华建机器翻译有限公司 【当前专利权人地址】北京市海淀区北四环中路257号 【专利权人类型】有限责任公司(法人独资) 【统一社会信用代码】91110108710925470H 【被引证次数】15 【被他引次数】15.0 【家族引证次数】3.0 【家族被引证次数】15