【摘要】 本发明公开了一种基于领域本体结合机器学习模型的汉语文本共指消解方法,包括如下步骤:(1)构建完成领域本体;(2)输入待处理的汉语文本;(3)对步骤(2)中的汉语文本进行分词与词性标注处理;(4)将汉语文本中的命名实体分为常规命名实体和领域命名实体两类,利用步骤(1)中构建的领域本体通过形式化实例获取词性规则模板,结合CRF模型,针对领域命名实体进行识别处理;(5)针对领域命名实体之外的普通名词短语进行归并处理;(6)利用步骤(1)中构建的领域本体,获取语义类特征,结合机器学习模型,针对领域命名实体及普通名词短语进行共指消解处理。本汉语文本共指消解方法对人工成本要求较低,能够在短时间内获取高准确率的共指消解处理结果。 【专利类型】发明申请 【申请人】华建机器翻译有限公司 【申请人类型】企业 【申请人地址】100083 北京市海淀区北四环中路257号 【申请人地区】中国 【申请人城市】北京市 【申请人区县】海淀区 【申请号】CN200810246639.2 【申请日】2008-12-31 【申请年份】2008 【公开公告号】CN101770453A 【公开公告日】2010-07-07 【公开公告年份】2010 【IPC分类号】G06F17/27 【发明人】黄河燕 【主权项内容】一种基于领域本体结合机器学习模型的汉语文本共指消解方法,其特征在于:(1)构建完成领域本体;(2)输入待处理的汉语文本;(3)对步骤(2)中的汉语文本进行分词与词性标注处理;(4)将汉语文本中的命名实体分为常规命名实体和领域命名实体两类,利用步骤(1)中构建的领域本体通过形式化实例获取词性规则模板,结合条件随机场模型,针对领域命名实体进行识别处理;(5)针对领域命名实体之外的普通名词短语进行归并处理;(6)利用步骤(1)中构建的领域本体,获取语义类特征,结合机器学习模型,针对领域命名实体及普通名词短语进行共指消解处理。 【当前权利人】华建机器翻译有限公司 【当前专利权人地址】北京市海淀区北四环中路257号 【专利权人类型】有限责任公司(法人独资) 【统一社会信用代码】91110108710925470H 【被引证次数】55 【被他引次数】55.0 【家族被引证次数】55