【摘要】 本发明公开了一种中文比较句分类器模型生成、中文比较句识别方法及装置,包括:将数据集各句子中每一个包含设定的比较关键词的分句转化成一个序列,并为序列建立与其对应分句所属句子相同的类别标记;得到序列集;采用序列模式挖掘算法从序列集中挖掘出若干比较模式,组成比较模式集;用每一个序列逐一匹配比较模式集中的各比较模式,根据匹配结果及比较模式总数量,得到与每一个序列对应的一组特征向量;根据所述特征向量及与其对应的所述序列的类别标记,生成分类器模型;然后通过得到的比较模式集和分类器模型,识别读入的未知类别的句子,确定其是否是比较句。通过自动学习比较句的模式特征,生成分类器模型,自动、有效地识别文本中的比较句。 【专利类型】发明申请 【申请人】北京大学; 北大方正集团有限公司; 北京方正电子政务信息科技有限公司 【申请人类型】企业,学校 【申请人地址】100871 北京市海淀区颐和园路5号 【申请人地区】中国 【申请人城市】北京市 【申请人区县】海淀区 【申请号】CN200810224334.1 【申请日】2008-10-17 【申请年份】2008 【公开公告号】CN101727462A 【公开公告日】2010-06-09 【公开公告年份】2010 【授权公告号】CN101727462B 【授权公告日】2012-04-25 【授权公告年份】2012.0 【IPC分类号】G06F17/30; G06F17/27 【发明人】黄小江; 万小军; 杨建武; 肖建国 【主权项内容】一种中文比较句分类器模型生成方法,其特征在于,包括:将数据集各句子中每一个包含设定的比较关键词的分句转化成一个序列,并为所述序列建立与其对应分句所属句子相同的类别标记,所述序列包含按照对应分句中各非关键词和关键词在所述对应分句中的顺序排列的所述非关键词的词性标识项和所述关键词及其词性标识的组合项;以及由所述序列组成序列集;采用序列模式挖掘算法从所述序列集中挖掘出比较模式,由所述比较模式组成比较模式集;用每一个所述序列逐一匹配所述比较模式集中的各比较模式,根据匹配结果及所述比较模式总数量,得到与每一个所述序列对应的一组特征向量;根据所述特征向量及与其对应的所述序列的类别标记,生成分类器模型。 【当前权利人】北京大学; 新方正控股发展有限责任公司; 北京方正电子政务信息科技有限公司 【当前专利权人地址】北京市海淀区颐和园路5号; 广东省珠海市横琴新区华金街58号横琴国际金融中心大厦3007; 【专利权人类型】公立; 其他有限责任公司; 有限责任公司 【统一社会信用代码】12100000400002259P; 91110108101974963M; 91110108676602263P 【被引证次数】13 【被他引次数】13.0 【家族引证次数】1.0 【家族被引证次数】13