24小时服务热线
效率高速
品质保障
厂家直供
售后保障
行业新闻
当前位置:行业新闻>

中文比较句分类器模型生成、中文比较句识别方法及装置专利

发布时间:2026-06-13

【摘要】 本发明公开了一种中文比较句分类器模型生成、中文比较句识别方法及装置,包括:将数据集各句子中每一个包含设定的比较关键词的分句转化成一个序列,并为序列建立与其对应分句所属句子相同的类别标记;得到序列集;采用序列模式挖掘算法从序列集中挖掘出若干比较模式,组成比较模式集;用每一个序列逐一匹配比较模式集中的各比较模式,根据匹配结果及比较模式总数量,得到与每一个序列对应的一组特征向量;根据所述特征向量及与其对应的所述序列的类别标记,生成分类器模型;然后通过得到的比较模式集和分类器模型,识别读入的未知类别的句子,确定其是否是比较句。通过自动学习比较句的模式特征,生成分类器模型,自动、有效地识别文本中的比较句。 【专利类型】发明申请 【申请人】北京大学; 北大方正集团有限公司; 北京方正电子政务信息科技有限公司 【申请人类型】企业,学校 【申请人地址】100871 北京市海淀区颐和园路5号 【申请人地区】中国 【申请人城市】北京市 【申请人区县】海淀区 【申请号】CN200810224334.1 【申请日】2008-10-17 【申请年份】2008 【公开公告号】CN101727462A 【公开公告日】2010-06-09 【公开公告年份】2010 【授权公告号】CN101727462B 【授权公告日】2012-04-25 【授权公告年份】2012.0 【IPC分类号】G06F17/30; G06F17/27 【发明人】黄小江; 万小军; 杨建武; 肖建国 【主权项内容】一种中文比较句分类器模型生成方法,其特征在于,包括:将数据集各句子中每一个包含设定的比较关键词的分句转化成一个序列,并为所述序列建立与其对应分句所属句子相同的类别标记,所述序列包含按照对应分句中各非关键词和关键词在所述对应分句中的顺序排列的所述非关键词的词性标识项和所述关键词及其词性标识的组合项;以及由所述序列组成序列集;采用序列模式挖掘算法从所述序列集中挖掘出比较模式,由所述比较模式组成比较模式集;用每一个所述序列逐一匹配所述比较模式集中的各比较模式,根据匹配结果及所述比较模式总数量,得到与每一个所述序列对应的一组特征向量;根据所述特征向量及与其对应的所述序列的类别标记,生成分类器模型。 【当前权利人】北京大学; 新方正控股发展有限责任公司; 北京方正电子政务信息科技有限公司 【当前专利权人地址】北京市海淀区颐和园路5号; 广东省珠海市横琴新区华金街58号横琴国际金融中心大厦3007; 【专利权人类型】公立; 其他有限责任公司; 有限责任公司 【统一社会信用代码】12100000400002259P; 91110108101974963M; 91110108676602263P 【被引证次数】13 【被他引次数】13.0 【家族引证次数】1.0 【家族被引证次数】13

  • 【摘要】一种采用碳酸二甲酯作为吸收剂的脱碳工艺,该工艺首先将含有CO2的原料气经过碳酸二甲酯吸收脱碳,然后使吸收CO2后的吸收剂富液经过两级节流膨胀和氮气解吸再生,节流膨胀产生的CO2气体经过水洗以及解吸后氮气经过尾气净化排出界区。本发明开
  • 【摘要】本发明提供了一种分离自车蝗体内的微孢子株系及其用途。该株系具有很强的特异性,分别对草原蝗虫和农田飞蝗具有特异性致死作用,致死效果较好。本发明的分离自车蝗体内的微孢子株系可用于防治农田飞蝗、草原蝗虫、车蝗、竹蝗、稻蝗等的数十种蝗虫。【
  • 【摘要】本发明公开了一种异构无线网络分级联合接纳控制的方法,包括:当业务到达终端时,终端在每种网络中获得信号强度最优的网络,并将所获得各个不同网络的资源信息发送至各个本地接纳控制点LCAC和联合呼叫接纳控制接入点JCAC;各个LCAC采用自
  • 【摘要】本发明是一种在低温下为半导体样品施加连续可调单轴应力的方法。所述方法包括选取一压电陶瓷致动器,所述压电陶瓷致动器能够通过对改变压电陶瓷的偏压调节所施加的应力;将两个“U”形紫铜帽固定在所述压电陶瓷致动器两端,用于固定样品和导热;使用
  • 【摘要】本发明涉及一种抓具,具体公开一种新控制棒组件抓具,抓具体中心设有与其底部相通的轴向孔,孔内设有滑杆,抓具体底部的凹槽内设有抓爪,抓爪通过销轴与抓具体连接、且抓爪能够绕销轴转动,滑杆底部设有一个与抓爪内侧接触的凸台;抓具体中部设有与轴
  • 【摘要】本发明公开了一种通过加密数据文件实现软件保护的方法。本发明在应 用程序发布时对其中的数据文件进行加密处理,当在程序运行中需要使用数 据文件内容时通过软件保护装置进行动态解密。由于解密密钥保存在软件保 护装置中,且解密过程是在软件保护