24小时服务热线
效率高速
品质保障
厂家直供
售后保障
行业新闻
当前位置:行业新闻>

基于领域知识的文本分类特征选择及权重计算方法专利

发布时间:2026-06-08

【摘要】 本发明涉及人工智能技术领域,特别是一种基于领域知识的文本分类特征选择及权重 计算方法。该方法结合样本统计与领域术语构造领域分类特征空间,利用领域内部知识关 系,计算术语间的相似度,依此来调整分类特征向量相应特征维权重。并采用支持向量机 学习算法,建立领域文本分类模型,实现领域文本分类。云南旅游领域与非旅游领域文本 分类实验结果表明,该方法分类准确率比改进TFIDF特征权重方法的文本分类效果提高了 4个百分点。 【专利类型】发明授权 【申请人】昆明理工大学 【申请人类型】学校 【申请人地址】650093云南省昆明市五华区学府路253号 【申请人地区】中国 【申请人城市】昆明市 【申请人区县】五华区 【申请号】CN200810058517.0 【申请日】2008-06-12 【申请年份】2008 【公开公告号】CN100583101C 【公开公告日】2010-01-20 【公开公告年份】2010 【授权公告号】CN100583101C 【授权公告日】2010-01-20 【授权公告年份】2010.0 【IPC分类号】G06F17/30; G06F17/27; G06N1/00; G06N99/00 【发明人】余正涛; 韩露; 向凤红; 万舟; 熊新 【主权项内容】1.一种基于领域知识的文本分类特征选择及权重计算方法,其特征在于按以下步骤 进行: (1)收集领域文本和非领域文本作为训练语料和测试语料; (2)文本的预处理:分词,去除停用词,词频统计,文档频率统计;首先对文本进 行中文分词处理,采用中科院计算所的分词系统接口实现,并在此基础上借助于领域词库, 进行领域词分词处理,并进行领域词标识,文本分词完成后,去掉文本中经常出现的“了”、 “呢”、“的”、“怎样”停用词,然后扫描文档,统计出每个词的词频、领域内文档频率及 非领域内文档频率; (3)在文本预处理完成后,初步利用文档频率去掉低频词,选取1000个特征词,构 成分类特征空间;特征词的权重计算采用改进TFIDF=TF×log(m÷(m+k)×N)方法,其 中TF表示某一特征项的词频,m表示该特征项的领域内文档频率,k表示该特征项的非领 域内文档频率,N表示全部文档数; (4)在步骤(3)的基础上选取特征空间并扩展领域术语到特征空间,形成分类特征 空间并采用改进TFIDF方法进行特征权重计算;即将领域词库中出现的所有领域术语直接 扩展到分类特征空间中; (5)在步骤(3)的基础上选取分类特征空间,并利用改进TFIDF方法结合领域知识 关系对特征权重进行计算和调整;即通过文档频率DF方法获取特征空间后,利用“知网” 中领域术语与特征词之间的相关性对特征词权重进行调整,在有限的特征空间内对特征词 权重进行调整进而改进文本分类效果; (6)利用特征空间选择及特征权重计算方法,用支持向量机SVM机器学习算法,训 练文本分类器,构建领域文本分类模型,并对领域文本进行文本分类实验验证。 【当前权利人】昆明理工大学 【当前专利权人地址】云南省昆明市五华区学府路253号 【统一社会信用代码】125300004312044864 【引证次数】4.0 【被引证次数】1 【他引次数】4.0 【被他引次数】1.0 【家族引证次数】4.0 【家族被引证次数】91

  • 【摘要】本发明涉及一种液态奶,特别是一种适合孕妇饮用的液态奶及其制备方法。属于乳品技术领域。本发明所提供的适合孕妇饮用的液态奶,每100克包含如下重量的组分:牛奶(或复原乳)40.00-75.00克,脱脂奶粉3.00-4.50克,糖5.20
  • 【摘要】本发明涉及一种石油磺酸盐驱油剂的制备方法,将酮苯去蜡油和糠 醛抽出油按1∶0.01~1∶0.5重量混合,进入膜式或者釜式反应器进行磺 化反应,磺化剂为SO3气体,经过露点为-60℃以下的干燥空气或者惰性 气体按体积比稀释成浓度为1.
  • 【摘要】本发明涉及一种超高缩率腈纶膨体毛条生产方法,使用3.33dtex高收缩 丝束和普通腈纶丝束,重量比为45%∶55%;拉断机制条:拉断工序喂入 展幅≥18cm;高缩拉断条的装筒高度≤半筒;在拉断机出条输送带处设一 个吸风装置,采用有孔
  • 【摘要】本发明涉及一种钢筋绑扎机,包括机壳、扳动机构和设于机壳内部的多连 杆带丝机构、扎丝机构和夹丝断丝机构,所述扳动机构铰接在机壳上,所述多 连杆带丝机构包括传动齿轮I、II、传动连杆和多连杆机构,传动齿轮III与扳 动机构的齿轮臂啮合;
  • 【摘要】本发明公开了一种互动按钮,其特征在于,由操作面、传感器、控制器、遥控彩灯及主机组成,当用户肢体接近或触摸到某窗口位置时,该窗口位置的传感器信号会发生变化,控制器通过解析各窗口位置传感器的信号,判断出用户的操作位置和动作,把相应信号送
  • 【摘要】本发明属于车辆领域,具体公开一种具有轮胎保护功能的轮胎中央充放气 系统,气源与一个电磁阀进气孔连通,该电磁阀出气孔与第二气路连通,第二 气路通过第一气路与轮胎连通;第二气路上设有并联的低压接通高压断开式压 力开关和低压断开高压闭合式