行业新闻

基于领域知识的文本分类特征选择及权重计算方法专利

发布时间:2026-06-08

【摘要】本发明涉及人工智能技术领域，特别是一种基于领域知识的文本分类特征选择及权重计算方法。该方法结合样本统计与领域术语构造领域分类特征空间，利用领域内部知识关系，计算术语间的相似度，依此来调整分类特征向量相应特征维权重。并采用支持向量机学习算法，建立领域文本分类模型，实现领域文本分类。云南旅游领域与非旅游领域文本分类实验结果表明，该方法分类准确率比改进TFIDF特征权重方法的文本分类效果提高了 4个百分点。【专利类型】发明授权【申请人】昆明理工大学【申请人类型】学校【申请人地址】650093云南省昆明市五华区学府路253号【申请人地区】中国【申请人城市】昆明市【申请人区县】五华区【申请号】CN200810058517.0 【申请日】2008-06-12 【申请年份】2008 【公开公告号】CN100583101C 【公开公告日】2010-01-20 【公开公告年份】2010 【授权公告号】CN100583101C 【授权公告日】2010-01-20 【授权公告年份】2010.0 【IPC分类号】G06F17/30; G06F17/27; G06N1/00; G06N99/00 【发明人】余正涛; 韩露; 向凤红; 万舟; 熊新【主权项内容】1.一种基于领域知识的文本分类特征选择及权重计算方法，其特征在于按以下步骤进行： (1)收集领域文本和非领域文本作为训练语料和测试语料； (2)文本的预处理：分词，去除停用词，词频统计，文档频率统计；首先对文本进行中文分词处理，采用中科院计算所的分词系统接口实现，并在此基础上借助于领域词库，进行领域词分词处理，并进行领域词标识，文本分词完成后，去掉文本中经常出现的“了”、 “呢”、“的”、“怎样”停用词，然后扫描文档，统计出每个词的词频、领域内文档频率及非领域内文档频率； (3)在文本预处理完成后，初步利用文档频率去掉低频词，选取1000个特征词，构成分类特征空间；特征词的权重计算采用改进TFIDF＝TF×log(m÷(m+k)×N)方法，其中TF表示某一特征项的词频，m表示该特征项的领域内文档频率，k表示该特征项的非领域内文档频率，N表示全部文档数； (4)在步骤(3)的基础上选取特征空间并扩展领域术语到特征空间，形成分类特征空间并采用改进TFIDF方法进行特征权重计算；即将领域词库中出现的所有领域术语直接扩展到分类特征空间中； (5)在步骤(3)的基础上选取分类特征空间，并利用改进TFIDF方法结合领域知识关系对特征权重进行计算和调整；即通过文档频率DF方法获取特征空间后，利用“知网” 中领域术语与特征词之间的相关性对特征词权重进行调整，在有限的特征空间内对特征词权重进行调整进而改进文本分类效果； (6)利用特征空间选择及特征权重计算方法，用支持向量机SVM机器学习算法，训练文本分类器，构建领域文本分类模型，并对领域文本进行文本分类实验验证。【当前权利人】昆明理工大学【当前专利权人地址】云南省昆明市五华区学府路253号【统一社会信用代码】125300004312044864 【引证次数】4.0 【被引证次数】1 【他引次数】4.0 【被他引次数】1.0 【家族引证次数】4.0 【家族被引证次数】91

一种适合孕妇饮用的液态奶及其制备方法
【摘要】本发明涉及一种液态奶，特别是一种适合孕妇饮用的液态奶及其制备方法。属于乳品技术领域。本发明所提供的适合孕妇饮用的液态奶，每100克包含如下重量的组分：牛奶(或复原乳)40.00-75.00克，脱脂奶粉3.00-4.50克，糖5.20
一种石油磺酸盐驱油剂的制备方法
【摘要】本发明涉及一种石油磺酸盐驱油剂的制备方法，将酮苯去蜡油和糠醛抽出油按1∶0.01～1∶0.5重量混合，进入膜式或者釜式反应器进行磺化反应，磺化剂为SO3气体，经过露点为-60℃以下的干燥空气或者惰性气体按体积比稀释成浓度为1.
超高缩率腈纶膨体毛条生产方法
【摘要】本发明涉及一种超高缩率腈纶膨体毛条生产方法，使用3.33dtex高收缩丝束和普通腈纶丝束，重量比为45％∶55％；拉断机制条：拉断工序喂入展幅≥18cm；高缩拉断条的装筒高度≤半筒；在拉断机出条输送带处设一个吸风装置，采用有孔
钢筋绑扎机
【摘要】本发明涉及一种钢筋绑扎机，包括机壳、扳动机构和设于机壳内部的多连杆带丝机构、扎丝机构和夹丝断丝机构，所述扳动机构铰接在机壳上，所述多连杆带丝机构包括传动齿轮I、II、传动连杆和多连杆机构，传动齿轮III与扳动机构的齿轮臂啮合；
互动按钮
【摘要】本发明公开了一种互动按钮，其特征在于，由操作面、传感器、控制器、遥控彩灯及主机组成，当用户肢体接近或触摸到某窗口位置时，该窗口位置的传感器信号会发生变化，控制器通过解析各窗口位置传感器的信号，判断出用户的操作位置和动作，把相应信号送
具有轮胎保护功能的轮胎中央充放气系统
【摘要】本发明属于车辆领域，具体公开一种具有轮胎保护功能的轮胎中央充放气系统，气源与一个电磁阀进气孔连通，该电磁阀出气孔与第二气路连通，第二气路通过第一气路与轮胎连通；第二气路上设有并联的低压接通高压断开式压力开关和低压断开高压闭合式

产品分类

最新文章

基于领域知识的文本分类特征选择及权重计算方法专利