【摘要】 本发明涉及人工智能技术领域,特别是一种基于领域知识的文本分类特征选择及权重 计算方法。该方法结合样本统计与领域术语构造领域分类特征空间,利用领域内部知识关 系,计算术语间的相似度,依此来调整分类特征向量相应特征维权重。并采用支持向量机 学习算法,建立领域文本分类模型,实现领域文本分类。云南旅游领域与非旅游领域文本 分类实验结果表明,该方法分类准确率比改进TFIDF特征权重方法的文本分类效果提高了 4个百分点。 【专利类型】发明授权 【申请人】昆明理工大学 【申请人类型】学校 【申请人地址】650093云南省昆明市五华区学府路253号 【申请人地区】中国 【申请人城市】昆明市 【申请人区县】五华区 【申请号】CN200810058517.0 【申请日】2008-06-12 【申请年份】2008 【公开公告号】CN100583101C 【公开公告日】2010-01-20 【公开公告年份】2010 【授权公告号】CN100583101C 【授权公告日】2010-01-20 【授权公告年份】2010.0 【IPC分类号】G06F17/30; G06F17/27; G06N1/00; G06N99/00 【发明人】余正涛; 韩露; 向凤红; 万舟; 熊新 【主权项内容】1.一种基于领域知识的文本分类特征选择及权重计算方法,其特征在于按以下步骤 进行: (1)收集领域文本和非领域文本作为训练语料和测试语料; (2)文本的预处理:分词,去除停用词,词频统计,文档频率统计;首先对文本进 行中文分词处理,采用中科院计算所的分词系统接口实现,并在此基础上借助于领域词库, 进行领域词分词处理,并进行领域词标识,文本分词完成后,去掉文本中经常出现的“了”、 “呢”、“的”、“怎样”停用词,然后扫描文档,统计出每个词的词频、领域内文档频率及 非领域内文档频率; (3)在文本预处理完成后,初步利用文档频率去掉低频词,选取1000个特征词,构 成分类特征空间;特征词的权重计算采用改进TFIDF=TF×log(m÷(m+k)×N)方法,其 中TF表示某一特征项的词频,m表示该特征项的领域内文档频率,k表示该特征项的非领 域内文档频率,N表示全部文档数; (4)在步骤(3)的基础上选取特征空间并扩展领域术语到特征空间,形成分类特征 空间并采用改进TFIDF方法进行特征权重计算;即将领域词库中出现的所有领域术语直接 扩展到分类特征空间中; (5)在步骤(3)的基础上选取分类特征空间,并利用改进TFIDF方法结合领域知识 关系对特征权重进行计算和调整;即通过文档频率DF方法获取特征空间后,利用“知网” 中领域术语与特征词之间的相关性对特征词权重进行调整,在有限的特征空间内对特征词 权重进行调整进而改进文本分类效果; (6)利用特征空间选择及特征权重计算方法,用支持向量机SVM机器学习算法,训 练文本分类器,构建领域文本分类模型,并对领域文本进行文本分类实验验证。 【当前权利人】昆明理工大学 【当前专利权人地址】云南省昆明市五华区学府路253号 【统一社会信用代码】125300004312044864 【引证次数】4.0 【被引证次数】1 【他引次数】4.0 【被他引次数】1.0 【家族引证次数】4.0 【家族被引证次数】91