【摘要】 本发明公开了一种自适应语义驱动的主题网页过滤系统,该系统能针对不同的网页集自适应的选用不同的处理方法得到一棵分类语义树,包括爬虫、文本分类以及文本层次聚类;然后采用一种新的网页评估算法——语义驱动的主题网页算法来计算网页的STP值,即对主题相关度及其本身网页重要性两方面的综合评估。对于不同应用,经过多次测试选择一个过滤效果最好的阈值,对STP值低于该阈值的网页进行舍弃。本方法提出了对不同网页集分别对待的思想,对系统资源利用率和网页主题相关度准确率有很大改进,并提出一种语义驱动的STP算法,改善了原来PageRank的不足,能够很好的过滤不相关网页。 【专利类型】发明申请 【申请人】中国科学院自动化研究所 【申请人类型】科研单位 【申请人地址】100080 北京市海淀区中关村东路95号 【申请人地区】中国 【申请人城市】北京市 【申请人区县】海淀区 【申请号】CN200810240359.0 【申请日】2008-12-17 【申请年份】2008 【公开公告号】CN101751438A 【公开公告日】2010-06-23 【公开公告年份】2010 【授权公告号】CN101751438B 【授权公告日】2012-08-22 【授权公告年份】2012.0 【IPC分类号】G06F17/30 【发明人】张文生; 杨彦武; 刘琰琼; 李益群; 肖宪; 梁玉旋 【主权项内容】一种自适应语义驱动的主题网页过滤系统,其特征在于,该系统包括:一爬虫模块,用于得到原始网页集合,抽取网页分类语义树,并得到Web链接的一些知识;一分类模块,用于根据内容对网页进行分类,并将网页挂靠到语义树上;一聚类模块,用于根据内容对网页进行聚类,并将聚类得到的结果形成语义树;一网页分析处理模块,用于对网页进行模块划分、信息抽取、分词并提取特征;一语义驱动的主题网页STP值计算模块,用于通过语义树和链接知识计算STP值;一网页过滤模块,用于根据设定的阈值过滤掉与主题不相关的网页。 【当前权利人】中国科学院自动化研究所 【当前专利权人地址】北京市海淀区中关村东路95号 【统一社会信用代码】12100000400010945B 【被引证次数】31 【被他引次数】31.0 【家族引证次数】3.0 【家族被引证次数】31