行业新闻

自适应语义驱动的主题网页过滤系统专利

发布时间:2026-06-13

【摘要】本发明公开了一种自适应语义驱动的主题网页过滤系统，该系统能针对不同的网页集自适应的选用不同的处理方法得到一棵分类语义树，包括爬虫、文本分类以及文本层次聚类；然后采用一种新的网页评估算法——语义驱动的主题网页算法来计算网页的STP值，即对主题相关度及其本身网页重要性两方面的综合评估。对于不同应用，经过多次测试选择一个过滤效果最好的阈值，对STP值低于该阈值的网页进行舍弃。本方法提出了对不同网页集分别对待的思想，对系统资源利用率和网页主题相关度准确率有很大改进，并提出一种语义驱动的STP算法，改善了原来PageRank的不足，能够很好的过滤不相关网页。【专利类型】发明申请【申请人】中国科学院自动化研究所【申请人类型】科研单位【申请人地址】100080 北京市海淀区中关村东路95号【申请人地区】中国【申请人城市】北京市【申请人区县】海淀区【申请号】CN200810240359.0 【申请日】2008-12-17 【申请年份】2008 【公开公告号】CN101751438A 【公开公告日】2010-06-23 【公开公告年份】2010 【授权公告号】CN101751438B 【授权公告日】2012-08-22 【授权公告年份】2012.0 【IPC分类号】G06F17/30 【发明人】张文生; 杨彦武; 刘琰琼; 李益群; 肖宪; 梁玉旋【主权项内容】一种自适应语义驱动的主题网页过滤系统，其特征在于，该系统包括：一爬虫模块，用于得到原始网页集合，抽取网页分类语义树，并得到Web链接的一些知识；一分类模块，用于根据内容对网页进行分类，并将网页挂靠到语义树上；一聚类模块，用于根据内容对网页进行聚类，并将聚类得到的结果形成语义树；一网页分析处理模块，用于对网页进行模块划分、信息抽取、分词并提取特征；一语义驱动的主题网页STP值计算模块，用于通过语义树和链接知识计算STP值；一网页过滤模块，用于根据设定的阈值过滤掉与主题不相关的网页。【当前权利人】中国科学院自动化研究所【当前专利权人地址】北京市海淀区中关村东路95号【统一社会信用代码】12100000400010945B 【被引证次数】31 【被他引次数】31.0 【家族引证次数】3.0 【家族被引证次数】31

路由自动连接方法和装置安全连接方法和装置
【摘要】本发明提出了一种用于用户终端的路由自动连接方法和装置、以及用于用户终端的安全连接方法和装置，其中，根据本发明一个方面的用于用户终端的路由自动连接方法包括以下步骤：根据第一任务的第一路由选择因素自动地为第一任务选择第一路由，第一
一种车辆自组织网络中多目标查询的方法
【摘要】本发明公开了一种车辆自组织网络中多目标查询的方法，包括：S1，查询发起车辆、若干中间车辆、若干目标查询车辆组成车辆自组织网络；S2，查询发起车辆确定多个不同的查询目标信息和第一查询路径组；S3，查询发起车辆根据第一查询路径组将查询目
一种提高钛合金断裂韧性和抗疲劳强度的热加工工艺
【摘要】本发明涉及一种提高钛合金断裂韧性和抗疲劳强度的热加工工艺。采用将TA15钛合金锻件加热到其相变点以下30℃～80℃的温度范围内，保温1～2小时，锻压锻件使其变形量至55％～75％，并空冷至室温；再加热锻件，至锻件的再结晶温度期间内
旋转轴参数测量设备和旋转轴多参数传感器
【摘要】本发明公开了一种旋转轴参数测量设备和旋转轴多参数传感器。该设备包括定子、转子、旋转轴多参数传感器、电源电路和光电耦合接收器，电源电路和旋转轴多参数传感器固设于转子上且相互连接，光电耦合接收器固设于定子上，旋转轴多参数传感器包括
复合导线及该复合导线的发热单丝的制造方法
【摘要】本发明提供了一种复合导线及该复合导线的发热单丝的制造方法。其中，复合导线由多根单丝绞制而成，一根以上的单丝为发热单丝，该发热单丝至少部分由低居里点的铁磁材料制成，该发热单丝能够在导线表面温度低于居里点温度时产生热量，从而将导线
一种猪繁殖与呼吸综合征病毒检测试剂盒及其应用
【摘要】本发明公开了一种猪繁殖与呼吸综合征病毒检测试剂盒及其应用。本发明提供的试剂盒，包括三对引物，即与猪繁殖与呼吸综合征病毒Gen Bank Accession NumberU87392中MN基因结合的内侧引物对、外侧引物对和环形引物对。

产品分类

最新文章

自适应语义驱动的主题网页过滤系统专利