【摘要】 本发明公开了一种自动动态更新论坛爬虫系统的构建方法,该方法包括下列步骤:(1)提取存储纯网页超链接;(2)判断话题网页位置;(3)检测话题网页新旧;(4)新话题网页处理;(5)旧话题网页处理;(6)纯网页超链接情况判断处理。通过应用本发明所描述的方法,可以有效地避免静态更新的弊端;可以自动实时地更新论坛网页;可以为搭建动态更新论坛爬虫系统提供通用的设计框架;更加迅速便利地实现系统开发,有效地降低系统开发成本。。微信 【专利类型】发明授权 【申请人】北京邮电大学 【申请人类型】学校 【申请人地址】100876 北京市海淀区西土城路10号 【申请人地区】中国 【申请人城市】北京市 【申请人区县】海淀区 【申请号】CN200810180823.1 【申请日】2008-11-25 【申请年份】2008 【公开公告号】CN101436196B 【公开公告日】2010-12-08 【公开公告年份】2010 【授权公告号】CN101436196B 【授权公告日】2010-12-08 【授权公告年份】2010.0 【IPC分类号】G06F17/30 【发明人】杨溥; 郭军; 徐蔚然 【主权项内容】一种自动动态更新论坛爬虫系统的构建方法,其特征在于包括下列步骤:(1)提取当前论坛网页中的论坛范围的纯网页超链接再存储该纯网页超链接;(2)判断话题网页位置;(3)检测话题网页新旧,如果当前话题网页为新话题,进入步骤(4),如果当前话题网页为旧话题,进入步骤(5);(4)将当前话题网页所在的整个话题组进行下载并将话题组末尾网页存储到检测库;(5)读取检测库话题旧尾页、读取当前话题新末尾网页、比较当前话题新末尾网页和检测库话题旧尾页的异同,若比较结果相同,则抛弃不处理,若比较结果不同,则先下载再存储话题组旧尾页后网页、用新的话题尾页替代检测库中旧尾页;(6)分析判断纯网页超链接是否全部处理完,若没有全部处理完,则提供待处理的纯网页超链接,若全部处理完,则结束。 【当前权利人】北京邮电大学 【当前专利权人地址】北京市海淀区西土城路10号 【专利权人类型】公立 【统一社会信用代码】12100000400009952C 【家族被引证次数】6