【摘要】 本发明公开了一种同话题定位跟踪式论坛爬虫系统,包括以下部件:非文本粗略过滤器,非文本精确过滤器,超链接补全器,纯网页超链接存储库,同话题定位跟踪器,同话题网页超链接存储库,网页组数据下载器,统一编号器,网页组数据存储库,以及纯网页超链接供应器。通过应用本发明所描述的系统,可以有效地解决爬虫系统采集论坛数据大量冗余和凌乱无序的问题;可以为搭建论坛引擎系统的重要组成部分——论坛数据采集系统提供通用可靠的搭建框架;显著降低论坛爬虫系统的开发难度,进一步有效地降低论坛引擎系统开发成本。 【专利类型】发明授权 【申请人】北京邮电大学 【申请人类型】学校 【申请人地址】100876 北京市海淀区西土城路10号 【申请人地区】中国 【申请人城市】北京市 【申请人区县】海淀区 【申请号】CN200810180824.6 【申请日】2008-11-25 【申请年份】2008 【公开公告号】CN101436197B 【公开公告日】2010-09-08 【公开公告年份】2010 【授权公告号】CN101436197B 【授权公告日】2010-09-08 【授权公告年份】2010.0 【IPC分类号】G06F17/30 【发明人】杨溥; 郭军; 徐蔚然 【主权项内容】一种同话题定位跟踪式论坛爬虫系统,其特征在于包括:非文本粗略过滤器,用于提取网页中的所有超链接;非文本精确过滤器,用于过滤去除所有指向不是文本信息的超链接;超链接补全器,用于修正并且补完整超链接;纯网页超链接存储库,用于保存网页中所有指向纯文本信息的超链接;同话题定位跟踪器,用于定位并且跟踪一系列同一话题的网页组;同话题网页超链接存储库,用于存储在所述同话题定位跟踪器中被定位并且跟踪一系列同一话题的网页组的超链接;网页组数据下载器,用于下载在所述同话题网页超链接存储库中被超链接指向的网页组;统一编号器,用于为在所述网页组数据下载器中下载的网页组进行统一分配标识号码;网页组数据存储库,用于存储在所述网页组数据下载器中下载的网页组;纯网页超链接供应器,用于向所述非文本粗略过滤器提供需要处理的超链接。 : 【当前权利人】北京邮电大学 【当前专利权人地址】北京市海淀区西土城路10号 【专利权人类型】公立 【统一社会信用代码】12100000400009952C 【被引证次数】1 【被他引次数】1.0 【家族被引证次数】1