【摘要】 该数据由<>整理 。本发明公开了一种针对视频网站的广域网爬虫系统,包括以下部件:超链接扫描器,通用地址分析提取器,视频标识提取器,播放地址合成器,视频真实地址提取器,真实地址存储库,视频数据下载器,视频数据存储库,以及超链接喂食器。通过应用本发明所描述的系统,可以有效地解决爬虫系统无法采集广域网中视频网站数据的问题;可以为视频爬虫系统中的核心技术——转址功能提供通用的框架;可以为搭建针对广域网视频的引擎系统的重要组成部分——视频数据采集系统提供通用的搭建架构;显著降低广域网视频爬虫系统的开发难度,进一步有效地降低系统开发成本。 【专利类型】发明授权 【申请人】北京邮电大学 【申请人类型】学校 【申请人地址】100876 北京市海淀区西土城路10号 【申请人地区】中国 【申请人城市】北京市 【申请人区县】海淀区 【申请号】CN200810180826.5 【申请日】2008-11-25 【申请年份】2008 【公开公告号】CN101446954B 【公开公告日】2010-09-08 【公开公告年份】2010 【授权公告号】CN101446954B 【授权公告日】2010-09-08 【授权公告年份】2010.0 【IPC分类号】G06F17/30 【发明人】杨溥; 郭军; 陈光 【主权项内容】一种针对视频网站的广域网爬虫系统,其特征在于包括:超链接扫描器,用于提取网页中的所有超链接;通用地址分析提取器,用于分析并提取网页中的指向视频的通用形式超链接;视频标识提取器,用于分析并提取视频的通用形式超链接所指向的网页中的视频的标识符号;播放地址合成器,用于将所述视频标识提取器提取的视频标识符号合成播放器所需的网页地址;视频真实地址提取器,用于在所述播放地址合成器合成的播放地址所指向的页面中提取视频真实存放地址;通用地址存储库,用于保存在所述通用地址分析提取器中被提取的指向视频的通用形式超链接;真实地址存储库,用于保存在所述视频真实地址提取器中被提取的视频真实存放地址超链接;视频数据下载器,用于下载在所述真实地址存储库中存储的视频真实存放地址超链接指向的视频数据;视频数据存储库,用于存储在所述视频数据下载器中下载的数据;超链接喂食器,用于监测和读取在所述通用地址存储库中存储的指向视频的通用形式超链接并且向所述超链接扫描器提供需要处理的超链接。 【当前权利人】北京邮电大学 【当前专利权人地址】北京市海淀区西土城路10号 【专利权人类型】公立 【统一社会信用代码】12100000400009952C 【被引证次数】3 【被他引次数】3.0 【家族被引证次数】24