【摘要】 本发明公开了一种爬虫抓取的方法及其装置,用于解决现有爬虫抓取技术时效性差的问题。主要技术方案包括:根据网页在当前结果中的排序或/和网页被用户点击的顺序,确定所述网页的当前权值;根据所述网页的当前权值以及历史权值,确定所述网页的结果权值;当所述结果权值达到设定阈值时,重新抓取所述网页中的信息。通过该技术方案,能够根据网页在当前结果中的排序或/和网页被用户点击的顺序,影响爬虫抓取该网页中信息的周期,对用户度高的网页可以缩短爬虫抓取网页信息的周期,从而保证这类网页中的信息具有很好的时效性,提高用户的使用感受。 【专利类型】发明申请 【申请人】中国移动通信集团公司 【申请人类型】企业 【申请人地址】100032 北京市西城区金融大街29号 【申请人地区】中国 【申请人城市】北京市 【申请人区县】西城区 【申请号】CN200810226245.0 【申请日】2008-11-10 【申请年份】2008 【公开公告号】CN101739427A 【公开公告日】2010-06-16 【公开公告年份】2010 【授权公告号】CN101739427B 【授权公告日】2012-07-04 【授权公告年份】2012.0 【IPC分类号】G06F17/30 【发明人】孙宏伟; 胡珉; 罗治国 【主权项内容】一种爬虫抓取的方法,其特征在于,包括:根据网页在当前结果中的排序或/和所述网页被用户点击的顺序,确定所述网页的当前权值;根据所述网页的当前权值以及历史权值,确定所述网页的结果权值;当所述结果权值达到设定阈值时,重新抓取所述网页中的信息。 【当前权利人】中国移动通信集团公司 【当前专利权人地址】北京市西城区金融大街29号 【专利权人类型】国有企业 【统一社会信用代码】911100007109250324 【被引证次数】25 【被他引次数】25.0 【家族被引证次数】25