【摘要】 本发明涉及一种新闻网页定位方法,包括步骤:根据用户访问网页时所记录的访问日志,利用新闻的时效性区分新闻网页与非新闻网页;根据不同网页的统一资源定位符构建目录结构,将再同一目录中新闻网页出现比例高的目录确定为前缀;将所链接网页的个数高于设定阈值的确定索引网页;将索引网页作为起点开始下载,在下载中不断链接已下载网页所能链接的新网页,当链接的新网页是以所确定的前缀作为起始时,将新网页定位为新闻网页并下载。本发明的方法基于用户行为,分析新闻网页的用户访问演变特征,迅速挑选出新闻网页,该方法可以及时、准确、客观的定位并下载新闻网页,以供用户搜查查询时获取更准更全的信息。 【专利类型】发明授权 【申请人】清华大学; 北京搜狗科技发展有限公司 【申请人类型】企业,学校 【申请人地址】100084 北京市海淀区清华园北京100084-82信箱 【申请人地区】中国 【申请人城市】北京市 【申请人区县】海淀区 【申请号】CN200810117516.9 【申请日】2008-07-31 【申请年份】2008 【公开公告号】CN101329687B 【公开公告日】2010-06-23 【公开公告年份】2010 【授权公告号】CN101329687B 【授权公告日】2010-06-23 【授权公告年份】2010.0 【IPC分类号】G06F17/30 【发明人】刘奕群; 张敏; 马少平; 茹立云; 佟子健 【主权项内容】一种新闻网页定位方法,其特征在于,该方法包括以下步骤:s101:获取用户访问网页时所记录的访问日志,所述访问日志包括访问网页的统一资源定位符、访问网页时间和用户标识号;s102:依据访问日志获取不同网页随时间变化的访问量集中度变化率,所述访问量集中度为每个网页的集中访问量与该网页总访问量的比值;s103:将高于设定的第一阈值的访问量集中度变化率对应的网页筛选为新闻网页;s104:根据不同网页的统一资源定位符,获取聚集在相同目录中的新闻网页所占的比例,将比例高于设定的第二阈值的目录确定为统一资源定位符前缀;s105:统计每一个新闻网页所链接网页中的新闻网页所占的比值,将比值高于设定的第三阈值的新闻网页列入新闻索引网页列表;s106:将所述新闻索引网页列表中的新闻网页作为起点开始下载,在下载中不断链接已下载网页所能链接的新网页,当链接的新网页是以所述统一资源定位符前缀作为起始时,将所述新网页定位为新闻网页并下载。 【当前权利人】清华大学; 北京搜狗科技发展有限公司 【当前专利权人地址】北京市海淀区清华园; 北京市海淀区中关村东路1号院9号楼搜狐网络大厦9层01房间 【专利权人类型】公立; 有限责任公司(台港澳法人独资) 【统一社会信用代码】12100000400000624D; 911101087839553124 【引证次数】4.0 【自引次数】1.0 【他引次数】3.0 【家族引证次数】4.0 【家族被引证次数】29