24小时服务热线
效率高速
品质保障
厂家直供
售后保障
行业新闻
当前位置:行业新闻>

一种新闻网页定位方法专利

发布时间:2026-06-12

【摘要】 本发明涉及一种新闻网页定位方法,包括步骤:根据用户访问网页时所记录的访问日志,利用新闻的时效性区分新闻网页与非新闻网页;根据不同网页的统一资源定位符构建目录结构,将再同一目录中新闻网页出现比例高的目录确定为前缀;将所链接网页的个数高于设定阈值的确定索引网页;将索引网页作为起点开始下载,在下载中不断链接已下载网页所能链接的新网页,当链接的新网页是以所确定的前缀作为起始时,将新网页定位为新闻网页并下载。本发明的方法基于用户行为,分析新闻网页的用户访问演变特征,迅速挑选出新闻网页,该方法可以及时、准确、客观的定位并下载新闻网页,以供用户搜查查询时获取更准更全的信息。 【专利类型】发明授权 【申请人】清华大学; 北京搜狗科技发展有限公司 【申请人类型】企业,学校 【申请人地址】100084 北京市海淀区清华园北京100084-82信箱 【申请人地区】中国 【申请人城市】北京市 【申请人区县】海淀区 【申请号】CN200810117516.9 【申请日】2008-07-31 【申请年份】2008 【公开公告号】CN101329687B 【公开公告日】2010-06-23 【公开公告年份】2010 【授权公告号】CN101329687B 【授权公告日】2010-06-23 【授权公告年份】2010.0 【IPC分类号】G06F17/30 【发明人】刘奕群; 张敏; 马少平; 茹立云; 佟子健 【主权项内容】一种新闻网页定位方法,其特征在于,该方法包括以下步骤:s101:获取用户访问网页时所记录的访问日志,所述访问日志包括访问网页的统一资源定位符、访问网页时间和用户标识号;s102:依据访问日志获取不同网页随时间变化的访问量集中度变化率,所述访问量集中度为每个网页的集中访问量与该网页总访问量的比值;s103:将高于设定的第一阈值的访问量集中度变化率对应的网页筛选为新闻网页;s104:根据不同网页的统一资源定位符,获取聚集在相同目录中的新闻网页所占的比例,将比例高于设定的第二阈值的目录确定为统一资源定位符前缀;s105:统计每一个新闻网页所链接网页中的新闻网页所占的比值,将比值高于设定的第三阈值的新闻网页列入新闻索引网页列表;s106:将所述新闻索引网页列表中的新闻网页作为起点开始下载,在下载中不断链接已下载网页所能链接的新网页,当链接的新网页是以所述统一资源定位符前缀作为起始时,将所述新网页定位为新闻网页并下载。 【当前权利人】清华大学; 北京搜狗科技发展有限公司 【当前专利权人地址】北京市海淀区清华园; 北京市海淀区中关村东路1号院9号楼搜狐网络大厦9层01房间 【专利权人类型】公立; 有限责任公司(台港澳法人独资) 【统一社会信用代码】12100000400000624D; 911101087839553124 【引证次数】4.0 【自引次数】1.0 【他引次数】3.0 【家族引证次数】4.0 【家族被引证次数】29

  • 【摘要】本发明的香皂组方(重量%)如下: LM无机防霉抗菌剂1%, 无机发泡剂0.5~1%, 香精与色料适量, 皂基余量。 它的制造工艺流程是: 水浴加热熔化皂基并搅拌使其混合均匀→加入抗菌剂搅拌均匀→加入无机发 泡剂、色料和香精搅拌均匀→
  • 【摘要】本发明公开了一种基于优先级管理的通信控制方法,应用于配置了测 量间隙的处于DRX模式的移动通信系统,包括:获取DRX模式相关参数, 并根据所述DRX模式相关参数,确定所述测量间隙的优先级是否大于所述 数据传输的优先级,若是,UE在测
  • 【摘要】本发明公开了一种网络服务程序的监控方法,该方法为:启动网络服务程序,运行该网络服务程序的两个实例,将其中的一个实例设置为监控程序,将另一个实例设置为主控程序;主控程序监测到监控程序运行异常时,关闭并重新启动运行异常的监控程序;监控程
  • 【摘要】本发明提供了一种等离子显示器的电极结构,该电极结构包括维持电极和与维持电极相对的扫描电极,维持电极与扫描电极之间以放电间隙隔开,维持电极与扫描电极均包括多个独立的电极单元以及连接多个电极单元的公共电极,特别地,本电极结构为格栅型电极
  • 【摘要】一种双控温氢氟酸气相刻蚀装置,一种对反应体和硅片衬底的温度分别可控的刻蚀装置。本发明提出的氢氟酸气相刻蚀装置主体包括一个具有温度调节及工作气体均匀性控制的反应腔体、样品台和一个利用控温液及相应传输通道对样品进行温度控制的控温液体腔室
  • 【摘要】本发明公开了一种信令控制方法、系统及装置,用以实现对覆盖范围较广、用户数量较少的地区的信令控制。本发明提供的一种信令控制方法包括:移动管理实体MME接收接入网的信令,其中包括虚拟MME的标识,所述虚拟MME是通过预先对MME进行划分