【摘要】 本发明涉及一种互联网资源定向获取方法,该方法包括步骤:确 定抓取网站范围、要获取的资源信息及所属的资源类别;根据资源类 别,通过人机交互在每个抓取网站上获取与资源类别相对应的有效网 页;依据抓取网站及有效网页的统一资源定位符、网页结构及要获取 的资源信息,生成要获取的资源信息的配置信息;在抓取网站上抓取 与配置信息相匹配的文本信息并保存;通过人机交互对抓取的信息进 行深度标引;对深度标引后的信息建立索引供用户检索使用,该系统 包括定向获取单元和深度标引单元。利用本发明进行引擎,解决 了常用引擎方法所造成的大量垃圾信息、资源重复、资源无组织 性及网页快照失效的问题。 【专利类型】发明申请 【申请人】北京雷速科技有限公司 【申请人类型】企业 【申请人地址】100088北京市海淀区北太平庄路25号北京豪威大厦216室 【申请人地区】中国 【申请人城市】北京市 【申请人区县】海淀区 【申请号】CN200810222306.6 【申请日】2008-09-16 【申请年份】2008 【公开公告号】CN101676907A 【公开公告日】2010-03-24 【公开公告年份】2010 【IPC分类号】G06F17/30 【发明人】刘锦山; 崔凤雷 【主权项内容】1、一种互联网资源定向获取方法,其特征在于,该方法包括以 下步骤: 事先确定抓取网站范围、要获取的资源信息及所属的资源类别; 根据所述资源类别,通过人机交互在每个抓取网站上获取与所述 资源类别相对应的有效网页; 依据所述抓取网站及其链接的有效网页的URL、网页结构及要获 取的资源信息,生成要获取的资源信息的配置信息; 在抓取网站上抓取与所述配置信息相匹配的信息并保存; 通过人机交互对抓取的信息进行深度标引,将其整理为统一的格 式,并对其分类作出调整,删除与要获取的资源信息无关的垃圾信息; 对深度标引后的信息建立索引供用户检索使用。 【当前权利人】北京雷速科技有限公司 【当前专利权人地址】北京市海淀区北太平庄路25号北京豪威大厦216室 【专利权人类型】有限责任公司 【统一社会信用代码】91110108742613439X 【被引证次数】30 【被他引次数】30.0 【家族被引证次数】30