【摘要】 本发明涉及一种信息采集方法,包括:根据预设的采集任务模板 从互联网上获取符合采集要求的一个或多个网页链接地址;对一个或 多个网页链接地址执行去重操作,并将去重结果存入地址列表数据文 件;修补地址列表数据文件所对应的内容信息的HTML标签,并对修 补后的网页内容进行文本信息提取;对提取的文本信息进行自动分类, 然后对分类后的文本信息进行分词处理,并提取文本信息的摘要;将 文本信息的分类结果、分词操作得到的词条以及摘要输出。本发明还 涉及一种信息采集系统。本发明在信息采集过程中通过对网页中的内 容信息进行HTML标签的修补,实现对各种网页格式的内容的采集; 通过对网页链接地址进行哈希转换,增加网页链接地址去重的效率。 【专利类型】发明申请 【申请人】全国组织机构代码管理中心 【申请人类型】机关团体 【申请人地址】100029北京市西城区德外裕民路裕中西里46号 【申请人地区】中国 【申请人城市】北京市 【申请人区县】西城区 【申请号】CN200810126496.1 【申请日】2008-07-04 【申请年份】2008 【公开公告号】CN101620608A 【公开公告日】2010-01-06 【公开公告年份】2010 【IPC分类号】G06F17/30 【发明人】蓝培瑜 【主权项内容】1、一种信息采集方法,包括以下步骤: 根据预设的采集任务模板从互联网上获取符合采集要求的一个 或多个网页链接地址; 对所述一个或多个网页链接地址执行去重操作,并将去重后得到 的结果存入地址列表数据文件; 修补所述地址列表数据文件所对应的内容信息的超文本标记语 言标签,并对修补后的网页内容进行文本信息提取; 对提取的文本信息进行自动分类,然后对分类后的文本信息进行 分词处理,并提取所述文本信息的摘要; 将所述文本信息的分类结果、分词操作得到的词条以及摘要输 出。 【当前权利人】全国组织机构代码管理中心 【当前专利权人地址】北京市西城区德外裕民路裕中西里46号 【统一社会信用代码】12100000400009880K 【被引证次数】37 【被他引次数】37.0 【家族被引证次数】37