行业新闻

信息采集方法及系统专利

发布时间:2026-06-16

【摘要】本发明涉及一种信息采集方法，包括：根据预设的采集任务模板从互联网上获取符合采集要求的一个或多个网页链接地址；对一个或多个网页链接地址执行去重操作，并将去重结果存入地址列表数据文件；修补地址列表数据文件所对应的内容信息的HTML标签，并对修补后的网页内容进行文本信息提取；对提取的文本信息进行自动分类，然后对分类后的文本信息进行分词处理，并提取文本信息的摘要；将文本信息的分类结果、分词操作得到的词条以及摘要输出。本发明还涉及一种信息采集系统。本发明在信息采集过程中通过对网页中的内容信息进行HTML标签的修补，实现对各种网页格式的内容的采集；通过对网页链接地址进行哈希转换，增加网页链接地址去重的效率。【专利类型】发明申请【申请人】全国组织机构代码管理中心【申请人类型】机关团体【申请人地址】100029北京市西城区德外裕民路裕中西里46号【申请人地区】中国【申请人城市】北京市【申请人区县】西城区【申请号】CN200810126496.1 【申请日】2008-07-04 【申请年份】2008 【公开公告号】CN101620608A 【公开公告日】2010-01-06 【公开公告年份】2010 【IPC分类号】G06F17/30 【发明人】蓝培瑜【主权项内容】1、一种信息采集方法，包括以下步骤：根据预设的采集任务模板从互联网上获取符合采集要求的一个或多个网页链接地址；对所述一个或多个网页链接地址执行去重操作，并将去重后得到的结果存入地址列表数据文件；修补所述地址列表数据文件所对应的内容信息的超文本标记语言标签，并对修补后的网页内容进行文本信息提取；对提取的文本信息进行自动分类，然后对分类后的文本信息进行分词处理，并提取所述文本信息的摘要；将所述文本信息的分类结果、分词操作得到的词条以及摘要输出。【当前权利人】全国组织机构代码管理中心【当前专利权人地址】北京市西城区德外裕民路裕中西里46号【统一社会信用代码】12100000400009880K 【被引证次数】37 【被他引次数】37.0 【家族被引证次数】37

一种玻璃真空集蓄热管
【摘要】一种玻璃真空集蓄热管，为内集蓄热段玻璃管一端玻璃封接，内集蓄热段玻璃管的管壁上复合吸热膜，放热段管与内集蓄热段玻璃管通过焊接密封连接，内集蓄热段玻璃管通过带有消气剂的支撑弹卡，套装于尾部设有排气嘴的外玻璃罩管内，外玻璃罩管的管口与内
一种设有网络数据过滤装置的笔记本型计算机
【摘要】一种设有网络数据过滤装置的笔记本型计算机，除了具备一般笔记本型计算机的软硬件外，还设有独立网络数据过滤装置，所述网络数据过滤装置包括控制器(2)、计算机端网络接口(3)、网络端网络接口(4)、储存装置(5)、显示装置(6)、发
多模终端选择网络的方法及多模终端
【摘要】本发明公开了一种多模终端选择网络的方法及多模终端，其中，一种多模终端选择网络的方法包括：发起业务时，获取该业务对应的网络性能要求；基于所述获取的网络性能要求，以及多模终端所支持的各网络的网络性能，从所述各网络中选择提供该业务的
一种生产铜包铝排的轧制法
【摘要】一种生产铜包铝排的轧制法，包括：第一步骤，选择壁厚均匀的铜管及与铜管内壁相过渡配合的铝棒，并清洗干净，去除油污及氧化层；第二步骤，将铝棒压入铜管内形成复合坯料，两端封堵严密；第三步骤，加热至300～540℃，保温30～60 分钟
一种基于业务的隧道保护方法和系统
【摘要】本发明提出一种基于业务的隧道保护方法和系统，包括：为接入的各种业务分别设置可堆叠虚拟局域网的优先级标识；根据所述优先级标识来配置备用隧道，并保存所述优先级标识与所述备用隧道的对应关系；在网络或隧道故障时，根据所述每个业务的优先级标识
公路防雪网
【摘要】本实用新型公开了一种公路防雪网，该防雪网包括有若干竖直设置的立柱和若干防雪网片，所述任一防雪网片两端分别与相邻的两个立柱固定连接。本实用新型产品结构简单、稳定耐久、外型美观实用、便于施工维护，能有效防治公路雪害，可广泛应用于公

产品分类

最新文章

信息采集方法及系统专利