24小时服务热线
效率高速
品质保障
厂家直供
售后保障
行业新闻
当前位置:行业新闻>

同话题定位跟踪式论坛爬虫系统专利

发布时间:2026-06-16

【摘要】 本发明公开了一种同话题定位跟踪式论坛爬虫系统,包括以下部件:非文本粗略过滤器,非文本精确过滤器,超链接补全器,纯网页超链接存储库,同话题定位跟踪器,同话题网页超链接存储库,网页组数据下载器,统一编号器,网页组数据存储库,以及纯网页超链接供应器。通过应用本发明所描述的系统,可以有效地解决爬虫系统采集论坛数据大量冗余和凌乱无序的问题;可以为搭建论坛引擎系统的重要组成部分——论坛数据采集系统提供通用可靠的搭建框架;显著降低论坛爬虫系统的开发难度,进一步有效地降低论坛引擎系统开发成本。 【专利类型】发明授权 【申请人】北京邮电大学 【申请人类型】学校 【申请人地址】100876 北京市海淀区西土城路10号 【申请人地区】中国 【申请人城市】北京市 【申请人区县】海淀区 【申请号】CN200810180824.6 【申请日】2008-11-25 【申请年份】2008 【公开公告号】CN101436197B 【公开公告日】2010-09-08 【公开公告年份】2010 【授权公告号】CN101436197B 【授权公告日】2010-09-08 【授权公告年份】2010.0 【IPC分类号】G06F17/30 【发明人】杨溥; 郭军; 徐蔚然 【主权项内容】一种同话题定位跟踪式论坛爬虫系统,其特征在于包括:非文本粗略过滤器,用于提取网页中的所有超链接;非文本精确过滤器,用于过滤去除所有指向不是文本信息的超链接;超链接补全器,用于修正并且补完整超链接;纯网页超链接存储库,用于保存网页中所有指向纯文本信息的超链接;同话题定位跟踪器,用于定位并且跟踪一系列同一话题的网页组;同话题网页超链接存储库,用于存储在所述同话题定位跟踪器中被定位并且跟踪一系列同一话题的网页组的超链接;网页组数据下载器,用于下载在所述同话题网页超链接存储库中被超链接指向的网页组;统一编号器,用于为在所述网页组数据下载器中下载的网页组进行统一分配标识号码;网页组数据存储库,用于存储在所述网页组数据下载器中下载的网页组;纯网页超链接供应器,用于向所述非文本粗略过滤器提供需要处理的超链接。 : 【当前权利人】北京邮电大学 【当前专利权人地址】北京市海淀区西土城路10号 【专利权人类型】公立 【统一社会信用代码】12100000400009952C 【被引证次数】1 【被他引次数】1.0 【家族被引证次数】1

  • 【摘要】本发明公开了车用气体燃料发动机的宽域氧传感器控制器,它由电源模块(3)、加热模块(4)和由信号放大模块(5)、信号判断模块(6)、反馈控制模块(7)、输出放大模块(8)组成的控制模块连成。控制器接受氧传感器反馈电压(Vs),将其放大
  • 【摘要】本发明提供了一种含铜矿石的浸出方法,包括以下步骤:A)将含铜矿石与硫酸溶液混合进行硫酸浸出以得到含有硫酸铜的浸出液;B)对所述浸出液进行净化得到硫酸铜溶液;C)将所述硫酸铜溶液与氧化钙和或氢氧化钙以及作为晶种的硫酸钙进行混合,以生成
  • 【摘要】本发明公开了一种引线式压电变压器外壳,广泛用在不同层数,不同形 状,径向或厚度振动型压电变压器的封装,所述压电变压器外壳包括:壳 体、后盖、可容纳于所述壳体内的线路板、输入输出端子;所述壳体为盒状 结构,包括壳壁及底板,所述壳壁上开
  • 【摘要】本发明公开了单片机电路设计技术领域中的一种实现看门狗功能的可编程逻辑电路。技术方案是,该电路包括第一锁存器101、第二锁存器102、第三锁存器103、与门104、计数器105和加法器106;当待测系统正常运行时,会输出一个固定的脉冲
  • 【摘要】本发明公开了一种管壳式超短型蒸发器,包括壳体,所述的壳体内设有两组U型管,第二组U型管设在第一组U型管的中间,每组U型管由多个U型管组成,第二组U型管的两个开口之间设有隔挡,第一组U型管和第二组U型管的下部通过隔板隔开;第一组U型管
  • 【摘要】一种屈服强度为420MPa级高强度建筑用钢板的热处理方法,属于低合金高强度建筑用钢技术领域。该钢的化学成分按重量百分比为C:0.12-0.18%,Si:0.30-0.40%,Mn:1.40-1.50%,Nb:0.03-0.05%,V