24小时服务热线
效率高速
品质保障
厂家直供
售后保障
行业新闻
当前位置:行业新闻>

基于视觉的Web数据抽取系统和方法专利

发布时间:2026-06-12

【摘要】 一种基于视觉的Web数据抽取系统和方法,其中该系统包括:输入 模块,用于输入包含记录的页面;预处理模块,用于对输入的页面进 行预处理;页面表现模块,用于对页面进行视觉表示;数据记录抽取 模块,用于从页面中抽取出完整的记录;数据项抽取模块,用于把抽 取到的每个记录分解成数据项序列,并把表示相同属性的数据项对齐; 输出模块,用于输出结构化数据表格。。: 【专利类型】发明授权 【申请人】孟小峰 【申请人类型】个人 【申请人地址】100872北京市海淀区海淀路39号人民大学信息学院 【申请人地区】中国 【申请人城市】北京市 【申请人区县】海淀区 【申请号】CN200810056103.4 【申请日】2008-01-11 【申请年份】2008 【公开公告号】CN100590623C 【公开公告日】2010-02-17 【公开公告年份】2010 【授权公告号】CN100590623C 【授权公告日】2010-02-17 【授权公告年份】2010.0 【IPC分类号】G06F17/30 【发明人】孟小峰; 刘伟 【主权项内容】1、一种基于视觉的Web数据抽取系统,该系统包括: 输入模块,用于输入包含记录的页面; 预处理模块,用于对输入的页面进行预处理; 页面表现模块,用于对页面进行视觉表示; 数据记录抽取模块,用于从页面中抽取出完整的记录; 数据项抽取模块,用于把抽取到的每个记录分解成数据项序列, 并把表示相同属性的数据项对齐; 输出模块,用于输出结构化数据表格; 所述数据记录抽取模块进一步包括发现模块、清除模块、分类模 块和重组模块,其中: 发现模块,用于发现数据区域; 清除模块,用于清除噪音数据; 分类模块,用于对视觉块进行分类; 重组模块,用于把属于同一记录的视觉块组合在一起; 所述发现模块进一步包括建立模块、扫描模块、判断模块、删除 模块、加入模块和输出模块,其中: 建立模块,用于建立一个初始集合B,放入视觉树根节点的所有孩 子节点; 扫描模块,用于对B中每一个节点进行扫描; 判断模块,用于在扫描到其中一个节点b时,判断其是否符合两 个条件:一是被网页的中垂线穿越;二是与整个网页的面积比大 于值0.4; 删除模块,用于在不符合的情况下,将节点b删除; 加入模块,用于在符合的情况下,把b加入集合Bs中,从Bs中 删除b的父亲节点,把b的所有孩子节点加入B; 输出模块,用于在如果B中所有节点都已扫描完的情况下,把Bs 中面积最小的节点输出作为数据区域。 : 【当前权利人】孟小峰 【当前专利权人地址】北京市海淀区海淀路39号人民大学信息学院 【引证次数】5.0 【他引次数】5.0 【家族引证次数】5.0 【家族被引证次数】6

  • 【摘要】本发明涉及一种医用的临床测试硬膜外穿刺是否到达硬膜外腔的硬膜外隙穿刺测试管;其特征是其结构与普通注射器相似,包括:注射器管、活塞、衬垫、弹簧、手持柄。其中注射器管与活塞跟普通注射器类同,注射器管前端有与针头相接的接头,活塞由前端的衬
  • 【摘要】本发明涉及一种白炭黑溶聚丁苯橡胶纳米复合材料的制备方法,将纳米白炭黑粉末与硅烷偶联剂充分混合后,在高温下热处理进行缩合反应,得到有机化改性的纳米白炭黑粉末后加入到溶聚丁苯胶液中,搅拌、脱除溶剂、烘干,得到共凝聚法制备的白炭黑溶聚丁苯
  • 【摘要】本发明公开了植物耐逆性相关蛋白GmSIK2及其编码基因与应用,本发明提供的 GmSIK2蛋白,是如下(a)或(b)的蛋白质:(a)由序列表中序列1所示的氨基酸 序列组成的蛋白质;(b)将序列1的氨基酸序列经过一个或几个氨基酸残基的取
  • 【摘要】本实用新型公开了用于油气井地层测试的一种大通径井下测试阀。主要由制作一体的上接头与 球阀外筒、延时外筒、联接短节、花键外筒、传压接头、油室外筒、下接头连接构成整体外壳,其 内顺序安装球笼上芯轴、延时套、操作臂、球阀总成、球笼、弹性爪
  • 【摘要】多元稀土硼化物(LaxBa1-x)B6阴极材料及其制备方法属于稀土硼化物热阴极材料技术领域。目前,多元稀土硼化物的研究很少,且制备工艺复杂。本发明阴极材料的组成为(LaxBa1-x)B6,0.3≤x≤0.7。本发明采用直流电弧蒸发法
  • 【摘要】本发明涉及铁路交通安全技术领域,特别涉及铁轨检测技术,具体地讲是一种铁轨平顺性检测方法及系统。本发明方法公开了读取铁轨检测数据;判断用户选择的数据分析功能;根据用户选择的数据分析功能进行相应分析处理。本发明的有益效果在于,本发明提供