【摘要】 一种基于视觉的Web数据抽取系统和方法,其中该系统包括:输入 模块,用于输入包含记录的页面;预处理模块,用于对输入的页面进 行预处理;页面表现模块,用于对页面进行视觉表示;数据记录抽取 模块,用于从页面中抽取出完整的记录;数据项抽取模块,用于把抽 取到的每个记录分解成数据项序列,并把表示相同属性的数据项对齐; 输出模块,用于输出结构化数据表格。。: 【专利类型】发明授权 【申请人】孟小峰 【申请人类型】个人 【申请人地址】100872北京市海淀区海淀路39号人民大学信息学院 【申请人地区】中国 【申请人城市】北京市 【申请人区县】海淀区 【申请号】CN200810056103.4 【申请日】2008-01-11 【申请年份】2008 【公开公告号】CN100590623C 【公开公告日】2010-02-17 【公开公告年份】2010 【授权公告号】CN100590623C 【授权公告日】2010-02-17 【授权公告年份】2010.0 【IPC分类号】G06F17/30 【发明人】孟小峰; 刘伟 【主权项内容】1、一种基于视觉的Web数据抽取系统,该系统包括: 输入模块,用于输入包含记录的页面; 预处理模块,用于对输入的页面进行预处理; 页面表现模块,用于对页面进行视觉表示; 数据记录抽取模块,用于从页面中抽取出完整的记录; 数据项抽取模块,用于把抽取到的每个记录分解成数据项序列, 并把表示相同属性的数据项对齐; 输出模块,用于输出结构化数据表格; 所述数据记录抽取模块进一步包括发现模块、清除模块、分类模 块和重组模块,其中: 发现模块,用于发现数据区域; 清除模块,用于清除噪音数据; 分类模块,用于对视觉块进行分类; 重组模块,用于把属于同一记录的视觉块组合在一起; 所述发现模块进一步包括建立模块、扫描模块、判断模块、删除 模块、加入模块和输出模块,其中: 建立模块,用于建立一个初始集合B,放入视觉树根节点的所有孩 子节点; 扫描模块,用于对B中每一个节点进行扫描; 判断模块,用于在扫描到其中一个节点b时,判断其是否符合两 个条件:一是被网页的中垂线穿越;二是与整个网页的面积比大 于值0.4; 删除模块,用于在不符合的情况下,将节点b删除; 加入模块,用于在符合的情况下,把b加入集合Bs中,从Bs中 删除b的父亲节点,把b的所有孩子节点加入B; 输出模块,用于在如果B中所有节点都已扫描完的情况下,把Bs 中面积最小的节点输出作为数据区域。 : 【当前权利人】孟小峰 【当前专利权人地址】北京市海淀区海淀路39号人民大学信息学院 【引证次数】5.0 【他引次数】5.0 【家族引证次数】5.0 【家族被引证次数】6