【摘要】 本发明公开了一种网络信息语义结构识别方法和装置,所述语义结构包括多个语义相关 的网络页面信息内容的语义注解、被注解的信息的属性、语义注解之间的关系。通过定义样 本页面的所述语义结构,在系统内部存储成语义结构树;生成语义树识别指令和语义树合法 性识别指令;经验证后将语义结构描述文件和语义树识别指令文件和语义树合法性识别文件 存储到外存储器。本发明定义和识别出的网络页面信息的语义结构可以被信息提取、全文和语义、商业情报挖掘、信息聚合、网络知识库等系统使用。 【专利类型】发明申请 【申请人】华天清 【申请人类型】个人 【申请人地址】518054广东省深圳市南山区兴南路48号21A 【申请人地区】中国 【申请人城市】深圳市 【申请人区县】南山区 【申请号】CN200810142630.7 【申请日】2008-07-29 【申请年份】2008 【公开公告号】CN101639840A 【公开公告日】2010-02-03 【公开公告年份】2010 【发明人】华天清; 齐勇挺 【主权项内容】1,一种网络信息语义结构的识别方法,所述语义结构包括网络页面信息内容的多个语义 相关的语义注解、被注解的信息的属性、语义注解之间的关系,其特征在于,所述方法包括 以下步骤: (1)定义样本页面的所述语义结构,在系统内部存储成语义结构树; (2)生成语义树识别指令和语义树合法性识别指令; (3)验证语义树识别指令和语义树合法性识别指令的有效性 (4)将语义结构描述文件和语义树识别指令文件和语义树合法性识别文件存储到外存储 器 【当前权利人】华天清 【当前专利权人地址】广东省深圳市南山区兴南路48号21A 【被引证次数】TRUE 【家族被引证次数】TRUE