【摘要】 本发明公开了一种从论坛帖子列表页面中抽取帖子元数据的方法,其包括 如下步骤:步骤S1,提供论坛帖子列表页面作为样例页面,根据样例页面中 的帖子记录的组织结构特征生成抽取模板;步骤S2,根据抽取模板,对与样 例页面中的帖子记录的组织结构相同或相似的论坛帖子列表页面作在线抽取 操作,获得帖子元数据。本发明能够满足处理大量的大规模论坛数据的实际需 求,且抽取精度高、抽取速度快、维护代价小。 【专利类型】发明申请 【申请人】中国科学院计算技术研究所 【申请人类型】科研单位 【申请人地址】100080北京市海淀区中关村科学院南路6号 【申请人地区】中国 【申请人城市】北京市 【申请人区县】海淀区 【申请号】CN200810119238.0 【申请日】2008-08-29 【申请年份】2008 【公开公告号】CN101661468A 【公开公告日】2010-03-03 【公开公告年份】2010 【授权公告号】CN101661468B 【授权公告日】2011-08-31 【授权公告年份】2011.0 【IPC分类号】G06F17/30 【发明人】郭岩; 丁国栋; 曹冬林; 王宇; 张刚 【主权项内容】1、一种从论坛帖子列表页面中抽取帖子元数据的方法,其特征是,包括 如下步骤: 步骤S1,提供论坛帖子列表页面作为样例页面,根据样例页面中的帖子 记录的组织结构特征生成抽取模板; 步骤S2,根据抽取模板,对与样例页面中的帖子记录的组织结构相同或 相似的论坛帖子列表页面作在线抽取操作,获得帖子元数据。 【当前权利人】中国科学院计算技术研究所 【当前专利权人地址】北京市海淀区中关村科学院南路6号 【统一社会信用代码】12100000400012342E 【被引证次数】14 【被他引次数】14.0 【家族引证次数】2.0 【家族被引证次数】14