【摘要】 本发明公开一种提取网页正文的方法和装置,涉及网络技术领域,以快速、准确地提取网页中的正文。该方法包括:获取页面段的开始标签和结束标签;根据开始标签和结束标签确定页面段的开始位置和结束位置;计算页面段的权值;将网页中权值最大的页面段提取为网页正文。该装置包括:获取模块,用于获取页面段的开始标签和结束标签;分段模块,用于根据获取模块获取的开始标签和结束标签确定页面段的开始位置和结束位置;计算模块,用于计算分段模块确定的页面段的权值;提取模块,用于将计算模块计算得出的网页中权值最大的页面段提取为网页正文。本发明提供的技术方案可以广泛应用于进行内容转载的网络系统和设备中。 【专利类型】发明授权 【申请人】北大方正集团有限公司; 北京北大方正电子有限公司 【申请人类型】企业 【申请人地址】100871 北京市海淀区成府路298号方正大厦5层 【申请人地区】中国 【申请人城市】北京市 【申请人区县】海淀区 【申请号】CN200810225720.2 【申请日】2008-11-07 【申请年份】2008 【公开公告号】CN101408898B 【公开公告日】2010-08-11 【公开公告年份】2010 【授权公告号】CN101408898B 【授权公告日】2010-08-11 【授权公告年份】2010.0 【IPC分类号】G06F17/30 【发明人】张海涛 【主权项内容】一种提取网页正文的方法,其特征在于,包括以下步骤:获取页面段的开始标签和结束标签;根据所述开始标签和结束标签确定所述页面段的开始位置和结束位置;根据所述页面段的开始位置和结束位置之间各种形式内容的权值计算所述页面段的权值;将网页中权值最大的页面段提取为网页正文。 【当前权利人】新方正控股发展有限责任公司; 北京北大方正电子有限公司 【当前专利权人地址】广东省珠海市横琴新区华金街58号横琴国际金融中心大厦3007; 北京市海淀区上地五街9号方正大厦 【专利权人类型】其他有限责任公司; 有限责任公司(台港澳法人独资) 【统一社会信用代码】91110108101974963M; 9111010860004164XH 【家族被引证次数】27