【摘要】 本发明涉及计算机信息处理领域的模式识别技术,具体涉及一种数字报刊版面信息的自动提取方法。本发明首先对版面中独立的文字进行合并,将其组织成为若干个内容块,然后根据相关内容在报纸版面上的位置与语义信息,自动提取版面上的出版日期、版次、版名数据,通过简单、方便的自动化操作,提高了大量版面数据成批处理时的处理效率,在减轻工作人员劳动强度的同时,也使得数字报刊的标引工作更加快捷、准确。 【专利类型】发明申请 【申请人】北大方正集团有限公司; 北京方正阿帕比技术有限公司 【申请人类型】企业 【申请人地址】100871 北京市海淀区成府路298号方正大厦 【申请人地区】中国 【申请人城市】北京市 【申请人区县】海淀区 【申请号】CN200810225320.1 【申请日】2008-10-30 【申请年份】2008 【公开公告号】CN101727438A 【公开公告日】2010-06-09 【公开公告年份】2010 【授权公告号】CN101727438B 【授权公告日】2012-07-18 【授权公告年份】2012.0 【IPC分类号】G06F17/22; G06F17/27 【发明人】徐剑波; 董宁 【主权项内容】一种数字报刊版面信息的自动提取方法,包括如下步骤:(1)对版面中独立的文字进行合并,将其组织成为若干个内容块;(2)根据可能包含所需版面信息的位置筛选出候选内容块;(3)根据日期内容的特征筛选步骤(2)中获得的候选内容块,判断其是否为包含出版日期的内容块,并对包含出版日期的内容块进行提取;(4)根据版次内容的特征筛选步骤(2)中获得的候选内容块,判断其是否为包含版次的内容块,并对包含版次的内容块进行提取;(5)根据版名内容的特征筛选步骤(2)中获得的候选内容块,判断其是否为包含版名的内容块,并对包含版名的内容块进行提取。 【当前权利人】新方正控股发展有限责任公司; 北京方正阿帕比技术有限公司 【当前专利权人地址】广东省珠海市横琴新区华金街58号横琴国际金融中心大厦3007; 北京市海淀区花园路2号牡丹科技大厦B座5层502 【专利权人类型】其他有限责任公司; 有限责任公司 【统一社会信用代码】91110108101974963M; 91110108787754390J 【被引证次数】13 【被自引次数】6.0 【被他引次数】7.0 【家族引证次数】7.0 【家族被引证次数】13