【摘要】 本发明公开了一种版式文件中自动成文的方法及系统,用于进行文字块的自动类型识别,还原版面文章的引题,标题,副题以及正文等信息,本发明提供的自动成文方法包括:从文字块集合{S}中筛选出标题块集合{T},根据所述标题块集合{T}得到文章集合{A};从文字块集合{S}中获取与文章集合{A}中匹配的文字块,设置为文章正文;获取文章集合{A}中的每篇文章,设置所述文章的其他组成信息。采用本发明,可以提高标引人员的工作效率,节省数据加工成本。 【专利类型】发明授权 【申请人】北大方正集团有限公司; 北京方正阿帕比技术有限公司 【申请人类型】企业 【申请人地址】100871 北京市海淀区成府路298号中关村方正大厦9层 【申请人地区】中国 【申请人城市】北京市 【申请人区县】海淀区 【申请号】CN200810227302.7 【申请日】2008-11-26 【申请年份】2008 【公开公告号】CN101441621B 【公开公告日】2010-12-01 【公开公告年份】2010 【授权公告号】CN101441621B 【授权公告日】2010-12-01 【授权公告年份】2010.0 【IPC分类号】G06F17/22 【发明人】徐剑波; 董宁; 王辉 【主权项内容】一种版式文件自动成文的方法,其特征在于,该方法包括:A:从文字块集合{S}中筛选出标题块集合{T},根据所述标题块集合{T}得到文章集合{A};B:从文字块集合{S}中获取与文章集合{A}中匹配的文字块,设置为文章正文;C:获取文章集合{A}中的每篇文章,设置所述文章的其他组成信息。 【当前权利人】新方正控股发展有限责任公司; 北京方正阿帕比技术有限公司 【当前专利权人地址】广东省珠海市横琴新区华金街58号横琴国际金融中心大厦3007; 北京市海淀区花园路2号牡丹科技大厦B座5层502 【专利权人类型】其他有限责任公司; 有限责任公司 【统一社会信用代码】91110108101974963M; 91110108787754390J 【家族被引证次数】17