【摘要】 本发明涉及一种版式文件中表格识别方法及系统,属于计算机信息处理领域的模式识别技术领域。现有的模式识别技术不能够有效识别和自动提取版面中的表格。本发明所述的方法及系统首先利用自动合并技术将版面中独立的文字进行合并,使其组织成为内容块,然后再根据这些内容块的空间位置、字体信息、排版信息进行表格的识别和内容的组合。采用本发明所述的方法及系统,可以通过分析报纸版面上内容的位置和排版信息,快速高效的识别表格,同时正确的组织表格内容。 【专利类型】发明申请 【申请人】北大方正集团有限公司; 北京方正阿帕比技术有限公司 【申请人类型】企业 【申请人地址】100871 北京市海淀区成府路298号方正大厦 【申请人地区】中国 【申请人城市】北京市 【申请人区县】海淀区 【申请号】CN200810224799.7 【申请日】2008-12-26 【申请年份】2008 【公开公告号】CN101770446A 【公开公告日】2010-07-07 【公开公告年份】2010 【授权公告号】CN101770446B 【授权公告日】2012-07-18 【授权公告年份】2012.0 【IPC分类号】G06F17/21 【发明人】徐剑波; 董宁 【主权项内容】一种版式文件中表格识别方法,包括以下步骤:(1)从版式文件中的版面中提取原始文字块,对原始文字块进行第一次合并,得到初始合并后的文字块;(2)对初始合并后的文字块进行进一步的合并,得到再次合并后的文字块;(3)对再次合并后的文字块进行筛选,选择出其中是表格的表格文字块;(4)将表格文字块中的文字内容进行重新组合,得到表格中的内容。 【当前权利人】新方正控股发展有限责任公司; 北京方正阿帕比技术有限公司 【当前专利权人地址】广东省珠海市横琴新区华金街58号横琴国际金融中心大厦3007; 北京市海淀区花园路2号牡丹科技大厦B座5层502 【专利权人类型】其他有限责任公司; 有限责任公司 【统一社会信用代码】91110108101974963M; 91110108787754390J 【引证次数】2.0 【被引证次数】28 【自引次数】2.0 【被自引次数】14.0 【被他引次数】14.0 【家族引证次数】4.0 【家族被引证次数】29