【摘要】 本发明公开了一种识别扫描图像中表格单元的方法及装置,包括:获取表 格文档的扫描图像中的水平线段和垂直线段;去除扫描图像中小于第一阈值的 水平线段和垂直线段,所述第一阈值根据扫描图像中的最小字符高度和扫描图 像的分辨率设定;根据剩余的水平线段和垂直线段识别扫描图像中的表格单 元。使用本发明,不仅具有传统直线检测算法识别成功率高的特点,还能够在 保证高识别率的前提下,提高扫描图像中表格单元识别速度。 【专利类型】发明申请 【申请人】北大方正集团有限公司; 北京大学; 北京北大方正电子有限公司 【申请人类型】企业,学校 【申请人地址】100871北京市海淀区成府路298号中关村方正大厦9层 【申请人地区】中国 【申请人城市】北京市 【申请人区县】海淀区 【申请号】CN200810222480.0 【申请日】2008-09-17 【申请年份】2008 【公开公告号】CN101676930A 【公开公告日】2010-03-24 【公开公告年份】2010 【IPC分类号】G06K9/20 【发明人】亓文法; 李晓龙 【主权项内容】1、一种识别扫描图像中表格单元的方法,其特征在于,包括如下步骤: 获取表格文档的扫描图像中的水平线段和垂直线段; 去除扫描图像中小于第一阈值的水平线段和垂直线段,所述第一阈值根据 扫描图像中的最小字符高度和扫描图像的分辨率设定; 根据剩余的水平线段和垂直线段识别扫描图像中的表格单元。 【当前权利人】北大方正集团有限公司; 北京大学; 北京北大方正电子有限公司 【当前专利权人地址】北京市海淀区成府路298号中关村方正大厦9层; 北京市海淀区颐和园路5号; 北京市海淀区上地五街九号 【专利权人类型】其他有限责任公司; 公立; 有限责任公司(台港澳法人独资) 【统一社会信用代码】91110108101974963M; 12100000400002259P; 9111010860004164XH 【被引证次数】40 【被自引次数】3.0 【被他引次数】37.0 【家族被引证次数】40