【摘要】 本发明公开了一种字符切分方法及装置,其能够识别出包含粘连字符的字符单元图像块及包含偏旁部首的字符单元图像块,保证字符切分结果的正确性。本发明技术方案中,通过对文本图像进行行切分和列切分,获得若干个字符单元图像块,识别包含粘连字符的字符单元图像块,并继续切分所述包含粘连字符的字符单元图像块,识别汉字字符单元图像块区域和英文字符单元图像块区域,并在所述汉字字符单元图像块区域中识别由汉字字符偏旁部首占用的字符单元图像块,将相邻的汉字字符的偏旁部首占用的字符单元图像块合并为一个字符单元图像块。使得字符切分结果不用过分依赖于字符识别反馈机制,进一步提高了字符的识别率。 【专利类型】发明授权 【申请人】北大方正集团有限公司; 北京大学; 北京北大方正电子有限公司 【申请人类型】企业,学校 【申请人地址】100871 北京市海淀区成府路298号中关村方正大厦513 【申请人地区】中国 【申请人城市】北京市 【申请人区县】海淀区 【申请号】CN200810101591.6 【申请日】2008-03-07 【申请年份】2008 【公开公告号】CN101251892B 【公开公告日】2010-06-09 【公开公告年份】2010 【授权公告号】CN101251892B 【授权公告日】2010-06-09 【授权公告年份】2010.0 【IPC分类号】G06K9/20; G06K9/68; G06K9/72 【发明人】亓文法; 程道放; 李晓龙; 卢书一 【主权项内容】一种字符切分方法,其特征在于,包括:对文本图像进行行切分和列切分,获得若干个字符单元图像块;识别包含粘连字符的字符单元图像块,并继续切分所述包含粘连字符的字符单元图像块;识别汉字字符单元图像块区域和英文字符单元图像块区域,并在所述汉字字符单元图像块区域中识别由汉字字符偏旁部首占用的字符单元图像块;将相邻的汉字字符的偏旁部首占用的字符单元图像块合并为一个字符单元图像块;以及当字符单元图像块的宽度小于等于该字符单元图像块的高度,且该字符单元图像块完全在文本行中心线位置的上面或者下面时,确定字符单元图像块包含标点符号,或者当字符单元图像块的高度小于文本行的高度,宽度小于汉字字符单元图像块平均宽度的1/4,且该字符单元图像块与其相邻的前一字符单元图像块或后一字符单元图像块之间的距离值中,至少有一个距离值大于相邻中英文字符单元图像块之间距离范围的上限时,确定字符单元图像块包含标点符号。 【当前权利人】新方正控股发展有限责任公司; 北京大学; 北京北大方正电子有限公司 【当前专利权人地址】广东省珠海市横琴新区华金街58号横琴国际金融中心大厦3007; 北京市海淀区颐和园路5号; 北京市海淀区上地五街9号方正大厦 【专利权人类型】其他有限责任公司; 公立; 有限责任公司(台港澳法人独资) 【统一社会信用代码】91110108101974963M; 12100000400002259P; 9111010860004164XH 【引证次数】2.0 【被引证次数】2 【他引次数】2.0 【被他引次数】2.0 【家族引证次数】2.0 【家族被引证次数】78