【摘要】 本发明公开了一种自动识别数字文档目录的方法及装置,用以解决现有技术中数字文档的目录人工识别效率低的问题。该方法根据数字文档的总页数及保存的目录页占总页数的比例参数,确定数字文档目录页所在的候选页;根据设置的至少一个特征信息,在候选页中确定候选目录页;在候选目录页中确定数字文档目录页;确定该一页中表示各章节内容的页码标识的位置;根据保存的层次关系,在每页版心范围内根据每行的属性信息,确定每行在目录中的层次,根据字符的间隔,将每行划分为不同的字符段,分别存储识别的层次信息及每个字符段。如本发明提出的方案自动识别数字文档的目录,有效的提高了数字文档的制作速度。 数据由整理 【专利类型】发明授权 【申请人】北京大学; 北大方正集团有限公司; 北京方正阿帕比技术有限公司 【申请人类型】企业,学校 【申请人地址】100871 北京市海淀区颐和园路5号 【申请人地区】中国 【申请人城市】北京市 【申请人区县】海淀区 【申请号】CN200810119333.0 【申请日】2008-09-03 【申请年份】2008 【公开公告号】CN101458680B 【公开公告日】2010-12-01 【公开公告年份】2010 【授权公告号】CN101458680B 【授权公告日】2010-12-01 【授权公告年份】2010.0 【IPC分类号】G06F17/21 【发明人】高良才; 陶欣; 褚一民; 汤帜 【主权项内容】一种自动识别数字文档目录的方法,其特征在于,包括:根据数字文档的总页数及保存的目录页占数字文档的总页数的比例参数,确定数字文档目录页所在的候选页区间;根据设置的至少一个特征信息,在所述候选页区间中确定候选目录页;将为候选目录页的候选页按照页码的大小顺序排列,从所述排列中选择候选页的页码连续,并且包含的候选页最多的候选页区间,将该候选页区间包含的候选页确定为数字文档目录页;在所述数字文档目录页中选择一页,根据该页的属性信息,确定该页中表示各章节内容的页码标识的位置;根据保存的层次关系,在所述数字文档目录页的每页版心范围内根据每行的属性信息,确定每行在目录中的层次,所述层次关系根据数字文档中每行包含的章节信息划分,并根据字符的间隔,将每行划分为若干个字符段,根据所述页码标识的位置及每个字符段的属性信息,分别存储层次信息、页码标识信息和对应每个属性的字符段信息。 【当前权利人】北京大学; 新方正控股发展有限责任公司; 北京方正阿帕比技术有限公司 【当前专利权人地址】北京市海淀区颐和园路5号; 广东省珠海市横琴新区华金街58号横琴国际金融中心大厦3007; 北京市海淀区花园路2号牡丹科技大厦B座5层502 【专利权人类型】公立; 其他有限责任公司; 有限责任公司 【统一社会信用代码】12100000400002259P; 91110108101974963M; 91110108787754390J 【引证次数】4.0 【被引证次数】3 【他引次数】4.0 【被自引次数】3.0 【家族引证次数】4.0 【家族被引证次数】18