【摘要】 本发明涉及一种基于文字流的文章元数据信息自动抽取方法及系统,属于 信息识别与提取的技术领域。现有技术中,一般是重新录入这些元数据信息, 或从版面文件中手工复制粘贴已经存在的文字信息,处理效率低,且容易出错。 本发明所述的方法及系统根据元数据在文字流中的特征信息,采用正则表达式 模板匹配的方式抽取文章元数据。采用本发明所述的方法及系统,针对刊物的 排版规律进行元数据信息的匹配和自动提取,只需简单的人工验证准确性,加 快了信息提取速度。 【专利类型】发明申请 【申请人】北大方正集团有限公司; 北京方正阿帕比技术有限公司 【申请人类型】企业 【申请人地址】100871北京市海淀区成府路298号方正大厦 【申请人地区】中国 【申请人城市】北京市 【申请人区县】海淀区 【申请号】CN200810119832.X 【申请日】2008-09-11 【申请年份】2008 【公开公告号】CN101673256A 【公开公告日】2010-03-17 【公开公告年份】2010 【授权公告号】CN101673256B 【授权公告日】2012-10-31 【授权公告年份】2012.0 【IPC分类号】G06F17/22; G06F17/30 【发明人】董宁; 任大勇; 朱兴 【主权项内容】1.一种基于文字流的文章元数据信息自动抽取方法,包括以下步骤: (1)编写配置文件及脚本文件,将不同刊物的配置文件及脚本文件放入该 刊物的配置目录下; (2)加载配置文件,系统读取每个刊物的配置文件,根据配置文件中记录 的信息,获得脚本文件的路径及相关脚本函数信息; (3)加载脚本内容到引擎:系统将脚本文件中的脚本函数内容读取到脚本 引擎中并加以解析; (4)通过界面进行提取操作:通过界面操作,将待抽取的文章内容以文字 流的形式传给脚本文件中的正则表达式模板,进行信息提取; (5)正则表达式匹配:系统调用相关脚本函数,接收传入的文字流,根据 事先设置的抽取级别或阈值,调用不同的正则表达式模板对文字流进行筛选与 匹配,获取结果以文字流形式进行保存; (6)返回匹配结果并给与提示:脚本文件将匹配的结果元数据以文字流形 式返回系统,系统通过在界面上设置特殊标志,给与用户提示,方便用户进行 人工验证。 【当前权利人】新方正控股发展有限责任公司; 北京方正阿帕比技术有限公司 【当前专利权人地址】广东省珠海市横琴新区华金街58号横琴国际金融中心大厦3007; 北京市海淀区花园路2号牡丹科技大厦B座5层502 【专利权人类型】其他有限责任公司; 有限责任公司 【统一社会信用代码】91110108101974963M; 91110108787754390J 【被引证次数】23 【被自引次数】5.0 【被他引次数】18.0 【家族引证次数】2.0 【家族被引证次数】23