24小时服务热线
效率高速
品质保障
厂家直供
售后保障
行业新闻
当前位置:行业新闻>

一种基于文字流的文章元数据信息自动抽取方法及系统专利

发布时间:2026-06-16

【摘要】 本发明涉及一种基于文字流的文章元数据信息自动抽取方法及系统,属于 信息识别与提取的技术领域。现有技术中,一般是重新录入这些元数据信息, 或从版面文件中手工复制粘贴已经存在的文字信息,处理效率低,且容易出错。 本发明所述的方法及系统根据元数据在文字流中的特征信息,采用正则表达式 模板匹配的方式抽取文章元数据。采用本发明所述的方法及系统,针对刊物的 排版规律进行元数据信息的匹配和自动提取,只需简单的人工验证准确性,加 快了信息提取速度。 【专利类型】发明申请 【申请人】北大方正集团有限公司; 北京方正阿帕比技术有限公司 【申请人类型】企业 【申请人地址】100871北京市海淀区成府路298号方正大厦 【申请人地区】中国 【申请人城市】北京市 【申请人区县】海淀区 【申请号】CN200810119832.X 【申请日】2008-09-11 【申请年份】2008 【公开公告号】CN101673256A 【公开公告日】2010-03-17 【公开公告年份】2010 【授权公告号】CN101673256B 【授权公告日】2012-10-31 【授权公告年份】2012.0 【IPC分类号】G06F17/22; G06F17/30 【发明人】董宁; 任大勇; 朱兴 【主权项内容】1.一种基于文字流的文章元数据信息自动抽取方法,包括以下步骤: (1)编写配置文件及脚本文件,将不同刊物的配置文件及脚本文件放入该 刊物的配置目录下; (2)加载配置文件,系统读取每个刊物的配置文件,根据配置文件中记录 的信息,获得脚本文件的路径及相关脚本函数信息; (3)加载脚本内容到引擎:系统将脚本文件中的脚本函数内容读取到脚本 引擎中并加以解析; (4)通过界面进行提取操作:通过界面操作,将待抽取的文章内容以文字 流的形式传给脚本文件中的正则表达式模板,进行信息提取; (5)正则表达式匹配:系统调用相关脚本函数,接收传入的文字流,根据 事先设置的抽取级别或阈值,调用不同的正则表达式模板对文字流进行筛选与 匹配,获取结果以文字流形式进行保存; (6)返回匹配结果并给与提示:脚本文件将匹配的结果元数据以文字流形 式返回系统,系统通过在界面上设置特殊标志,给与用户提示,方便用户进行 人工验证。 【当前权利人】新方正控股发展有限责任公司; 北京方正阿帕比技术有限公司 【当前专利权人地址】广东省珠海市横琴新区华金街58号横琴国际金融中心大厦3007; 北京市海淀区花园路2号牡丹科技大厦B座5层502 【专利权人类型】其他有限责任公司; 有限责任公司 【统一社会信用代码】91110108101974963M; 91110108787754390J 【被引证次数】23 【被自引次数】5.0 【被他引次数】18.0 【家族引证次数】2.0 【家族被引证次数】23

  • 【摘要】本发明公开了一种动态换肤的界面生成装置与方法,属于信息处理技术领域。本发明通过预先定义皮肤模板和皮肤元,通过皮肤选择装置,依据输入数据的数据类型、名称以及其他附加属性信息,选择匹配的皮肤模板和适合的皮肤元以动态生成皮肤文件。本发明通
  • 【摘要】一种金属Mg纳米颗粒材料的制备方法属于纳米材料制备技术领域。其特征在于,是在非真空条件下,采用液氮介质中电弧放电、纯镁阳极自耗方法制备MgO纳米颗粒,其中在阴极端面开有内孔,将阳极置于阴极端部的内孔,起弧放电,在气流的作用下,将空气
  • 【摘要】本发明为一种高速飞行器薄壁壳结构强度拉伸试验防过载保护装置,其包括:一双向限位固定连接拉杆,其第一端与拉伸动力机构输出端相固接;一单向限位活动连接拉杆,其第一端与加载连接环相固接;一载荷过渡框架,其上下两侧分别设置有一连接孔,双向限
  • 【摘要】本发明公开了一种LED灯,包括灯壳、散热片、电路板基板、LED发 光二极,所述散热片固定在灯壳外部,所述电路板基板固定在灯壳内部; 所述灯壳、所述散热片与所述电路板基板是相同材料一体成型的。所述灯 壳、所述散热片与所述电路板基板的材
  • 【专利类型】外观设计【申请人】北京申马人食品销售有限公司; 潭小莉; 杨伟伟【申请人类型】个人,企业【申请人地址】100036北京市海淀区西三环中路18号万发大厦510室【申请人地区】中国【申请人城市】北京市【申请人区县】海淀区【申请号】C
  • 【摘要】本发明涉及一种用激光束在畜禽胴体体表灼刻的方法。包括:将灼刻信息输入激光设备控制器中,畜禽胴体静置、或置于运动的流水线上,畜禽胴体体表朝向激光设备,激光设备中装有激光器、振镜、传感器、扩束镜、自动变焦装置、聚焦镜,激光设备由控制器控