行业新闻

一种基于文字流的文章元数据信息自动抽取方法及系统专利

发布时间:2026-06-16

【摘要】本发明涉及一种基于文字流的文章元数据信息自动抽取方法及系统，属于信息识别与提取的技术领域。现有技术中，一般是重新录入这些元数据信息，或从版面文件中手工复制粘贴已经存在的文字信息，处理效率低，且容易出错。本发明所述的方法及系统根据元数据在文字流中的特征信息，采用正则表达式模板匹配的方式抽取文章元数据。采用本发明所述的方法及系统，针对刊物的排版规律进行元数据信息的匹配和自动提取，只需简单的人工验证准确性，加快了信息提取速度。【专利类型】发明申请【申请人】北大方正集团有限公司; 北京方正阿帕比技术有限公司【申请人类型】企业【申请人地址】100871北京市海淀区成府路298号方正大厦【申请人地区】中国【申请人城市】北京市【申请人区县】海淀区【申请号】CN200810119832.X 【申请日】2008-09-11 【申请年份】2008 【公开公告号】CN101673256A 【公开公告日】2010-03-17 【公开公告年份】2010 【授权公告号】CN101673256B 【授权公告日】2012-10-31 【授权公告年份】2012.0 【IPC分类号】G06F17/22; G06F17/30 【发明人】董宁; 任大勇; 朱兴【主权项内容】1.一种基于文字流的文章元数据信息自动抽取方法，包括以下步骤： (1)编写配置文件及脚本文件，将不同刊物的配置文件及脚本文件放入该刊物的配置目录下； (2)加载配置文件，系统读取每个刊物的配置文件，根据配置文件中记录的信息，获得脚本文件的路径及相关脚本函数信息； (3)加载脚本内容到引擎：系统将脚本文件中的脚本函数内容读取到脚本引擎中并加以解析； (4)通过界面进行提取操作：通过界面操作，将待抽取的文章内容以文字流的形式传给脚本文件中的正则表达式模板，进行信息提取； (5)正则表达式匹配：系统调用相关脚本函数，接收传入的文字流，根据事先设置的抽取级别或阈值，调用不同的正则表达式模板对文字流进行筛选与匹配，获取结果以文字流形式进行保存； (6)返回匹配结果并给与提示：脚本文件将匹配的结果元数据以文字流形式返回系统，系统通过在界面上设置特殊标志，给与用户提示，方便用户进行人工验证。【当前权利人】新方正控股发展有限责任公司; 北京方正阿帕比技术有限公司【当前专利权人地址】广东省珠海市横琴新区华金街58号横琴国际金融中心大厦3007; 北京市海淀区花园路2号牡丹科技大厦B座5层502 【专利权人类型】其他有限责任公司; 有限责任公司【统一社会信用代码】91110108101974963M; 91110108787754390J 【被引证次数】23 【被自引次数】5.0 【被他引次数】18.0 【家族引证次数】2.0 【家族被引证次数】23

一种动态换肤的界面生成装置与方法
【摘要】本发明公开了一种动态换肤的界面生成装置与方法，属于信息处理技术领域。本发明通过预先定义皮肤模板和皮肤元，通过皮肤选择装置，依据输入数据的数据类型、名称以及其他附加属性信息，选择匹配的皮肤模板和适合的皮肤元以动态生成皮肤文件。本发明通
一种金属Mg纳米颗粒材料的制备方法
【摘要】一种金属Mg纳米颗粒材料的制备方法属于纳米材料制备技术领域。其特征在于，是在非真空条件下，采用液氮介质中电弧放电、纯镁阳极自耗方法制备MgO纳米颗粒，其中在阴极端面开有内孔，将阳极置于阴极端部的内孔，起弧放电，在气流的作用下，将空气
高速飞行器薄壁壳结构强度拉伸试验防过载保护装置
【摘要】本发明为一种高速飞行器薄壁壳结构强度拉伸试验防过载保护装置，其包括：一双向限位固定连接拉杆，其第一端与拉伸动力机构输出端相固接；一单向限位活动连接拉杆，其第一端与加载连接环相固接；一载荷过渡框架，其上下两侧分别设置有一连接孔，双向限
一种LED灯
【摘要】本发明公开了一种LED灯，包括灯壳、散热片、电路板基板、LED发光二极，所述散热片固定在灯壳外部，所述电路板基板固定在灯壳内部；所述灯壳、所述散热片与所述电路板基板是相同材料一体成型的。所述灯壳、所述散热片与所述电路板基板的材
包装袋(虾丸)
【专利类型】外观设计【申请人】北京申马人食品销售有限公司; 潭小莉; 杨伟伟【申请人类型】个人,企业【申请人地址】100036北京市海淀区西三环中路18号万发大厦510室【申请人地区】中国【申请人城市】北京市【申请人区县】海淀区【申请号】C
一种用激光束在畜禽胴体体表灼刻的方法
【摘要】本发明涉及一种用激光束在畜禽胴体体表灼刻的方法。包括：将灼刻信息输入激光设备控制器中，畜禽胴体静置、或置于运动的流水线上，畜禽胴体体表朝向激光设备，激光设备中装有激光器、振镜、传感器、扩束镜、自动变焦装置、聚焦镜，激光设备由控制器控

产品分类

最新文章

一种基于文字流的文章元数据信息自动抽取方法及系统专利