行业新闻

一种网页的正文抽取方法专利

发布时间:2026-06-15

【摘要】。本发明提供一种网页的正文抽取方法，包括下列步骤：1)将为所述网页建立的DOM树中的所有特征节点进行合并段落操作；2)从承载最长段落的节点集合中任选一个节点，从所选节点回溯至所述DOM树的根节点，计算各个节点的父节点及其子树与该节点及其子树承载的文本的标点符号的数量的差值，顺序构成增量序列；3)在所述增量序列中查找第一个0值的增量，或第一个小于其前面相邻增量且小于或等于其后面相邻增量的增量；4)如果查找到所述增量，则确定该增量的对应节点及其子树所承载的文本是网页的正文；5)如果未查找到所述增量，则确定根节点及其子树所承载的文本是网页的正文。本发明抽取精度高，实现速度快，维护代价低且适应性好。【专利类型】发明申请【申请人】中国科学院计算技术研究所【申请人类型】科研单位【申请人地址】100190 北京市海淀区中关村科学院南路6号【申请人地区】中国【申请人城市】北京市【申请人区县】海淀区【申请号】CN200810223791.9 【申请日】2008-10-13 【申请年份】2008 【公开公告号】CN101727461A 【公开公告日】2010-06-09 【公开公告年份】2010 【授权公告号】CN101727461B 【授权公告日】2012-11-21 【授权公告年份】2012.0 【IPC分类号】G06F17/30 【发明人】郭岩; 丁国栋; 张刚【主权项内容】一种网页的正文抽取方法，包括下列步骤：1)将为所述网页建立的DOM树中的所有特征节点进行合并段落操作；2)从承载最长段落的节点集合中任选一个节点n1，从所选节点n1回溯至所述DOM树的根节点nm，计算所述所选节点的父节点n2及其子树与所述所选节点n1及其子树承载的文本的标点符号的数量的差值d2，依此类推，直到计算所述根节点及其子树与所述根节点的子节点及其子树承载的文本的标点符号的数量的增量dm，顺序构成增量序列；3)在所述增量序列中查找第一个0值的增量dp，或第一个小于其前面相邻增量且小于或等于其后面相邻增量的增量dq；4)如果查找到所述增量dp或所述增量dq，则确定所述增量dp的对应节点np-1及其子树或所述增量dq的对应节点nq-1及其各自的子树所承载的文本是网页的正文；5)如果未查找到所述增量dp或所述增量dq，则确定所述根节点nm及其子树所承载的文本是网页的正文。。【当前权利人】中国科学院计算技术研究所【当前专利权人地址】北京市海淀区中关村科学院南路6号【统一社会信用代码】12100000400012342E 【引证次数】3.0 【被引证次数】35 【他引次数】3.0 【被自引次数】1.0 【被他引次数】34.0 【家族引证次数】3.0 【家族被引证次数】35

能延长NandFlash寿命的存储装置及税控收款机
【摘要】本发明为一种能够延长NandFlash使用寿命的存储装置及税控打印机，其中存储装置包括：一NandFlash存储器，用来存储大量数据，其对数据的读、写是按页操作；还包括：一FRAM存储器，其作为所述的NandFlash存储器临时
一种闪存块磨损平衡的方法和系统
【摘要】本发明公开了一种闪存块磨损平衡的方法和系统，属于存储技术领域。所述方法包括：接收到向第一逻辑块写入新数据的指令；获取备份块的位置；将所述第一逻辑块中的数据读入内存，在所述内存中将所述数据更新为欲写入所述第一逻辑块中的写入数据；将所述
数字电视接收设备的信号驱动方法和装置
【摘要】本发明公开了一种数字电视接收设备及其信号驱动方法和装置，装置中包括：通用设置接口、信号转换模块、MPEG2-TS流解复用接口、节目描述信息获取接口及节目过滤接口。方法包括：在数字电视接收设备的信号接收模块中设置信号传输频点；将所述频
转子发动机用十字火焰稳定器
【摘要】一种转子发动机用十字火焰稳定器，由稳火槽和供油装置组成，供油装置位于稳火槽内；稳火槽为十字架形状，由横竖两根二维V型槽构成，可产生横跨燃烧室高度和宽度的大尺度稳定预燃级火焰；十字火焰稳定器中心位于燃烧室高位，利用强离心效应使高位预燃
一种结肠透析机
【摘要】本发明一种结肠透析机包括药泵、药液容器和测量、控制集成电路，其特征在于所述的药泵与通过结肠途径置入人体内的废液析出管的管壁上的通孔或支管口或插入支管口中的的注液管在外的端头相连；还包括灌洗泵，所述灌洗泵的输入端与储液箱相连，输出端与
一种直流灌溉控制装置
【摘要】一种直流灌溉控制装置，包括主控制模块、RS485通信模块、按键模块、液晶显示模块、传感器和电磁阀驱动模块以及电源模块。用户可以通过按键模块和液晶显示模块对主控制模块进行灌溉参数设置，也可以通过上位机进行灌溉参数设置，然后，主控

产品分类

最新文章

一种网页的正文抽取方法专利