【摘要】 本发明公开了一种对象级知识挖掘系统,包括:数据采集模块,用于采集数据,包括一个WEB抓取器;数据清洗模块,用于对结构化数据进行处理,包括一个数据验证模块以及一个去重处理模块;内容预处理模块,用于对非结构化数据进行预处理,包括一个元数据管理模块以及一个内容解析器;对象相关模块,用于分析该内容预处理模块处理后的内容的相关度,包括一个相关度分析器。以及一种对象级知识挖掘方法,包括:从网页采集信息;对于采集到的结构化数据,执行数据清洗处理;对于采集到的非结构化数据,执行内容预处理操作;预处理后得到的内容,再执行对象相关操作。 【专利类型】发明授权 【申请人】上海估家网络科技有限公司; 张效海 【申请人类型】企业,个人 【申请人地址】200050 上海市长宁区江苏路121-123号中西大厦20D 【申请人地区】中国 【申请人城市】上海市 【申请人区县】长宁区 【申请号】CN200810033687.3 【申请日】2008-02-19 【申请年份】2008 【公开公告号】CN101231661B 【公开公告日】2010-06-23 【公开公告年份】2010 【授权公告号】CN101231661B 【授权公告日】2010-06-23 【授权公告年份】2010.0 【IPC分类号】G06F17/30 【发明人】张效海; 虞继恩 【主权项内容】一种对象级知识挖掘方法,包括:从网页采集信息,包括将网页分类抓取其中的内容,其中网页分为链接页和内容页;使用四种结构化规则获取内容,包括正则表达式、动态Java脚本、父子页面继承和常量;对于采集到的结构化数据,执行数据清洗处理:对于采集到的非结构化数据,执行内容预处理操作;预处理后得到的内容,再执行对象相关操作;其中抓取的方式采用分布式方式进行,利用至少一台服务器和至少一个客户端分别执行抓取过程的不同阶段,服务器把入口URL和URL对应的结构化规则,发送给多个客户端,客户端开启抓取流程,当其中一个客户端抓取完毕时发送已空闲命令,服务器又会把其他网站的抓取信息发送给客户端,当服务器未接受到空闲命令的时候,将一直等待。。 【当前权利人】上海估家网络科技有限公司; 张效海 【当前专利权人地址】上海市长宁区江苏路121-123号中西大厦20D; 【专利权人类型】有限责任公司 【统一社会信用代码】91310105795627180R 【引证次数】2.0 【他引次数】2.0 【家族引证次数】2.0 【家族被引证次数】33