【摘要】 本发明实施例公开了一种冗余检测方法和系统。一种冗余检测方法,包括:对POI数据的名称进行二元切分,为切分的二元词建立倒排索引,并为POI数据根据倒排索引中的出现频率最低的词相似POI数据;对到的具有名称相似关系的POI数据,进行名称相似度计算和地址相似度计算;根据POI数据的名称相似度和地址相似度得到总相似度;将总相似度与预设的阈值比较,大于预设阈值的,判定对应POI数据为冗余数据。利用本发明,可以实现对电子地图POI数据中的冗余检测。 【专利类型】发明授权 【申请人】北京搜狗科技发展有限公司 【申请人类型】企业 【申请人地址】100084 北京市海淀区中关村东路1号院9号楼搜狐网络大厦9层01房间 【申请人地区】中国 【申请人城市】北京市 【申请人区县】海淀区 【申请号】CN200810119849.5 【申请日】2008-09-12 【申请年份】2008 【公开公告号】CN101388023B 【公开公告日】2010-09-15 【公开公告年份】2010 【授权公告号】CN101388023B 【授权公告日】2010-09-15 【授权公告年份】2010.0 【IPC分类号】G06F17/30 【发明人】董正斌; 张阔 【主权项内容】一种冗余检测方法,其特征在于,包括:对兴趣点POI数据的名称进行二元切分,为切分的二元词建立倒排索引,并为POI数据根据倒排索引中的出现频率最低的词相似POI数据;对到的具有名称相似关系的POI数据,进行名称相似度计算和地址相似度计算;根据POI数据的名称相似度和地址相似度得到总相似度;将总相似度与预设的阈值比较,大于预设阈值的,判定对应POI数据为冗余数据。 【当前权利人】北京搜狗科技发展有限公司 【当前专利权人地址】北京市海淀区中关村东路1号院9号楼搜狐网络大厦9层01房间 【专利权人类型】有限责任公司(台港澳法人独资) 【统一社会信用代码】911101087839553124 【家族被引证次数】72