【摘要】 本发明涉及句子层面的大规模快速匹配方法,本方法包括索引建立、模糊匹配和精确匹配三个阶段。索引建立阶段进行句子内容的标准化、编码转换;模糊匹配阶段的目的是从海量句子中挑选出可能与新句子匹配的候选句子,其数量控制在一个可行的范围内;精确匹配阶段采用了基于编辑距离的相似性衡量算法,再根据精确匹配的相似性对候选句子排序得到最终匹配的句子。本发明方法的优点是实际测试性能优异,效率高、漏检率低,满足实用要求。 【专利类型】发明授权 【申请人】安徽科大讯飞信息科技股份有限公司 【申请人类型】企业 【申请人地址】230088 安徽省合肥市高新区黄山路616号信息产业基地 【申请人地区】中国 【申请人城市】合肥市 【申请人区县】蜀山区 【申请号】CN200810107117.4 【申请日】2008-07-17 【申请年份】2008 【公开公告号】CN101329680B 【公开公告日】2010-12-08 【公开公告年份】2010 【授权公告号】CN101329680B 【授权公告日】2010-12-08 【授权公告年份】2010.0 【IPC分类号】G06F17/30 【发明人】陈志刚; 胡国平; 胡郁; 刘庆峰; 王仁华 【主权项内容】句子层面的大规模快速匹配方法,包括索引和查询两个阶段,其特征在于还包括以下步骤:(1)对每个句子进行预处理后,把有效编码的字符串作为后续操作的输入;(2)索引阶段,对待索引的大规模句子中的每一个句子,从句首开始,在长度为L个字符的窗口内寻找某个符合特定条件的字符,并将此字符后面的K个字符组成一个子串,进行哈希编码并建立索引,然后将窗口滑动至索引子串后面的位置,继续以上操作,直到句子结束位置;(3)查询阶段,对于待查询的新句子,采用与索引阶段相同的方法构建子串并以子串为单位去查找哈希表,得到所有与新句子有相同子串的候选句子以及每个候选句子匹配成功的子串数目,根据匹配成功的子串数目以及候选句子的索引子串数目计算其粗匹配率;(4)根据粗匹配率,排序所有候选句子,选择最高粗匹配率的M个,句子快速模糊匹配结束。。: 【当前权利人】讯飞医疗科技股份有限公司 【当前专利权人地址】安徽省合肥市高新区望江西路666号A5楼23-24层 【引证次数】4.0 【他引次数】4.0 【家族引证次数】4.0 【家族被引证次数】15