【摘要】 本发明公开了一种中文引擎中查询词的拼写校正方法,属于网络信息处理领域。该方法包括:判断输入中文引擎的英文查询词是否为正确的英文查询词;对非正确的英文查询词,生成所述非正确的英文查询词的候选形式,按照预设规则将所述候选形式列入候选集合;对所述候选集合中的所有候选形式进行评分,将分值最高的候选形式作为校正后的形式返回给用户。本发明通过对错误的查询词的候选形式进行度量,选出分值最高的候选形式作为查询词的校正形式,有效地避免拼写错误对引擎的误导,使得引擎更加智能。。 【专利类型】发明授权 【申请人】清华大学; 北京搜狗科技发展有限公司 【申请人类型】企业,学校 【申请人地址】100084 北京市海淀区清华园1号 【申请人地区】中国 【申请人城市】北京市 【申请人区县】海淀区 【申请号】CN200810224323.3 【申请日】2008-10-17 【申请年份】2008 【公开公告号】CN101369285B 【公开公告日】2010-06-02 【公开公告年份】2010 【授权公告号】CN101369285B 【授权公告日】2010-06-02 【授权公告年份】2010.0 【IPC分类号】G06F17/30 【发明人】周博; 刘奕群; 张敏; 金奕江; 马少平; 茹立平; 佟子健 【主权项内容】 。一种中文引擎中查询词的拼写校正方法,其特征在于,所述方法包括:判断输入中文引擎的英文查询词是否为正确的英文查询词;对非正确的英文查询词,生成所述非正确的英文查询词的候选形式,按照预设规则将所述候选形式列入候选集合;根据α*Edsim/max(Edsim)+β*LogSim/max(LogSim)+(1-α-β)*ErrorTrend/max(ErrorTrend),对所述候选集合中的所有候选形式进行评分,将分值最高的候选形式作为校正后的形式返回给用户;其中,EdSim代表字型相似性特征,LogSim代表词频相似性特征,ErrorTrend代表错误倾向性特征,max表示对括号内的特征取最大值,α代表字型相似性特征在公式中的所占的比重,β代表词频相似性特征在公式中的所占的比重。 【当前权利人】清华大学; 北京搜狗科技发展有限公司 【当前专利权人地址】北京市海淀区清华园; 北京市海淀区中关村东路1号院9号楼搜狐网络大厦9层01房间 【专利权人类型】公立; 有限责任公司(台港澳法人独资) 【统一社会信用代码】12100000400000624D; 911101087839553124 【家族被引证次数】9