【摘要】 本发明公开了一种变异关键词的提取方法,通过字符区位将噪音字符去除, 提取出噪音字符的变异关键词;通过拼音文件将分词后文本和关键词转换为文 本整数串,然后提取拼音替换、谐音替换的变异关键词;通过建立形近字库, 比较分词后文本的每个汉字与关键词库中的关键词的每个汉字是否为同一组形 近字,提取形近字替换的变异关键词,这样实行了变异关键词的正常提取。 【专利类型】发明授权 【申请人】电子科技大学 【申请人类型】学校 【申请人地址】611731四川省成都市高新西区西源大道2006号 【申请人地区】中国 【申请人城市】成都市 【申请人区县】郫都区 【申请号】CN200810045712.X 【申请日】2008-07-31 【申请年份】2008 【公开公告号】CN100589098C 【公开公告日】2010-02-10 【公开公告年份】2010 【授权公告号】CN100589098C 【授权公告日】2010-02-10 【授权公告年份】2010.0 【发明人】傅彦; 陈安龙; 周俊临; 尚明生; 史伟; 王全礼; 关娜 【主权项内容】1、一种变异关键词的提取方法,其特征在于,包括以下步骤: (1)、如果分词后文本中有非汉字噪音符号,则将分词后文本中其区位码 属于01-09区内的特殊字符去掉,从而去除分词后文本中的非汉字噪音符号,然 后进行下一步,否则,直接进行下一步; (2)、建立关键词库,将分词后文本送到关键词库中进行匹配,如果匹配 成功,则提取,否则,进行下一步; (3)、建立一个拼音文件,将分词后文本中拼音相同的汉字和拼音转换成 对应的整数,从而将其从字符串转换为文本整数串;将步骤(2)中的关键词库 中的所有关键词通过拼音文件也转换为关键词整数串;比较文本整数串和关键 词整数串,如果相同,则提取,否则,进行下一步; (4)、对汉字进行形近字分组,建立一个形近字库;将分词后文本的每一 个汉字与关键词库中的关键词的每一个汉字根据该形近字库的汉字分组进行匹 配,如果分词后文本的每一个汉字与关键词库中的关键词的每一个汉字属于同 一组,则提取,否则,不是关键词。 【当前权利人】电子科技大学 【当前专利权人地址】四川省成都市高新西区西源大道2006号 【专利权人类型】公立 【统一社会信用代码】121000004507193117 【被引证次数】TRUE 【家族被引证次数】TRUE