【摘要】 本发明涉及一种浅层自然口语理解系统及方法,该系统包括:预处理模块、词 汇特征提取模块、上下文特征提取模块、实体模糊匹配模块、最大熵分类模块及 Viterbi模块。该系统及方法首先通过预处理解决部分口语现象,以简化后续处 理;接着对语句进行特征提取,包括基本字词特征,上下文字词特征和实体特征; 采用最大熵分类器进行识别;对整句进行优化得到最后分类标记序列;最后从分类 标记序列中提取出命名实体。本发明的系统及方法能够有效地、鲁棒地解决口语中 特有的重复、停顿、填充词等不连贯口语现象以及口语识别中可能出现的识别错误 等问题。 微信 【专利类型】发明申请 【申请人】中国科学院声学研究所; 北京中科信利技术有限公司 【申请人类型】企业,科研单位 【申请人地址】100190北京市海淀区北四环西路21号中国科学院声学研究所 【申请人地区】中国 【申请人城市】北京市 【申请人区县】海淀区 【申请号】CN200810239727.X 【申请日】2008-12-16 【申请年份】2008 【公开公告号】CN101645064A 【公开公告日】2010-02-10 【公开公告年份】2010 【授权公告号】CN101645064B 【授权公告日】2011-04-06 【授权公告年份】2011.0 【发明人】徐为群; 包长春; 李亚丽; 潘接林; 颜永红 【主权项内容】1、一种浅层自然口语理解系统,该系统包括: 一预处理模块,用于将输入的口语中无意义的填充词去除,并将预处理后的语 音序列输出; 一最大熵分类模块,对输入序列的每一点,通过选取该点的词汇特征、上下文 特征等特征,通过最大熵算法取得该点的所有可能的分类的后向概率分布; 一维特比模块,用于在最大熵输出的分类标记序列网上最优路径,得 到最优的分类标记序列,从而得出命名实体; 其特征在于,最大熵模型选择的特征模块包括: 一词汇特征提取模块,用于通过各个实体类和非实体类经常出现的词汇,判 断预处理后的语音序列中的词的实体类别,并将该实体类别送入最大熵分类模 块; 一上下文特征提取模块,用于通过实体前、后的特定的词汇,判断预处理后 的语音序列中的词的实体类别,并将该实体类别送入最大熵分类模块;和 一实体模糊匹配模块,用于利用实体知识库,通过模糊匹配算法,在输入的 预处理后的语音序列中探测并识别出知识库中已有的实体类别,并将该实体类别 送入最大熵分类模块。 【当前权利人】中国科学院声学研究所; 北京中科信利技术有限公司 【当前专利权人地址】北京市海淀区北四环西路21号中国科学院声学研究所; 北京市海淀区北四环西路21号DSP大楼1层 【专利权人类型】; 其他有限责任公司 【统一社会信用代码】12100000400883447M; 911101087400715928 【被引证次数】TRUE 【家族被引证次数】TRUE