【摘要】 本发明涉及一种基于混合模型状态修正的非母语语音识别系统及方法。该系统 包括:非母语语音接口、母语模型模块、非母语模型模块、母语状态解码模块、非 母语状态强制对齐模块、母语与非母语状态相似度矩阵计算模块、母语与非母语状 态映射表计算模块及非母语状态修正模型解码模块,该系统及方法通过不同模型间 的状态映射,利用说话人母语的声学模型在状态级别上对非母语声学模型进行修正, 从而得到更为符合非母语发音特点的模型。该系统及方法有如下优点:在不增加任 何非母语语音训练数据,仅依靠说话人母语训练数据的前提下,相对未采用该方法 修正过的识别系统的识别性能有明显提高;同时系统识别语音的速度并未明显降低, 具有很高的实用性。 【专利类型】发明申请 【申请人】中国科学院声学研究所; 北京中科信利技术有限公司 【申请人类型】企业,科研单位 【申请人地址】100190北京市海淀区北四环西路21号中国科学院声学研究所 【申请人地区】中国 【申请人城市】北京市 【申请人区县】海淀区 【申请号】CN200810239892.5 【申请日】2008-12-19 【申请年份】2008 【公开公告号】CN101650943A 【公开公告日】2010-02-17 【公开公告年份】2010 【发明人】颜永红; 潘接林; 张晴晴 【主权项内容】1、一种非母语语音识别系统,其特征在于,所述系统包括: 一非母语语音接口,用于采集非母语语音数据,并将该非母语语音数据送入非 母语状态强制对齐模块和母语状态解码模块; 一母语模型模块,用于向母语状态解码模块和非母语状态修正模型解码模块提 供母语声学模型; 一非母语模型模块,用于向非母语状态强制对齐模块和非母语状态修正模型解 码模块提供非母语声学模型; 一母语状态解码模块,用于根据标准母语声学模型对非母语语音数据进行解码, 得到母语语音状态级分段信息,即母语语音状态解码信息,并将母语语音状态级分 段信息送入母语与非母语状态相似度矩阵计算模块; 一非母语状态强制对齐模块,用于根据非母语声学模型将非母语语音数据进行 强制对齐,得到非母语语音状态级分段信息,即非母语语音状态参考信息,并将非 母语语音状态级分段信息送入母语与非母语状态相似度矩阵计算模块; 一母语与非母语状态相似度矩阵计算模块,用于将母语语音状态级分段信息和 非母语语音状态级分段信息在时间上对齐,当母语语音状态与非母语语音状态的重 合时间大于预先设定的门限值时,认为这两个状态出现一次“同现”,统计出所有的 “同现”情况,并计算得到非母语语音状态对应于母语语音状态的相似度矩阵,并 将该相似度矩阵信息送入母语与非母语状态映射表计算模块; 一母语与非母语状态映射表计算模块,用于根据相似度矩阵计算得到状态映射 表;及 一非母语状态修正模型解码模块,用于在语音识别的解码过程中,用状态映射 表中找到的母语声学模型状态修正相应的非母语声学模型状态,得到修正后的非母 语声学模型;最终利用该修正后的非母语声学模型完成非母语语音识别。 【当前权利人】中国科学院声学研究所; 北京中科信利技术有限公司 【当前专利权人地址】北京市海淀区北四环西路21号中国科学院声学研究所; 北京市海淀区北四环西路21号DSP大楼1层 【专利权人类型】; 其他有限责任公司 【统一社会信用代码】12100000400883447M; 911101087400715928 【被引证次数】TRUE 【家族被引证次数】TRUE