【摘要】 本发明提供一种发音质量评估系统中的置信度快速求取方法,包括:预处理分 帧;提取每帧语音的语音特征;根据全音节循环网络状态图、精细声学模型和语音 特征向量进行解码,得到最优路径上的各音素分割点信息;根据精细声学模型和对 应帧的PLP特征向量,对目标音素和语音帧做强制对齐处理,获得每一帧语音对应的 状态号,并计算各帧语音对应其相应状态的似然概率值;引入粗略的背景模型,计 算每帧语音在该模型包含的所有状态下的似然概率和;计算每一帧待评估语音的广 义后验概率;计算每个音素的广义后验概率并将其作为置信度得分。本发明的方法, 采用粗糙的背景模型作为后验概率分母部分计算的依据,从而极大降低广义后验概 率即置信度得分的计算量。 【专利类型】发明申请 【申请人】中国科学院声学研究所; 北京中科信利技术有限公司 【申请人类型】企业,科研单位 【申请人地址】100190北京市海淀区北四环西路21号中国科学院声学研究所 【申请人地区】中国 【申请人城市】北京市 【申请人区县】海淀区 【申请号】CN200810240811.3 【申请日】2008-12-23 【申请年份】2008 【公开公告号】CN101645271A 【公开公告日】2010-02-10 【公开公告年份】2010 【授权公告号】CN101645271B 【授权公告日】2011-12-07 【授权公告年份】2011.0 【发明人】董滨; 葛凤培; 颜永红 【主权项内容】1、一种发音质量评估系统中的置信度快速求取方法,其特征在于,包括如下步骤: 1)将待识别语音输入语音识别系统中; 2)对输入语音进行预处理,该预处理中包括分帧处理; 3)采用感知加权线性预测参数特征提取方法或者美尔域倒谱系数特征提取方法提取语音特征; 4)利用全音节循环网络状态图和精细声学模型,对特征向量序列进行解码,得到最优路径,记录最优路径上的各音素分割点信息; 5)按照步骤4)中得到的音素分割点,根据精细声学模型和对应帧的特征向量,对目标音素和语音帧做强制对齐处理,获得每一帧语音对应的状态号,并计算各帧语音对应其相应状态的似然概率值p(xt|st),其负对数为: 其中,xt为输入的第t帧语音特征,st为第t帧语音特征对应的隐马尔科夫模型的状态,该状态为正态分布N(μt,∑t),n是特征向量的维数; 6)引入粗略的背景模型,计算每帧语音在该模型包含的所有状态下的似然概率和 其中,D*是粗略背景模型中所有状态的集合; 7)计算每一帧待评估语音的广义后验概率: 8)分别计算每个音素的广义后验概率: 其中,τs、τe分别指输入的语音特征在当前音素的起始帧号和结束帧号,st是从强制对齐结果中获得的对应于第t帧语音特征xt的状态号; 9)将音素的广义后验概率作为该音素在发音质量评估系统中的置信度得分。。 【当前权利人】中国科学院声学研究所; 北京中科信利技术有限公司 【当前专利权人地址】北京市海淀区北四环西路21号中国科学院声学研究所; 【专利权人类型】; 其他有限责任公司 【统一社会信用代码】12100000400883447M; 911101087400715928 【被引证次数】TRUE 【家族被引证次数】TRUE