【摘要】 本发明涉及自动字幕生成系统中的语音检测技术,具体涉及一种语音端 点检测中的背景噪声自适应调整方法。该方法根据背景噪声的实时变化,通 过重新计算背景噪声的短时能量Eb,短时过零率Zb和短时信息熵Hb的值来重 新确定每一帧的短时能频值,得到新的短时能频值序列,从而能够在复杂的 背景噪声环境下,对连续语音进行端点检测,提高了在复杂噪声背景下的语 音端点检测效率。 【专利类型】发明申请 【申请人】新奥特(北京)视频技术有限公司 【申请人类型】企业 【申请人地址】100080北京市海淀区西草场1号北京硅谷电脑城15层1501-1506室 【申请人地区】中国 【申请人城市】北京市 【申请人区县】海淀区 【申请号】CN200810116463.9 【申请日】2008-07-10 【申请年份】2008 【公开公告号】CN101625860A 【公开公告日】2010-01-13 【公开公告年份】2010 【授权公告号】CN101625860B 【授权公告日】2012-07-04 【授权公告年份】2012.0 【发明人】李祺; 马华东; 郑侃彦; 韩忠涛; 张婷 【主权项内容】1.一种语音端点检测中的背景噪声自适应调整方法,包括如下步骤: (1)将音频采样序列分成固定长度的帧,并形成一个帧序列,针对每一 帧数据提取短时能量、短时过零率和短时信息熵三个音频特征参数; (2)将音频文件最初的10ms作为环境音,将这10ms音频信号的短时能量 平均值、短时过零率平均值和短时信息熵平均值作为最初的背景噪声的短时能 量Eb、短时过零率Zb和短时信息熵Hb,计算得到短时能频值序列; (3)根据对短时能频值序列的分析找到一个语音起点,记为第Fb帧,判断 Fb帧与上一个语音终点所在的Ft帧相距的时间间隔,当该时间间隔大于规定长 度时,进行环境噪声的提取; (4)从第ft帧开始,取接下来的10帧当作背景噪声,重新计算背景噪声 的短时能量Eb,短时过零率Zb和短时信息熵Hb的值,计算方法采用取10帧中的 算术平均值; (5)从第Ft+1帧开始,使用更新后的背景噪声的短时能量Eb,短时过零 率Zb和短时信息熵Hb,重新计算每一帧的短时能频值,得到新的短时能频值序 列。 【当前权利人】新奥特(北京)视频技术有限公司 【当前专利权人地址】北京市海淀区西草场1号北京硅谷电脑城15层1501-1506室 【专利权人类型】有限责任公司(外国法人独资) 【统一社会信用代码】911101086631036849 【被引证次数】21 【家族被引证次数】21