【摘要】 本发明涉及自动字幕生成系统中的语音检测技术,具体涉及一种自动字 幕生成系统中语音区间的检测方法。该方法将音频采样序列分成固定长度的 帧,计算每一帧的短时能频值,并形成一个短时能频值序列;从第一帧数据 开始,分析短时能频值序列,寻找短时能频值序列的上升区间或下降区间; 通过计算短时能频值序列波形的平均斜率,并与门限值进行比较,确定语音 的起点或终点,最终完成对语音区间的检测。本发明可以在背景噪声经常发 生变化的情况下,对连续语音进行语音端点检测,从而提高在复杂噪声背景 下的语音端点检测效率。 【专利类型】发明申请 【申请人】新奥特(北京)视频技术有限公司 【申请人类型】企业 【申请人地址】100080北京市海淀区西草场1号北京硅谷电脑城15层1501-1506室 【申请人地区】中国 【申请人城市】北京市 【申请人区县】海淀区 【申请号】CN200810116460.5 【申请日】2008-07-10 【申请年份】2008 【公开公告号】CN101625862A 【公开公告日】2010-01-13 【公开公告年份】2010 【授权公告号】CN101625862B 【授权公告日】2012-07-18 【授权公告年份】2012.0 【发明人】李祺; 马华东; 郑侃彦; 韩忠涛; 张婷 【主权项内容】1.一种自动字幕生成系统中语音区间的检测方法,包括如下步骤: (1)将音频采样序列分成固定长度的帧,计算音频文件中每一帧的短时能频值,形成一个短时能频值序列:X1X2X3X4......Xn; (2)从第一帧开始依次分析短时能频值序列,设当前所分析的为第t帧,检测第t帧之后每一帧的短时能频值,直至找到一帧j,使得 Xt≤Xt+1≤Xt+2≤......≤Xj且Xj+1≥Xj+2 即寻找从第t帧开始的短时能频值序列的上升区间,记为At; (3)计算所找到的上升区间At的短时能频值序列波形的平均斜率Rt: 其中,Xt为第t帧的短时能频值,Xj为第j帧的短时能频值; (4)设定一个门限值Rm来确定语音起始点,如果Rt≥Rm,且第t帧之前的区间没有被认为是语音区间,则将第t帧记为语音的起点,然后令t=j+1,去寻找与之相匹配的语音终点,从而确定一个语音区间;如果Rt<Rm,则令t=j+1,重复步骤(2)的操作。 【当前权利人】新奥特(北京)视频技术有限公司 【当前专利权人地址】北京市海淀区西草场1号北京硅谷电脑城15层1501-1506室 【专利权人类型】有限责任公司(外国法人独资) 【统一社会信用代码】911101086631036849 【被引证次数】14 【家族被引证次数】14