【摘要】 本发明涉及自动字幕生成系统中的语音检测技术,具体涉及一种自适应 的语音端点监测方法。该方法将音频采样序列分成固定长度的帧,并形成一 个帧序列,针对每一帧数据提取短时能量、短时过零率和短时信息熵三个音 频特征参数;根据音频特征参数计算每一帧数据的短时能频值,并形成一个 短时能频值序列;从第一帧数据开始,分析短时能频值序列,并找出一对语 音起点和终点;分析背景噪声,如果发现背景噪声发生改变,则重新计算背 景噪声的音频特征参数,并更新短时能频值序列;重复此过程直到检测结束。 本发明可以在背景噪声经常发生变化的情况下,对连续语音进行语音端点检 测,从而提高在复杂噪声背景下的语音端点检测效率。 -官网 【专利类型】发明申请 【申请人】新奥特(北京)视频技术有限公司 【申请人类型】企业 【申请人地址】100080北京市海淀区西草场1号北京硅谷电脑城15层1501-1506室 【申请人地区】中国 【申请人城市】北京市 【申请人区县】海淀区 【申请号】CN200810116450.1 【申请日】2008-07-10 【申请年份】2008 【公开公告号】CN101625857A 【公开公告日】2010-01-13 【公开公告年份】2010 【授权公告号】CN101625857B 【授权公告日】2012-05-09 【授权公告年份】2012.0 【发明人】李祺; 马华东; 郑侃彦; 韩忠涛; 张婷 【主权项内容】1.一种自适应的语音端点检测方法,包括如下步骤: (1)音频数据输入后,解析音频文件并提取数字采样值,对获取到的音 频采样序列进行带通滤波; (2)将音频采样序列分成固定长度的帧,并形成一个帧序列,针对每一 帧数据提取短时能量、短时过零率和短时信息熵三个音频特征参数; (3)根据上述音频特征参数计算每一帧数据的短时能频值,并形成一个 短时能频值序列; (4)从第一帧数据开始,分析短时能频值序列,并找出一对语音起点和 终点; (5)分析背景噪声,如果发现背景噪声发生改变,则重新计算背景噪声 的音频特征参数,并更新短时能频值序列; (6)返回步骤(4),继续寻找下一对语音起点和终点,重复此过程直 到检测结束,并输出语音端点检测结果。 【当前权利人】新奥特(北京)视频技术有限公司 【当前专利权人地址】北京市海淀区西草场1号北京硅谷电脑城15层1501-1506室 【专利权人类型】有限责任公司(外国法人独资) 【统一社会信用代码】911101086631036849 【被引证次数】91 【家族被引证次数】92