【摘要】 本发明涉及自动字幕生成系统中的语音检测技术,具体涉及一种语音端 点检测中短时能频值的提取方法。该方法将音频采样序列分成固定长度的帧, 并形成一个帧序列;针对每一帧数据提取短时能量、短时过零率和短时信息 熵三个音频特征参数;根据上述音频特征参数计算每一帧数据的短时能频值, 并形成一个短时能频值序列。本发明将时域和频域的音频特征参数结合在一 起,能够发挥它们各自的长处,同时又可以在一定程度上规避各自的缺点, 从而能够有效的应对各种不同类型的背景噪声。 【专利类型】发明申请 【申请人】新奥特(北京)视频技术有限公司 【申请人类型】企业 【申请人地址】100080北京市海淀区西草场1号北京硅谷电脑城15层1501-1506室 【申请人地区】中国 【申请人城市】北京市 【申请人区县】海淀区 【申请号】CN200810116461.X 【申请日】2008-07-10 【申请年份】2008 【公开公告号】CN101625858A 【公开公告日】2010-01-13 【公开公告年份】2010 【授权公告号】CN101625858B 【授权公告日】2012-07-18 【授权公告年份】2012.0 【发明人】李祺; 马华东; 郑侃彦; 韩忠涛; 张婷 【主权项内容】1.一种语音端点检测中短时能频值的提取方法,包括如下步骤: (1)将音频采样序列分成固定长度的帧,并形成一个帧序列; (2)针对每一帧数据提取短时能量、短时过零率和短时信息熵三个音频 特征参数; (3)根据上述音频特征参数按如下公式计算每一帧数据的短时能频值, 并形成一个短时能频值序列, EZE-featurei=(Ei-Eb)·(Zi-Zb)·(Hi-Hb) 其中,EZE-featurei表示第i帧的短时能频值;Ei、Zi和Hi分别表示第i 帧的短时能量、短时过零率和短时信息熵;Eb、Zb和Hb分别表示当前背景噪 声的短时能量、短时过零率和短时信息熵。 【当前权利人】新奥特(北京)视频技术有限公司 【当前专利权人地址】北京市海淀区西草场1号北京硅谷电脑城15层1501-1506室 【专利权人类型】有限责任公司(外国法人独资) 【统一社会信用代码】911101086631036849 【被引证次数】14 【家族被引证次数】14