24小时服务热线
效率高速
品质保障
厂家直供
售后保障
行业新闻
当前位置:行业新闻>

语音端点检测中的背景噪声自适应调整方法专利

发布时间:2026-06-12

【摘要】 本发明涉及自动字幕生成系统中的语音检测技术,具体涉及一种语音端 点检测中的背景噪声自适应调整方法。该方法根据背景噪声的实时变化,通 过重新计算背景噪声的短时能量Eb,短时过零率Zb和短时信息熵Hb的值来重 新确定每一帧的短时能频值,得到新的短时能频值序列,从而能够在复杂的 背景噪声环境下,对连续语音进行端点检测,提高了在复杂噪声背景下的语 音端点检测效率。 【专利类型】发明申请 【申请人】新奥特(北京)视频技术有限公司 【申请人类型】企业 【申请人地址】100080北京市海淀区西草场1号北京硅谷电脑城15层1501-1506室 【申请人地区】中国 【申请人城市】北京市 【申请人区县】海淀区 【申请号】CN200810116463.9 【申请日】2008-07-10 【申请年份】2008 【公开公告号】CN101625860A 【公开公告日】2010-01-13 【公开公告年份】2010 【授权公告号】CN101625860B 【授权公告日】2012-07-04 【授权公告年份】2012.0 【发明人】李祺; 马华东; 郑侃彦; 韩忠涛; 张婷 【主权项内容】1.一种语音端点检测中的背景噪声自适应调整方法,包括如下步骤: (1)将音频采样序列分成固定长度的帧,并形成一个帧序列,针对每一 帧数据提取短时能量、短时过零率和短时信息熵三个音频特征参数; (2)将音频文件最初的10ms作为环境音,将这10ms音频信号的短时能量 平均值、短时过零率平均值和短时信息熵平均值作为最初的背景噪声的短时能 量Eb、短时过零率Zb和短时信息熵Hb,计算得到短时能频值序列; (3)根据对短时能频值序列的分析找到一个语音起点,记为第Fb帧,判断 Fb帧与上一个语音终点所在的Ft帧相距的时间间隔,当该时间间隔大于规定长 度时,进行环境噪声的提取; (4)从第ft帧开始,取接下来的10帧当作背景噪声,重新计算背景噪声 的短时能量Eb,短时过零率Zb和短时信息熵Hb的值,计算方法采用取10帧中的 算术平均值; (5)从第Ft+1帧开始,使用更新后的背景噪声的短时能量Eb,短时过零 率Zb和短时信息熵Hb,重新计算每一帧的短时能频值,得到新的短时能频值序 列。 【当前权利人】新奥特(北京)视频技术有限公司 【当前专利权人地址】北京市海淀区西草场1号北京硅谷电脑城15层1501-1506室 【专利权人类型】有限责任公司(外国法人独资) 【统一社会信用代码】911101086631036849 【被引证次数】21 【家族被引证次数】21

  • 【摘要】一种便携式化学冰袋的组方及其制造和使用方法,属于化学吸热反应原理,在冷却降温与储存保鲜技术的应用研究领域;它由分别装有两种不同化工原料的小塑料袋装在大塑料袋当中构成的;所说的大小塑料袋均是可以手压封口的塑料袋;两种化工原料的组方为:
  • 【摘要】本发明提供一种基于描述符结构的无线局域网卡芯片工作控制方法。由于无线局域网卡芯片进行数据发送接收时,需要对通信帧的速率、长度、加密方式等要求进行控制和状态描述。同时,无线局域网卡芯片还需要将无线局域网卡设备的很多中断和设备状态信息通
  • 【摘要】本发明提供了一种用于双系统电子设备的操作方法包括:接收由用户 对第二系统触摸板的第一用户操作而产生的第一用户输入信号;处理第一 用户输入信号,获得第一用户输入信号处理结果;根据第一用户输入信号 处理结果判断第一用户操作形成的第一输入
  • 【摘要】本发明属于双光子聚合领域,特别涉及香豆素和或苄叉环烷烃酮染料在制备双光子聚合树脂中的应用。本发明是以直链型或多支型的香豆素双光子染料、直链型或多支型的苄叉环烷烃酮双光子染料、或同时含香豆素和苄叉环烷烃酮功能团的双光子染料作为单组分引
  • 【摘要】本发明公开了一种采用层次管道过滤器体系结构的多语言信息抽取方法。该方法中,对于待处理的语言材料,首先由多语种自动识别构件进行判别,然后由简单命名实体识别构件识别时间、日期、百分比、金额这四种简单命名实体,由人名地名识别构件提取人名和
  • 【摘要】一种带反射镜片的运动眼镜,包括眼镜框,眼镜框两侧各固定一 个镜片盒,镜片盒内侧上下两端各设一个滑槽,两个滑槽之间设两外 侧带凸起部分的透明支架,凸起部分嵌入滑槽内并能前后滑动,透明 支架两侧通过连接杆与转接头连接,转接头能围绕透明支