24小时服务热线
效率高速
品质保障
厂家直供
售后保障
行业新闻
当前位置:行业新闻>

一种自适应的语音端点检测方法专利

发布时间:2026-06-14

【摘要】 本发明涉及自动字幕生成系统中的语音检测技术,具体涉及一种自适应 的语音端点监测方法。该方法将音频采样序列分成固定长度的帧,并形成一 个帧序列,针对每一帧数据提取短时能量、短时过零率和短时信息熵三个音 频特征参数;根据音频特征参数计算每一帧数据的短时能频值,并形成一个 短时能频值序列;从第一帧数据开始,分析短时能频值序列,并找出一对语 音起点和终点;分析背景噪声,如果发现背景噪声发生改变,则重新计算背 景噪声的音频特征参数,并更新短时能频值序列;重复此过程直到检测结束。 本发明可以在背景噪声经常发生变化的情况下,对连续语音进行语音端点检 测,从而提高在复杂噪声背景下的语音端点检测效率。 -官网 【专利类型】发明申请 【申请人】新奥特(北京)视频技术有限公司 【申请人类型】企业 【申请人地址】100080北京市海淀区西草场1号北京硅谷电脑城15层1501-1506室 【申请人地区】中国 【申请人城市】北京市 【申请人区县】海淀区 【申请号】CN200810116450.1 【申请日】2008-07-10 【申请年份】2008 【公开公告号】CN101625857A 【公开公告日】2010-01-13 【公开公告年份】2010 【授权公告号】CN101625857B 【授权公告日】2012-05-09 【授权公告年份】2012.0 【发明人】李祺; 马华东; 郑侃彦; 韩忠涛; 张婷 【主权项内容】1.一种自适应的语音端点检测方法,包括如下步骤: (1)音频数据输入后,解析音频文件并提取数字采样值,对获取到的音 频采样序列进行带通滤波; (2)将音频采样序列分成固定长度的帧,并形成一个帧序列,针对每一 帧数据提取短时能量、短时过零率和短时信息熵三个音频特征参数; (3)根据上述音频特征参数计算每一帧数据的短时能频值,并形成一个 短时能频值序列; (4)从第一帧数据开始,分析短时能频值序列,并找出一对语音起点和 终点; (5)分析背景噪声,如果发现背景噪声发生改变,则重新计算背景噪声 的音频特征参数,并更新短时能频值序列; (6)返回步骤(4),继续寻找下一对语音起点和终点,重复此过程直 到检测结束,并输出语音端点检测结果。 【当前权利人】新奥特(北京)视频技术有限公司 【当前专利权人地址】北京市海淀区西草场1号北京硅谷电脑城15层1501-1506室 【专利权人类型】有限责任公司(外国法人独资) 【统一社会信用代码】911101086631036849 【被引证次数】91 【家族被引证次数】92

  • 【摘要】本发明提供了一株高效降解有机污染物的短波单孢菌(Brevundimonassp.)CGMCC No.2746。该菌在实验室条件下培养30天对土壤中的苯并[a]芘降解率达到80%,在修复菜地和农田有机污染方面具有很好的应用前景。【专利
  • 【摘要】一种低故障简易传送桶的方法及装置;涉及管道传输系统领域,气动管道传输系统是现代化的快速物流传输工具。气动管道传输系统应用在医院、银行、办公楼、超市、生产车间、实验室等每日需要有大量物品传送的场所。可以传送病历、诊断书、药品、化验单、
  • 【摘要】本发明涉及基于低密度奇偶校验(LDPC)译码软判决信息(SDM)的迭代定时同步方法 与装置,属于数字通信技术领域,其特征在于利用LDPC译码中的SDM来实现定时同步。 该发明的内容如下:首先,将系统接收的信号经数据接收处理模块1的高
  • 【摘要】本发明一种基于AVS的视频监控系统,其包括:应用层,利用网络及其协议完成用户定义的功能,所述应用层包括:视频编码器,用于对摄像头采集的视频数据进行编码,编码后生成视频数据流线;协处理器,用户对摄像头采集的视频数据进行处理,获取用户所
  • 【摘要】本发明涉及一种用于管道端侧吻合技术的“T”型双层空心速溶支架的制备方法,首先取可溶性纯净化合物或将其配成50%-90%的双蒸馏水溶液,加热使之成为均一液态备用,将上述化合物用注入成型法或其他方法制成与人体待吻合管道直径相当的“T”型
  • 【摘要】本发明提供了一种用于深空通信的图像传输方法、发送装置、接收装置,其中,图像传输方法包括如下步骤:采用离散小波变换,将获取的数字图像划分为多个重要程度不同的子带;将一子带划分多个独立的图像块,并对图像块进行熵编码;依据子带的重要程度,