行业新闻

自动字幕生成系统中语音区间的检测方法专利

发布时间:2026-06-14

【摘要】本发明涉及自动字幕生成系统中的语音检测技术，具体涉及一种自动字幕生成系统中语音区间的检测方法。该方法将音频采样序列分成固定长度的帧，计算每一帧的短时能频值，并形成一个短时能频值序列；从第一帧数据开始，分析短时能频值序列，寻找短时能频值序列的上升区间或下降区间；通过计算短时能频值序列波形的平均斜率，并与门限值进行比较，确定语音的起点或终点，最终完成对语音区间的检测。本发明可以在背景噪声经常发生变化的情况下，对连续语音进行语音端点检测，从而提高在复杂噪声背景下的语音端点检测效率。【专利类型】发明申请【申请人】新奥特(北京)视频技术有限公司【申请人类型】企业【申请人地址】100080北京市海淀区西草场1号北京硅谷电脑城15层1501-1506室【申请人地区】中国【申请人城市】北京市【申请人区县】海淀区【申请号】CN200810116460.5 【申请日】2008-07-10 【申请年份】2008 【公开公告号】CN101625862A 【公开公告日】2010-01-13 【公开公告年份】2010 【授权公告号】CN101625862B 【授权公告日】2012-07-18 【授权公告年份】2012.0 【发明人】李祺; 马华东; 郑侃彦; 韩忠涛; 张婷【主权项内容】1.一种自动字幕生成系统中语音区间的检测方法，包括如下步骤： (1)将音频采样序列分成固定长度的帧，计算音频文件中每一帧的短时能频值，形成一个短时能频值序列：X1X2X3X4......Xn； (2)从第一帧开始依次分析短时能频值序列，设当前所分析的为第t帧，检测第t帧之后每一帧的短时能频值，直至找到一帧j，使得 Xt≤Xt+1≤Xt+2≤......≤Xj且Xj+1≥Xj+2 即寻找从第t帧开始的短时能频值序列的上升区间，记为At； (3)计算所找到的上升区间At的短时能频值序列波形的平均斜率Rt：其中，Xt为第t帧的短时能频值，Xj为第j帧的短时能频值； (4)设定一个门限值Rm来确定语音起始点，如果Rt≥Rm，且第t帧之前的区间没有被认为是语音区间，则将第t帧记为语音的起点，然后令t＝j+1，去寻找与之相匹配的语音终点，从而确定一个语音区间；如果Rt＜Rm，则令t＝j+1，重复步骤(2)的操作。【当前权利人】新奥特(北京)视频技术有限公司【当前专利权人地址】北京市海淀区西草场1号北京硅谷电脑城15层1501-1506室【专利权人类型】有限责任公司(外国法人独资) 【统一社会信用代码】911101086631036849 【被引证次数】14 【家族被引证次数】14

屋面板抗风标准试验装置及试验方法
【摘要】本发明公开了一种屋面板抗风标准试验装置及试验方法，本试验方法通过模拟压型金属屋面板在风吸力条件下，挠度变形与风荷载、板厚、板型、檩距之间的关系，总结出压型金属屋面板抗风吸承载力设计的试验依据，填补目前国内该领域的空白。解决了压型金属
一种智能家居系统、交换服务器及数据处理方法
【摘要】本发明提供了一种智能家居系统、交换服务器及数据处理方法。所述智能家居系统中，将可视对讲功能及末端控制功能部分融合，通过控制末端设备实现可视对讲室内机的功能和对被控末端设备进行控制的控制面板功能。按照本发明所述智能家居系统、交换服务器
一种将字幕对象的矢量轮廓离散化为直线段的方法
【摘要】本发明公开了一种将字幕对象的矢量轮廓离散化为直线段的方法，属于广电行业电视节目制播机构的字幕编播技术领域。该方法根据二次贝塞尔曲线参数方程，对t值从0到1每次步进一个数值，根据t值计算出对应的二次贝塞尔曲线上的点，假设相邻两个t值计
一种超细微粒和纳米颗粒的制备方法
【摘要】本发明公开了一种超细微粒和纳米颗粒的制备方法。制备方法为金属硝酸盐或氯化物加氨水和或碳酸氢铵和或碳酸铵和或碳酸氢钠和或碳酸钠和或氢氧化钠和或氢氧化钾溶液做沉淀剂，再加入过量的氢氧化钠和或氢氧化钾在高温强碱下使沉淀颗粒晶化，不团聚，经
X射线行李包检查设备辐射源的调整结构
【摘要】本发明提供一种能在X方向和Y方向分别做±5mm的调整的X射线行李包检查设备辐射源的调整结构。该X射线行李包检查设备辐射源的调整结构包括：滑环安装盘(5)，用于安装X光机调整机构；托架底板(8)，安装在滑环安装盘(5)上；X光机(17
一种报纸数字化版面信息的裁剪与拼装的方法及系统
【摘要】本发明涉及一种报纸数字化版面信息的裁剪与拼装的方法及系统，属于数字图书馆与数字报刊领域。现有的方法和系统只能够支持数字报刊的整版浏览和存储，并不能提供以新闻报道为单位的裁剪技术来提供原文的佐证，更没有面向用户的个性化的剪报、收藏等功

产品分类

最新文章

自动字幕生成系统中语音区间的检测方法专利