一种在音频中切分句子的方法和系统及视频文件的字幕自动生成方法和系统-豆柴文库

一种在音频中切分句子的方法和系统及视频文件的字幕自动生成方法和系统.pdf

2023-12-07

10金币

380KB

11页

An****99

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共11页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN105845129A(43)申请公布日2016.08.10(21)申请号201610178500.3(22)申请日2016.03.25(71)申请人乐视控股（北京）有限公司地址100025北京市朝阳区姚家园路105号3号楼10层1102申请人乐视致新电子科技（天津）有限公司(72)发明人蔡炜(74)专利代理机构北京三聚阳光知识产权代理有限公司11250代理人吴黎(51)Int.Cl.G10L15/04(2013.01)G10L15/26(2006.01)H04N21/439(2011.01)H04N21/488(2011.01)权利要求书2页说明书5页附图3页(54)发明名称一种在音频中切分句子的方法和系统及视频文件的字幕自动生成方法和系统(57)摘要本发明实施例公开了一种在音频中切分句子的方法和系统，及视频文件的字幕自动生成方法和系统，包括：识别第一停顿；识别第一句子；识别第二停顿；判断音频是否结束，如未结束则重复上述识别句子/停顿的步骤，结束则结束；其中，所述停顿具有最小长度限制，所述句子具有最小长度限制，所述句子还具有最大长度限制。由此提高了语音识别率，使得全自动的字幕制作成为可能。CN105845129ACN105845129A权利要求书1/2页1.一种在音频中切分句子的方法，其特征在于，包括以下步骤：S1、识别第一停顿，所述停顿包括静音段和/或非语音段，并记录所述第一停顿的开始时间和结束时间；S2、识别第一句子，所述句子包括语音段，并设置所述第一句子的开始时间为所述第一停顿的结束时间；S3、识别第二停顿，并记录所述第二停顿的开始时间和结束时间，设置第一句子的结束时间为所述第二停顿的开始时间，完成所述第一句子的切分；S4、判断音频是否结束，如未结束则重复所述步骤S2-S3，结束则执行步骤S5；S5、结束；其中，所述停顿具有最小长度限制，用于忽略短伴音信息；所述句子具有最小长度限制，用于滤除掉音频中的短时无效信息；所述句子还具有最大长度限制，用于限制句子的长度,提高该句的识别准确率。2.根据权利要求1所述的方法，其特征在于，所述停顿的最小长度限制为2个音频段。3.根据权利要求1-2所述的方法，其特征在于，所述句子的最小长度限制为3个音频段。4.根据权利要求1-3任一项所述的方法，其特征在于，所述句子的最大长度限制是50个音频段。5.一种视频文件的字幕自动生成方法，其特征在于，包括以下步骤：S1、提取待处理的视频文件中的音频；S2、对所述音频中的音频段进行分类，类别包括静音、语音和非语音；S3、用权利要求1-4中任一项所述的在音频中切分句子的方法，在所述音频中切分句子；S4、对所述句子进行语音识别，并记录每个句子的对应文本和起止时间信息；S5、根据所述文本和起止时间信息生成字幕。6.根据权利要求5所述的方法，其特征在于，在所述步骤S1中，利用ffmpeg提取音频，并通过相应的解码器讲所述音频解码为PCM数据。7.根据权利要求5-6所述的方法，其特征在于，在所述步骤S2中，利用Marsyas对所述音频段分类。8.根据权利要求5-7所述的方法，其特征在于，在所述步骤S4中，利用HTK作为识别工具对所述句子进行语音识别。9.一种在视频中切分句子的系统，其特征在于，包括：停顿识别模块，用于识别包括静音段和/或非语音段的停顿，并记录停顿的开始时间和结束时间；句子识别模块，用于识别包括语音段的句子，并设置句子的开始时间为相邻的前一个停顿的结束时间，句子的结束时间为相邻的后一个停顿的开始时间；音频结束判断模块，用于判断音频是否结束；其中，所述停顿具有最小长度限制，用于忽略短伴音信息；所述句子具有最小长度限制，用于滤除掉音频中的短时无效信息；所述句子还具有最大长度限制，用于限制句子的长度,提高该句的识别准确率。10.一种视频文件的字幕自动生成系统，其特征在于，包括：2CN105845129A权利要求书2/2页音频提取模块，用于提取所述视频文件中的音频；音频段分类模块，用于对所述音频中的音频段进行分类，类别包括静音、语音和非语音；句子切分模块，用于利用权利要求9所述的在视频中切分句子的系统，在所述音频中切分句子；语音识别模块，用于对所述句子进行语音识别，并记录每个句子的对应文本和起止时间信息；字幕生成模块，用于根据所述句子对应的文本和起止时间信息生成字幕。3CN105845129A说明书1/5页一种在音频中切分句子的方法和系统及视频文件的字幕自动生成方法和系统技术领域[0001]本发明涉及电子技术领域，具体涉及一种在音频中切分句子的方法和系统，以及视频文件的字幕自动生成方法和系统。背景技术[0002]字幕指以文字形式显示影视作品里面的对话等非影像内容，也泛指影视作

相关资料

一种在音频中切分句子的方法和系统及视频文件的字幕自动生成方法和系统.pdf

本发明实施例公开了一种在音频中切分句子的方法和系统，及视频文件的字幕自动生成方法和系统，包括：识别第一停顿；识别第一句子；识别第二停顿；判断音频是否结束，如未结束则重复上述识别句子/停顿的步骤，结束则结束；其中，所述停顿具有最小长度限制，所述句子具有最小长度限制，所述句子还具有最大长度限制。由此提高了语音识别率，使得全自动的字幕制作成为可能。

2023-12-07

380KB

一种增加字幕和/或音频的方法及系统.pdf

本申请提供一种增加字幕和/或音频的方法及系统。该方法包括：媒资服务器接收目标视频的标识和新语言文件，并将新语言文件转换为新语言介质文件；媒资服务器根据目标视频的标识找到第一索引文件，根据新语言介质文件在媒资服务器中的存储地址得到第二索引文件；媒资服务器将新语言介质文件和第二索引文件发送至内容分发服务器；内容分发服务器将第二索引文件中新语言介质文件在媒资服务器中的存储地址替换为在内容分发服务器中的存储地址，得到第三索引文件；内容分发服务器生成目标视频的第一URL。该方法实现了增加目标视频的新语言字幕或新语言

2023-07-24

1.3MB

音频生成方法和系统.pdf

一种音频生成方法和系统，该方法包括以下步骤：接收多个输入音频资产，将每个输入音频资产转换为输入图形表示，通过将每个输入图形表示堆叠在图像的分离通道中来生成输入多通道图像，将输入多通道图像馈入生成模型以训练生成模型并生成一个或多个输出多通道图像，每个输出多通道图像包括输出图形表示，从每个输出多通道图像提取输出图形表示，并将每个输出图形表示转换为输出音频资产。

2023-12-02

511KB

一种自动生成答案的方法和系统.pdf

本说明书的实施例公开了一种自动生成答案的方法，该方法包括：获取用户问题和至少一个第一文本，所述第一文本是多个第二文本中与所述用户问题相关的文本；从所述用户问题和所述至少一个第一文本中确定至少一个核心词，以及确定所述至少一个核心词中任意两个不同核心词之间的相关性；所述相关性代表所述核心词的重要程度；答案生成模型基于输入的所述用户问题、所述至少一个第一文本和所述相关性，输出所述用户问题的答案；其中，所述答案生成模型包括图神经网络模型，所述图神经网络模型的节点为所述核心词，所述图神经网络模型的边为所述相关性。

2023-05-25

488KB

一种根据音频音乐生成动画的方法和系统.pdf

本发明提供了一种根据音频音乐生成动画的方法和系统，所述方法包括：对音频音乐的预设频率段进行分析，获得节奏音频、伴奏音频；依据所述各个音频的频率特性获得各个音轨，并组合生成MIDI文件；对MIDI文件进行音乐结构的分析，获得音乐分析结果以及音乐的时间属性；根据预置的动画素材库和上述音乐分析结果通过预置规则或者用户输入的参数构建各个动画元素及其对应关系；根据所述时间属性将各个动画元素及其对应关系组合成动画。通过本发明，可以自动的将音频音乐生成为内容丰富、与音乐表达的内容相对应的可视信息。

2024-01-04

764KB