预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共11页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN105845129A(43)申请公布日2016.08.10(21)申请号201610178500.3(22)申请日2016.03.25(71)申请人乐视控股(北京)有限公司地址100025北京市朝阳区姚家园路105号3号楼10层1102申请人乐视致新电子科技(天津)有限公司(72)发明人蔡炜(74)专利代理机构北京三聚阳光知识产权代理有限公司11250代理人吴黎(51)Int.Cl.G10L15/04(2013.01)G10L15/26(2006.01)H04N21/439(2011.01)H04N21/488(2011.01)权利要求书2页说明书5页附图3页(54)发明名称一种在音频中切分句子的方法和系统及视频文件的字幕自动生成方法和系统(57)摘要本发明实施例公开了一种在音频中切分句子的方法和系统,及视频文件的字幕自动生成方法和系统,包括:识别第一停顿;识别第一句子;识别第二停顿;判断音频是否结束,如未结束则重复上述识别句子/停顿的步骤,结束则结束;其中,所述停顿具有最小长度限制,所述句子具有最小长度限制,所述句子还具有最大长度限制。由此提高了语音识别率,使得全自动的字幕制作成为可能。CN105845129ACN105845129A权利要求书1/2页1.一种在音频中切分句子的方法,其特征在于,包括以下步骤:S1、识别第一停顿,所述停顿包括静音段和/或非语音段,并记录所述第一停顿的开始时间和结束时间;S2、识别第一句子,所述句子包括语音段,并设置所述第一句子的开始时间为所述第一停顿的结束时间;S3、识别第二停顿,并记录所述第二停顿的开始时间和结束时间,设置第一句子的结束时间为所述第二停顿的开始时间,完成所述第一句子的切分;S4、判断音频是否结束,如未结束则重复所述步骤S2-S3,结束则执行步骤S5;S5、结束;其中,所述停顿具有最小长度限制,用于忽略短伴音信息;所述句子具有最小长度限制,用于滤除掉音频中的短时无效信息;所述句子还具有最大长度限制,用于限制句子的长度,提高该句的识别准确率。2.根据权利要求1所述的方法,其特征在于,所述停顿的最小长度限制为2个音频段。3.根据权利要求1-2所述的方法,其特征在于,所述句子的最小长度限制为3个音频段。4.根据权利要求1-3任一项所述的方法,其特征在于,所述句子的最大长度限制是50个音频段。5.一种视频文件的字幕自动生成方法,其特征在于,包括以下步骤:S1、提取待处理的视频文件中的音频;S2、对所述音频中的音频段进行分类,类别包括静音、语音和非语音;S3、用权利要求1-4中任一项所述的在音频中切分句子的方法,在所述音频中切分句子;S4、对所述句子进行语音识别,并记录每个句子的对应文本和起止时间信息;S5、根据所述文本和起止时间信息生成字幕。6.根据权利要求5所述的方法,其特征在于,在所述步骤S1中,利用ffmpeg提取音频,并通过相应的解码器讲所述音频解码为PCM数据。7.根据权利要求5-6所述的方法,其特征在于,在所述步骤S2中,利用Marsyas对所述音频段分类。8.根据权利要求5-7所述的方法,其特征在于,在所述步骤S4中,利用HTK作为识别工具对所述句子进行语音识别。9.一种在视频中切分句子的系统,其特征在于,包括:停顿识别模块,用于识别包括静音段和/或非语音段的停顿,并记录停顿的开始时间和结束时间;句子识别模块,用于识别包括语音段的句子,并设置句子的开始时间为相邻的前一个停顿的结束时间,句子的结束时间为相邻的后一个停顿的开始时间;音频结束判断模块,用于判断音频是否结束;其中,所述停顿具有最小长度限制,用于忽略短伴音信息;所述句子具有最小长度限制,用于滤除掉音频中的短时无效信息;所述句子还具有最大长度限制,用于限制句子的长度,提高该句的识别准确率。10.一种视频文件的字幕自动生成系统,其特征在于,包括:2CN105845129A权利要求书2/2页音频提取模块,用于提取所述视频文件中的音频;音频段分类模块,用于对所述音频中的音频段进行分类,类别包括静音、语音和非语音;句子切分模块,用于利用权利要求9所述的在视频中切分句子的系统,在所述音频中切分句子;语音识别模块,用于对所述句子进行语音识别,并记录每个句子的对应文本和起止时间信息;字幕生成模块,用于根据所述句子对应的文本和起止时间信息生成字幕。3CN105845129A说明书1/5页一种在音频中切分句子的方法和系统及视频文件的字幕自动生成方法和系统技术领域[0001]本发明涉及电子技术领域,具体涉及一种在音频中切分句子的方法和系统,以及视频文件的字幕自动生成方法和系统。背景技术[0002]字幕指以文字形式显示影视作品里面的对话等非影像内容,也泛指影视作