预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共19页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115034233A(43)申请公布日2022.09.09(21)申请号202210689216.8G10L15/26(2006.01)(22)申请日2022.06.16H04N21/488(2011.01)(71)申请人安徽听见科技有限公司地址230000安徽省合肥市高新区习友路3333号中国声谷A区2号科研楼16-19F(72)发明人王玮周旸旻程旭王强方世煌(74)专利代理机构北京路浩知识产权代理有限公司11002专利代理师孟省(51)Int.Cl.G06F40/40(2020.01)G06V20/40(2022.01)G06V10/74(2022.01)G06V30/10(2022.01)权利要求书2页说明书12页附图4页(54)发明名称翻译方法、装置、电子设备及存储介质(57)摘要本发明提供一种翻译方法、装置、电子设备及存储介质,其中方法包括:对源语种视频进行音视频分离,得到源语种音频和源语种视频帧序列;对所述源语种视频帧序列进行关键帧抽取,得到源语种关键帧;将所述源语种关键帧翻译至目标语种,得到目标语种关键帧;基于所述目标语种关键帧,以及对所述源语种音频翻译所得的目标语种字幕,合成目标语种视频。本发明提供的翻译方法、装置、电子设备及存储介质,将目标语种关键帧与对源语种音频翻译所得的目标语种字幕进行结合,从而能够完整、全面地反映视频翻译的内容,并且针对源语种视频帧序列进行了关键帧抽取,在保证翻译后的视频信息完整性的同时,提高了翻译的效率。CN115034233ACN115034233A权利要求书1/2页1.一种翻译方法,其特征在于,包括:对源语种视频进行音视频分离,得到源语种音频和源语种视频帧序列;对所述源语种视频帧序列进行关键帧抽取,得到源语种关键帧;将所述源语种关键帧翻译至目标语种,得到目标语种关键帧;基于所述目标语种关键帧,以及对所述源语种音频翻译所得的目标语种字幕,合成目标语种视频。2.根据权利要求1所述的翻译方法,其特征在于,所述对所述源语种视频帧序列进行关键帧抽取,得到源语种关键帧,包括:基于所述源语种视频帧序列,确定候选帧序列;基于所述候选帧序列中的候选帧之间的相似度,从所述候选帧序列中抽取源语种关键帧。3.根据权利要求2所述的翻译方法,其特征在于,所述基于所述源语种视频帧序列,确定候选帧序列,包括:基于所述源语种视频帧序列中各视频帧的编码信息从所述源语种视频帧序列中抽取所述候选帧序列。4.根据权利要求2所述的翻译方法,其特征在于,所述基于所述候选帧序列中的候选帧之间的相似度,从所述候选帧序列中抽取源语种关键帧,包括:在所述候选帧序列中的当前候选帧与下一候选帧之间的相似度大于预设阈值的情况下,删除所述下一候选帧,并将下下一候选帧更新为下一候选帧;在所述候选帧序列中的当前候选帧与下一候选帧之间的相似度小于等于预设阈值的情况下,将所述下一候选帧更新为所述当前候选帧,直至所述当前候选帧为最尾的候选帧;将所述候选帧序列中的各候选帧确定为源语种关键帧。5.根据权利要求1至4中任一项所述的翻译方法,其特征在于,所述将所述源语种关键帧翻译至目标语种,得到目标语种关键帧,包括:对所述源语种关键帧进行文字识别,得到所述源语种关键帧中包括的源语种文本,以及所述源语种文本的位置信息;将所述源语种文本翻译至目标语种,得到目标语种文本;基于所述源语种文本的位置信息,将所述目标语种文本合成在所述源语种关键帧上,得到所述目标语种关键帧。6.根据权利要求1至4中任一项所述的翻译方法,其特征在于,所述基于所述目标语种关键帧,以及对所述源语种音频翻译所得的目标语种字幕,合成目标语种视频,包括:基于所述目标语种关键帧,以及目标语种关键帧对应源语种关键帧的展示时段,合成初始视频;所述展示时段基于对应的源语种关键帧和下一源语种关键帧在所述源语种视频中的播放时间确定;将所述目标语种字幕叠加在所述初始视频上,得到所述目标语种视频。7.根据权利要求6所述的翻译方法,其特征在于,所述基于所述目标语种关键帧,以及目标语种关键帧对应源语种关键帧的展示时段,合成初始视频,包括:拼接所述目标语种关键帧以及所述目标语种关键帧对应的源语种关键帧,得到多语种关键帧;2CN115034233A权利要求书2/2页基于所述多语种关键帧,以及所述多语种关键帧对应源语种关键帧的展示时段,合成初始视频。8.一种翻译装置,其特征在于,包括:音视频分离单元,用于对源语种视频进行音视频分离,得到源语种音频和源语种视频帧序列;关键帧确定单元,用于对所述源语种视频帧序列进行关键帧抽取,得到源语种关键帧;关键帧翻译单元,用于将所述源语种关键帧翻译至目标语种,得到目标语种关键帧;视频合成单元,用于基于所述目标语种关键帧,以及对所述