预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共19页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN114143479A(43)申请公布日2022.03.04(21)申请号202111436728.5(22)申请日2021.11.29(71)申请人中国平安人寿保险股份有限公司地址518000广东省深圳市福田区福田街道益田路5033号平安金融中心14、15、16、37、41、44、45、46、54、58、59层(72)发明人刘钊(74)专利代理机构深圳市力道知识产权代理事务所(普通合伙)44507代理人张传义(51)Int.Cl.H04N5/265(2006.01)权利要求书3页说明书13页附图2页(54)发明名称视频摘要的生成方法、装置、设备以及存储介质(57)摘要本申请实施例涉及人工智能领域,公开了一种视频摘要的生成方法、装置、设备以及存储介质。其中,该方法通过获取目标文案解说视频,并将目标文案解说视频划分为多个解说视频片段;从解说视频片段种选出关键视频片段;提取关键视频片段的文案解说音频及文案解说影像;获取关键视频片段中目标对象的第一语音数据;获取目标对象对应的第二语音数据;根据第一语音数据和第二语音数据确定目标对象的目标语音数据;根据目标语音数据获取目标文本信息;根据每个关键视频片段对应的文案解说影像、目标语音数据及目标文本信息生成对应关键视频片段的视频摘要片段;将视频摘要片段进行拼接,生成目标文案解说视频对应的视频摘要。CN114143479ACN114143479A权利要求书1/3页1.一种视频摘要的生成方法,其特征在于,包括:获取目标文案解说视频,并将所述目标文案解说视频划分为多个解说视频片段;根据每个所述解说视频片段与目标文案讲解的相关程度从多个所述解说视频片段选出关键视频片段,其中,每个所述关键视频片段均包括讲解所述目标文案的目标对象;提取所述关键视频片段对应的文案解说音频及文案解说影像,并根据所述文案解说音频获取所述关键视频片段中所述目标对象的第一语音数据,以及根据所述文案解说影像获取所述关键视频片段中所述目标对象的多张口型变化图像,并根据多张所述口型变化图像获取所述目标对象对应的第二语音数据;根据所述第一语音数据和所述第二语音数据确定所述目标对象的目标语音数据,并将所述目标语音数据输入至预设的语音识别模型,以获取目标文本信息;根据每个所述关键视频片段对应的所述文案解说影像、所述目标语音数据及所述目标文本信息生成对应所述关键视频片段的视频摘要片段,并将所述视频摘要片段进行拼接,生成所述目标文案解说视频对应的视频摘要。2.根据权利要求1所述的方法,其特征在于,所述根据每个所述解说视频片段与目标文案讲解的相关程度从多个所述解说视频片段选出关键视频片段,包括:判断所述解说视频片段中讲解所述目标文案的目标对象的出现时间是否超过预设时间;当所述目标对象的出现时间超过预设时间时,获取每个所述解说视频片段中所出现的目标文案的文案信息,并对所述文案信息进行关键词提取,以获取文案关键词;根据每个所述解说视频片段中对应的所述文案关键词的出现频率、及所述文案关键词的数量获取每个所述解说视频片段的关键程度;选择所述关键程度最高的预设数量所述解说视频片段作为所述关键视频片段。3.根据权利要求1所述的方法,其特征在于,所述根据每个所述解说视频片段与目标文案讲解的相关程度从多个所述解说视频片段选出关键视频片段,包括:判断所述解说视频片段中讲解所述目标文案的目标对象的出现时间是否超过预设时间;当所述目标对象的出现时间超过预设时间时,获取所述解说视频片段的字幕信息,并根据所述字幕信息中的关键词对每条所述字幕信息进行类型划分;基于每条所述字幕信息的字幕类型,以及各个所述字幕类型的加权系数对所述字幕信息进行加权求和,获得所述解说视频片段的关键程度;选择所述关键程度最高的预设数量所述解说视频片段作为所述关键视频片段。4.根据权利要求1所述的方法,其特征在于,所述根据所述音频数据的提取所述目标对象的第一语音数据,包括:将音频数据输入到语音提取模型的特征提取网络进行特征提取,获取所述音频数据对应的特征向量,所述音频数据包括所述目标对象的第一语音数据和环境的噪声数据;将预设向量和所述特征向量输入到所述语音提取模型的语音提取网络,以从所述音频数据中提取出所述目标对象的第一语音数据,其中,所述语音提取模型通过目标对象的语音训练获得,所述预设向量根据所述噪声数据获得,所述语音提取网络以所述预设向量为参考,调整所述第一语音数据和所述噪声数据在所述音频数据中所占的比例,从而保获取2CN114143479A权利要求书2/3页所述目标对象的第一语音数据。5.根据权利要求1所述的方法,其特征在于,所述根据所述文案解说影像获取所述关键视频片段中所述目标对象的多张口型变化图像,并根据多张所述口型