预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共23页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN112182281A(43)申请公布日2021.01.05(21)申请号201910604904.8(22)申请日2019.07.05(71)申请人腾讯科技(深圳)有限公司地址518044广东省深圳市南山区高新区科技中一路腾讯大厦35层(72)发明人刘龙坡(74)专利代理机构北京同达信恒知识产权代理有限公司11291代理人郭润湘李娟(51)Int.Cl.G06F16/635(2019.01)G06F16/683(2019.01)权利要求书3页说明书13页附图6页(54)发明名称一种音频推荐方法、装置及存储介质(57)摘要本申请公开了一种音频推荐方法、装置及存储介质,涉及计算机技术领域,用以提高音频推荐的准确度。该方法中,在确定能够描述待配乐图像信息的语义内容的图像特征信息后,将图像特征信息与同样能够描述音频的语义特征的文本特征信息进行特征相似度的计算,并根据计算的特征相似度,推荐可作为待配乐图像信息的背景音乐的音频。这样,通过匹配待配乐图像信息与音频的语义,将语义相同或相似的音频推荐给用户,使得音频推荐更为准确;同时,也能够减少用户在众多与待配乐图像信息无关的音频中选择配乐时的操作复杂度,节省了用户在配乐时的时间。CN112182281ACN112182281A权利要求书1/3页1.一种音频推荐方法,其特征在于,所述方法包括:获取待配乐图像信息;其中,所述待配乐图像信息中包括至少一帧图像;对所述待配乐图像信息进行特征提取,得到能够描述所述待配乐图像信息的语义内容的图像特征信息;确定所述图像特征信息与多个文本特征信息中的每个文本特征信息的特征相似度;其中,所述文本特征信息与音频具有对应关系;根据所述特征相似度,从所述多个音频中选择指定数量的音频作为所述待配乐图像信息的推荐音频。2.如权利要求1所述的方法,其特征在于,若所述待配乐图像信息中包括多帧图像,所述对所述待配乐图像信息进行特征提取,得到能够描述所述待配乐图像信息的语义内容的图像特征信息,包括:基于残差网络模型对所述待配乐图像信息中每一帧图像进行特征提取,得到每一帧图像的特征向量;根据所述每一帧图像的特征向量,确定所述待配乐图像信息的平均特征向量;将所述平均特征向量与预设数量的第一卷积核分别进行卷积计算并添加相应的偏置参数,得到指定维度的特征向量作为所述图像特征信息;其中,不同第一卷积核的卷积参数不完全相同。3.如权利要求2所述的方法,其特征在于,预先存储有每个音频对应的文本,所述方法还包括:根据以下方法获取各音频的文本特征信息:对音频对应的文本进行分词处理后,再进行去停用词处理,得到所述音频对应的文本中的各分词;将所述各分词按照在所述音频对应的文本中的顺序进行拼接,得到分词序列;将所述分词序列中各分词通过词嵌入,得到各分词关于上下文连接关系的词向量作为所述音频的文本向量;将所述文本向量与预设数量的第二卷积核进行卷积计算并添加相应的偏置参数,得到所述音频的指定维度的特征向量作为文本特征信息;其中,不同第二卷积核的卷积参数不完全相同,且所述第一卷积核的数量与所述第二卷积核的数量相同。4.如权利要求1所述的方法,其特征在于,所述确定所述图像特征信息与多个文本特征信息中的每个文本特征信息的特征相似度,包括:确定所述图像特征信息与每个文本特征信息的余弦相似度。5.如权利要求3所述的方法,其特征在于,所述第一卷积核和所述第二卷积核的各卷积参数以及偏置参数通过以下方法训练获得:获取训练样本;其中,每一个训练样本包括样本图像信息的图像特征信息以及样本文本的文本特征信息,且所述训练样本的标签为该训练样本中的图像特征信息与文本特征信息之间的主观相似度;确定各训练样本中的图像特征信息和文本特征信息的特征相似度;确定所述各训练样本对应的特征相似度与相应的主观相似度之间的误差;通过反向传播算法将所述误差传播给所述第一卷积核和所述第二卷积核,以更新所述2CN112182281A权利要求书2/3页第一卷积核和所述第二卷积核中的卷积参数以及相应的偏置参数,得到符合指定条件的卷积参数和偏置参数。6.一种音频推荐装置,其特征在于,所述装置包括:第一获取模块,用于获取待配乐图像信息;其中,所述待配乐图像信息中包括至少一帧图像;特征提取模块,用于对所述待配乐图像信息进行特征提取,得到能够描述所述待配乐图像信息的语义内容的图像特征信息;第一确定相似度模块,用于确定所述图像特征信息与多个文本特征信息中的每个文本特征信息的特征相似度;其中,所述文本特征信息与音频具有对应关系;推荐模块,用于根据所述特征相似度,从所述多个音频中选择指定数量的音频作为所述待配乐图像信息的推荐音频。7.如权利要求6所述的装置,其特征在于,若所述待配乐图像信息中包括