一种音频推荐方法、装置及存储介质-豆柴文库

一种音频推荐方法、装置及存储介质.pdf

2023-12-03

10金币

807KB

23页

一条****发啊

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共23页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN112182281A(43)申请公布日2021.01.05(21)申请号201910604904.8(22)申请日2019.07.05(71)申请人腾讯科技（深圳）有限公司地址518044广东省深圳市南山区高新区科技中一路腾讯大厦35层(72)发明人刘龙坡(74)专利代理机构北京同达信恒知识产权代理有限公司11291代理人郭润湘李娟(51)Int.Cl.G06F16/635(2019.01)G06F16/683(2019.01)权利要求书3页说明书13页附图6页(54)发明名称一种音频推荐方法、装置及存储介质(57)摘要本申请公开了一种音频推荐方法、装置及存储介质，涉及计算机技术领域，用以提高音频推荐的准确度。该方法中，在确定能够描述待配乐图像信息的语义内容的图像特征信息后，将图像特征信息与同样能够描述音频的语义特征的文本特征信息进行特征相似度的计算，并根据计算的特征相似度，推荐可作为待配乐图像信息的背景音乐的音频。这样，通过匹配待配乐图像信息与音频的语义，将语义相同或相似的音频推荐给用户，使得音频推荐更为准确；同时，也能够减少用户在众多与待配乐图像信息无关的音频中选择配乐时的操作复杂度，节省了用户在配乐时的时间。CN112182281ACN112182281A权利要求书1/3页1.一种音频推荐方法，其特征在于，所述方法包括：获取待配乐图像信息；其中，所述待配乐图像信息中包括至少一帧图像；对所述待配乐图像信息进行特征提取，得到能够描述所述待配乐图像信息的语义内容的图像特征信息；确定所述图像特征信息与多个文本特征信息中的每个文本特征信息的特征相似度；其中，所述文本特征信息与音频具有对应关系；根据所述特征相似度，从所述多个音频中选择指定数量的音频作为所述待配乐图像信息的推荐音频。2.如权利要求1所述的方法，其特征在于，若所述待配乐图像信息中包括多帧图像，所述对所述待配乐图像信息进行特征提取，得到能够描述所述待配乐图像信息的语义内容的图像特征信息，包括：基于残差网络模型对所述待配乐图像信息中每一帧图像进行特征提取，得到每一帧图像的特征向量；根据所述每一帧图像的特征向量，确定所述待配乐图像信息的平均特征向量；将所述平均特征向量与预设数量的第一卷积核分别进行卷积计算并添加相应的偏置参数，得到指定维度的特征向量作为所述图像特征信息；其中，不同第一卷积核的卷积参数不完全相同。3.如权利要求2所述的方法，其特征在于，预先存储有每个音频对应的文本，所述方法还包括：根据以下方法获取各音频的文本特征信息：对音频对应的文本进行分词处理后，再进行去停用词处理，得到所述音频对应的文本中的各分词；将所述各分词按照在所述音频对应的文本中的顺序进行拼接，得到分词序列；将所述分词序列中各分词通过词嵌入，得到各分词关于上下文连接关系的词向量作为所述音频的文本向量；将所述文本向量与预设数量的第二卷积核进行卷积计算并添加相应的偏置参数，得到所述音频的指定维度的特征向量作为文本特征信息；其中，不同第二卷积核的卷积参数不完全相同，且所述第一卷积核的数量与所述第二卷积核的数量相同。4.如权利要求1所述的方法，其特征在于，所述确定所述图像特征信息与多个文本特征信息中的每个文本特征信息的特征相似度，包括：确定所述图像特征信息与每个文本特征信息的余弦相似度。5.如权利要求3所述的方法，其特征在于，所述第一卷积核和所述第二卷积核的各卷积参数以及偏置参数通过以下方法训练获得：获取训练样本；其中，每一个训练样本包括样本图像信息的图像特征信息以及样本文本的文本特征信息，且所述训练样本的标签为该训练样本中的图像特征信息与文本特征信息之间的主观相似度；确定各训练样本中的图像特征信息和文本特征信息的特征相似度；确定所述各训练样本对应的特征相似度与相应的主观相似度之间的误差；通过反向传播算法将所述误差传播给所述第一卷积核和所述第二卷积核，以更新所述2CN112182281A权利要求书2/3页第一卷积核和所述第二卷积核中的卷积参数以及相应的偏置参数，得到符合指定条件的卷积参数和偏置参数。6.一种音频推荐装置，其特征在于，所述装置包括：第一获取模块，用于获取待配乐图像信息；其中，所述待配乐图像信息中包括至少一帧图像；特征提取模块，用于对所述待配乐图像信息进行特征提取，得到能够描述所述待配乐图像信息的语义内容的图像特征信息；第一确定相似度模块，用于确定所述图像特征信息与多个文本特征信息中的每个文本特征信息的特征相似度；其中，所述文本特征信息与音频具有对应关系；推荐模块，用于根据所述特征相似度，从所述多个音频中选择指定数量的音频作为所述待配乐图像信息的推荐音频。7.如权利要求6所述的装置，其特征在于，若所述待配乐图像信息中包括

相关资料

一种音频推荐方法、装置及存储介质.pdf

本申请公开了一种音频推荐方法、装置及存储介质，涉及计算机技术领域，用以提高音频推荐的准确度。该方法中，在确定能够描述待配乐图像信息的语义内容的图像特征信息后，将图像特征信息与同样能够描述音频的语义特征的文本特征信息进行特征相似度的计算，并根据计算的特征相似度，推荐可作为待配乐图像信息的背景音乐的音频。这样，通过匹配待配乐图像信息与音频的语义，将语义相同或相似的音频推荐给用户，使得音频推荐更为准确；同时，也能够减少用户在众多与待配乐图像信息无关的音频中选择配乐时的操作复杂度，节省了用户在配乐时的时间。

2023-12-03

807KB

音频校准方法、装置及存储介质.pdf

本发明实施例公开了一种音频校准方法、装置及存储介质。该方案可以获取翻唱音频以及标准音频，并分别计算翻唱音频当中每个字的音高与标准音频中每个字的音高，及其每个对应字的音高之间的偏差值，根据偏差值对翻唱音频进行校准，以得到翻唱音频中每个字的修复音频，根据偏差值确定翻唱音频中每个字的刻度影射值，实时获取刻度设置值，并将刻度设置值与翻唱音频中每个字的刻度影射值进行对比，根据对比结果从每个字的修复音频以及翻唱音频当中选取目标音频进行输出。本申请实施例通过翻唱音频当中每个字的音高与标准音频中对应字的音高之间的偏差值来

2023-12-03

791KB

音频处理方法、装置及存储介质.pdf

本发明实施例公开了一种音频处理方法、装置及存储介质。该方案通过获取具有目标音频标识的独唱音频和用户输入的合唱音频，获取独唱音频当中的第一伴奏音频响度与第一人声音频响度，根据第一伴奏音频响度对合唱音频的第二伴奏音频响度进行调整，并将调整后的第二伴奏音频替换至独唱音频中，得到半合唱音频，根据第一人声音频响度对合唱音频的第二人声音频响度进行调整，并将调整后的第二人声音频与半合唱音频进行合成。本申请实施例所提供的方案通过计算独唱音频当中的第一伴奏音频与第一人声音频响度，并以此调节合唱音频中的人声及伴奏，使得在将独

2023-12-04

853KB

音频处理方法、装置及存储介质.pdf

本申请公开了一种音频处理方法、装置及存储介质，所述方法包括：获取训练样本，其中，所述训练样本包含有与多个歌手对应的多个演唱片段组，每一演唱片段组分别对应同一歌手的多个演唱片段，并对所述训练样本进行特征提取，以提取出所述训练样本的音频特征，然后将所述训练样本的音频特征输入参考模型中进行学习训练，以生成处理模型，并基于所述处理模型对待测音频进行音频处理，以获取所述待测音频的音色特征，可以在不要求干声的情况下，有效识别出音色特征，提升了音色特征识别的高效性、鲁棒性及准确性。

2023-12-04

754KB

音频检索方法、装置及存储介质.pdf

本发明实施例公开了一种音频检索方法、装置及存储设备，其中音频检索方法包括：当接收到客户端发送的音频检索请求时，提取所述检索请求中的音频指纹；基于所述音频指纹在第一预设音频数据库中进行匹配；当未匹配成功时，在第二预设音频数据库中检索与所述音频指纹匹配的音频数据；若检索到与所述音频指纹匹配的音频数据，则将所述音频数据的音频信息发送至所述客户端；若未检索到与所述音频指纹匹配的音频数据，则按照预设策略对所述第二预设音频数据库进行监测；当监测到有新音频数据加入所述第二预设音频数据库时，则在所述第二预设音频数据库中检

2023-12-04

814KB