音频生成方法和系统-豆柴文库

音频生成方法和系统.pdf

2023-12-02

10金币

511KB

15页

一条****杉淑

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共15页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115700883A(43)申请公布日2023.02.07(21)申请号202210811530.9G06N3/08(2023.01)(22)申请日2022.07.11(30)优先权数据2110282.72021.07.16GB(71)申请人索尼互动娱乐欧洲有限公司地址英国伦敦(72)发明人A.B.里奥斯(74)专利代理机构北京市柳沈律师事务所11105专利代理师张晓明(51)Int.Cl.G10L25/03(2013.01)G10L25/27(2013.01)G10L25/51(2013.01)G06N3/04(2023.01)权利要求书2页说明书8页附图4页(54)发明名称音频生成方法和系统(57)摘要一种音频生成方法和系统，该方法包括以下步骤：接收多个输入音频资产，将每个输入音频资产转换为输入图形表示，通过将每个输入图形表示堆叠在图像的分离通道中来生成输入多通道图像，将输入多通道图像馈入生成模型以训练生成模型并生成一个或多个输出多通道图像，每个输出多通道图像包括输出图形表示，从每个输出多通道图像提取输出图形表示，并将每个输出图形表示转换为输出音频资产。CN115700883ACN115700883A权利要求书1/2页1.一种生成音频资产的方法，包括以下步骤：接收多个输入音频资产，将每个输入音频资产转换为输入图形表示，从各个输入图形表示生成输入图像，将所述输入图像馈入生成模型以训练所述生成模型并生成一个或多个输出图像，每个输出图像包括输出图形表示，以及从每个输出图像提取所述输出图形表示，并将每个输出图形表示转换为输出音频资产。2.根据权利要求1的方法，其中所述输入图像是通过将每个输入图形表示堆叠在所述图像的分离通道中而生成的多通道图像，并且所生成的输出图像是输出多通道图像。3.根据权利要求1所述的方法，其中，将每个音频资产转换为图形表示的步骤包括对每个音频资产执行傅立叶变换并绘制频域振幅以产生声谱图作为所述图形表示。4.根据权利要求2所述的方法，其中，解析每个输出多通道图像的步骤包括以下步骤：从所述多通道图像的每个通道分离所述输出图形图像，以及对每个输出图形图像执行逆傅立叶变换，以从每个输出图形图像检索一个或多个输出音频资产。5.根据权利要求1的方法，其中，每个图形表示是声谱图。6.根据权利要求1的方法，其中，所述生成模型是单一图像生成模型，包括具有生成器和马尔可夫判别器的生成对抗网络GAN，并且生成一个或多个输出图像的步骤包括在所述输入图像上训练所述GAN。7.根据权利要求2所述的方法，其中，所述输出多通道图像包括所述多通道图像的每个通道中的输出图形表示。8.根据权利要求1所述的方法，其中，将每个输出图形表示转换为输出音频资产的步骤包括生成一个或多个分层输出音频资产，其中每个分层输出音频资产包括从所述输出图形表示导出的一个或多个音频资产。9.根据权利要求8所述的方法，其中，每个分层输出音频资产中的所述音频资产在时间上错开一时间延迟。10.根据权利要求1所述的方法，其中，接收多个输入音频资产的步骤包括从视频游戏环境接收视频游戏信息，并且生成一个或多个输出图像的步骤包括将所述视频游戏信息馈送到所述单一图像生成模型中，使得所述输出图像受到所述视频游戏信息的影响。11.根据权利要求1所述的方法，还包括将所训练的生成模型存储在存储器上的步骤，所述存储器被配置为被访问以生成另外的音频资产。12.一种包括计算机实现的指令的计算机程序，当在计算机上运行时，所述指令使所述计算机实现生成音频资产的方法，所述方法包括以下步骤：接收多个输入音频资产，将每个输入音频资产转换为输入图形表示，从各个输入图形表示生成输入图像，2CN115700883A权利要求书2/2页将所述输入图像馈入生成模型以训练所述生成模型并生成一个或多个输出图像，每个输出图像包括输出图形表示，以及从每个输出图像提取所述输出图形表示，并将每个输出图形表示转换为输出音频资产。13.一种用于生成音频资产的系统，所述系统包括：资产输入单元，被配置为接收多个输入音频资产，将每个输入音频资产转换为输入图形表示，并且根据各个输入图形表示来生成输入图像，以及图像生成单元，被配置为实现生成模型以基于所述输入图像来生成一个或多个输出图像，每个输出图像包括输出图形表示，以及资产输出单元，被配置为从每个输出图像分离所述输出图形表示，并将每个输出图形表示转换为输出音频资产。14.根据权利要求13所述的系统，其中所述输入图像是由所述资产输入单元通过将每个输入图形表示堆叠在所述图像的分离通道中而生成的多通道图像，并且所生成的输出图像是输出多通道图像。15.根据权利要求13所述的系统，还包括变换单元，所述变换单元被配置为执行傅立叶变换操作和逆傅立

相关资料

音频生成方法和系统.pdf

一种音频生成方法和系统，该方法包括以下步骤：接收多个输入音频资产，将每个输入音频资产转换为输入图形表示，通过将每个输入图形表示堆叠在图像的分离通道中来生成输入多通道图像，将输入多通道图像馈入生成模型以训练生成模型并生成一个或多个输出多通道图像，每个输出多通道图像包括输出图形表示，从每个输出多通道图像提取输出图形表示，并将每个输出图形表示转换为输出音频资产。

2023-12-02

511KB

音频文件标签生成方法和系统.pdf

本发明涉及一种歌曲标签生成方法和系统，其中，方法包括：将需要进行标签设置的音频文件及音频文件的内容中包含的文字信息录入音频文件库、将常用标签录入标签库、将常用关键词录入关键词库；根据常用关键词与常用标签的关联程度，为常用关键词设置标签，得到常用关键词-标签关系；对文字信息进行分词，得到若干个词语，计算各词语的TF-IDF值，并根据TF-IDF值的大小获取音频文件的关键词；根据常用关键词-标签关系查询音频文件的关键词对应的标签；若查询到对应标签，将音频文件与对应标签进行关联；为生词生成新标签，并关联所述生词

2023-12-07

679KB

一种根据音频音乐生成动画的方法和系统.pdf

本发明提供了一种根据音频音乐生成动画的方法和系统，所述方法包括：对音频音乐的预设频率段进行分析，获得节奏音频、伴奏音频；依据所述各个音频的频率特性获得各个音轨，并组合生成MIDI文件；对MIDI文件进行音乐结构的分析，获得音乐分析结果以及音乐的时间属性；根据预置的动画素材库和上述音乐分析结果通过预置规则或者用户输入的参数构建各个动画元素及其对应关系；根据所述时间属性将各个动画元素及其对应关系组合成动画。通过本发明，可以自动的将音频音乐生成为内容丰富、与音乐表达的内容相对应的可视信息。

2024-01-04

764KB

用于生成音频内容的方法和装置.pdf

在方法中，执行如下：接收表示混合音频源的输入音频内容；分离混合音频源，从而获得分离的音频源信号和残留信号；以及通过混合分离的音频源信号和残留信号，生成输出音频内容。

2023-11-20

663KB

用于生成和交互式地渲染基于对象的音频的方法和系统.pdf

用于生成基于对象的音频节目的方法，该基于对象的音频节目是以可个性化的方式可渲染的，并且包括在不选择其他节目内容的情况下可渲染的扬声器通道声床(例如，以提供默认的全范围音频体验)。其他实施方式包括递送、解码和/或渲染这样的节目的步骤。声床的内容的渲染或者节目的其他内容的所选的混音的渲染可以提供沉浸式体验。节目可以包括多个对象通道(例如，指示用户可选的和用户可配置的对象的对象通道)、扬声器通道声床和其他扬声器通道。另一方面是音频处理单元(例如，编码器或解码器)，其被配置成执行方法的任意实施方式，或者其包括存储

2023-06-26

1.5MB