预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共15页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115700883A(43)申请公布日2023.02.07(21)申请号202210811530.9G06N3/08(2023.01)(22)申请日2022.07.11(30)优先权数据2110282.72021.07.16GB(71)申请人索尼互动娱乐欧洲有限公司地址英国伦敦(72)发明人A.B.里奥斯(74)专利代理机构北京市柳沈律师事务所11105专利代理师张晓明(51)Int.Cl.G10L25/03(2013.01)G10L25/27(2013.01)G10L25/51(2013.01)G06N3/04(2023.01)权利要求书2页说明书8页附图4页(54)发明名称音频生成方法和系统(57)摘要一种音频生成方法和系统,该方法包括以下步骤:接收多个输入音频资产,将每个输入音频资产转换为输入图形表示,通过将每个输入图形表示堆叠在图像的分离通道中来生成输入多通道图像,将输入多通道图像馈入生成模型以训练生成模型并生成一个或多个输出多通道图像,每个输出多通道图像包括输出图形表示,从每个输出多通道图像提取输出图形表示,并将每个输出图形表示转换为输出音频资产。CN115700883ACN115700883A权利要求书1/2页1.一种生成音频资产的方法,包括以下步骤:接收多个输入音频资产,将每个输入音频资产转换为输入图形表示,从各个输入图形表示生成输入图像,将所述输入图像馈入生成模型以训练所述生成模型并生成一个或多个输出图像,每个输出图像包括输出图形表示,以及从每个输出图像提取所述输出图形表示,并将每个输出图形表示转换为输出音频资产。2.根据权利要求1的方法,其中所述输入图像是通过将每个输入图形表示堆叠在所述图像的分离通道中而生成的多通道图像,并且所生成的输出图像是输出多通道图像。3.根据权利要求1所述的方法,其中,将每个音频资产转换为图形表示的步骤包括对每个音频资产执行傅立叶变换并绘制频域振幅以产生声谱图作为所述图形表示。4.根据权利要求2所述的方法,其中,解析每个输出多通道图像的步骤包括以下步骤:从所述多通道图像的每个通道分离所述输出图形图像,以及对每个输出图形图像执行逆傅立叶变换,以从每个输出图形图像检索一个或多个输出音频资产。5.根据权利要求1的方法,其中,每个图形表示是声谱图。6.根据权利要求1的方法,其中,所述生成模型是单一图像生成模型,包括具有生成器和马尔可夫判别器的生成对抗网络GAN,并且生成一个或多个输出图像的步骤包括在所述输入图像上训练所述GAN。7.根据权利要求2所述的方法,其中,所述输出多通道图像包括所述多通道图像的每个通道中的输出图形表示。8.根据权利要求1所述的方法,其中,将每个输出图形表示转换为输出音频资产的步骤包括生成一个或多个分层输出音频资产,其中每个分层输出音频资产包括从所述输出图形表示导出的一个或多个音频资产。9.根据权利要求8所述的方法,其中,每个分层输出音频资产中的所述音频资产在时间上错开一时间延迟。10.根据权利要求1所述的方法,其中,接收多个输入音频资产的步骤包括从视频游戏环境接收视频游戏信息,并且生成一个或多个输出图像的步骤包括将所述视频游戏信息馈送到所述单一图像生成模型中,使得所述输出图像受到所述视频游戏信息的影响。11.根据权利要求1所述的方法,还包括将所训练的生成模型存储在存储器上的步骤,所述存储器被配置为被访问以生成另外的音频资产。12.一种包括计算机实现的指令的计算机程序,当在计算机上运行时,所述指令使所述计算机实现生成音频资产的方法,所述方法包括以下步骤:接收多个输入音频资产,将每个输入音频资产转换为输入图形表示,从各个输入图形表示生成输入图像,2CN115700883A权利要求书2/2页将所述输入图像馈入生成模型以训练所述生成模型并生成一个或多个输出图像,每个输出图像包括输出图形表示,以及从每个输出图像提取所述输出图形表示,并将每个输出图形表示转换为输出音频资产。13.一种用于生成音频资产的系统,所述系统包括:资产输入单元,被配置为接收多个输入音频资产,将每个输入音频资产转换为输入图形表示,并且根据各个输入图形表示来生成输入图像,以及图像生成单元,被配置为实现生成模型以基于所述输入图像来生成一个或多个输出图像,每个输出图像包括输出图形表示,以及资产输出单元,被配置为从每个输出图像分离所述输出图形表示,并将每个输出图形表示转换为输出音频资产。14.根据权利要求13所述的系统,其中所述输入图像是由所述资产输入单元通过将每个输入图形表示堆叠在所述图像的分离通道中而生成的多通道图像,并且所生成的输出图像是输出多通道图像。15.根据权利要求13所述的系统,还包括变换单元,所述变换单元被配置为执行傅立叶变换操作和逆傅立