预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共25页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113948103A(43)申请公布日2022.01.18(21)申请号202111202648.3G10L25/30(2013.01)(22)申请日2021.10.15(71)申请人北京百度网讯科技有限公司地址100085北京市海淀区上地十街10号百度大厦2层(72)发明人赵情恩(74)专利代理机构北京市汉坤律师事务所11602代理人姜浩然吴丽丽(51)Int.Cl.G10L21/0272(2013.01)G10L21/0308(2013.01)G10L25/03(2013.01)G10L25/12(2013.01)G10L25/24(2013.01)权利要求书4页说明书15页附图5页(54)发明名称音频处理方法和装置、模型训练方法和装置、设备及介质(57)摘要本公开提供了一种音频处理方法和装置、模型的训练方法和装置、电子设备及介质,涉及人工智能领域,尤其涉及语音技术领域。实现方案为:依次针对从待处理音频数据中所提取的多个音频帧中的每一个音频帧,确定该音频帧的局部特征信息,其中,待处理音频数据包括来自至少两个声源的音频数据;以及将多个音频帧中的任意一个音频帧确定为目标音频帧,并针对目标音频帧执行以下操作:基于多个音频帧中的每一个音频帧的局部特征信息,确定目标音频帧的全局特征信息;以及基于目标音频帧的全局特征信息,确定目标音频帧所对应的声源分类。CN113948103ACN113948103A权利要求书1/4页1.一种音频处理方法,包括:依次针对从待处理音频数据中所提取的多个音频帧中的每一个音频帧,确定该音频帧的局部特征信息,其中,所述待处理音频数据包括来自至少两个声源的音频数据;以及将所述多个音频帧中的任意一个音频帧确定为目标音频帧,并针对所述目标音频帧执行以下操作:基于所述多个音频帧中的每一个音频帧的局部特征信息,确定所述目标音频帧的全局特征信息;以及基于所述目标音频帧的全局特征信息,确定所述目标音频帧所对应的声源分类。2.根据权利要求1所述的方法,其中,所述多个音频帧在所述待处理音频数据的时域上依次相邻。3.根据权利要求1或2所述的方法,其中,所述依次针对从待处理音频数据中所提取的多个音频帧中的每一个音频帧,确定该音频帧的局部特征信息包括:基于该音频帧和所述多个音频帧中靠近该音频帧的一个或多个音频帧,确定该音频帧的局部特征信息。4.根据权利要求1至3中任意一项所述的方法,其中,所述至少两个声源中的每一个声源为一个说话人。5.一种音频处理模型的训练方法,其中,所述音频处理模型包括局部特征提取模块、全局特征提取模块和输出模块,所述方法包括:依次针对从样本音频数据中所提取的多个样本音频帧中的每一个样本音频帧,利用所述局部特征提取模块,获取该样本音频帧的第一局部特征信息,其中,所述样本音频数据包括来自第一数量的声源的音频数据,所述多个样本音频帧中的每一个样本音频帧具有声源标签;至少基于所述多个样本音频帧中的每一个样本音频帧的第一局部特征信息,利用所述全局特征提取模块,获取所述多个样本音频帧中的每一个样本音频帧的全局特征信息;依次针对所述多个样本音频帧中的每一个样本音频帧,将该样本音频帧的全局特征信息输入所述输出模块,以得到所述输出模块所输出的该样本音频帧针对第一数量的预测声源分类中的每一个预测声源分类的第一置信度;以及基于所述多个样本音频帧中的每一个样本音频帧针对所述第一数量的预测声源分类中的每一个预测声源分类的第一置信度和所述多个样本音频帧中的每一个样本音频帧的声源标签,调整所述音频处理模型的参数。6.根据权利要求5所述的方法,其中,所述基于所述多个样本音频帧中的每一个样本音频帧针对所述第一数量的预测声源分类中的每一个预测声源分类的第一置信度和所述多个样本音频帧中的每一个样本音频帧的声源标签,调整所述音频处理模型的参数包括:确定所述第一数量的预测声源分类与所述第一数量的声源在目标映射类型下的对应关系,其中,在所述第一数量的预测声源分类与所述第一数量的声源之间的多种映射类型所分别对应的多种对应关系中,基于所述目标映射类型所计算得到的所述多个样本音频帧中的每一个样本音频帧所对应的第一置信度与该样本音频帧的声源标签之间的损失值最小;以及基于所述目标映射类型下的对应关系所计算的损失值,调整所述音频处理模型的参2CN113948103A权利要求书2/4页数。7.根据权利要求5或6所述的方法,还包括:依次针对从样本音频数据中所提取的多个样本音频帧中的每一个样本音频帧,利用附加局部特征提取模块,获取该样本音频帧的第二局部特征信息;其中,所述至少基于所述多个样本音频帧中的每一个样本音频帧的第一局部特征信息,利用所述全局特征提取模块,获取所述多个样本音频帧中的每一个样