预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共18页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115064149A(43)申请公布日2022.09.16(21)申请号202210642792.7(22)申请日2022.06.08(71)申请人上海喜马拉雅科技有限公司地址201100上海市闵行区紫星路588号2幢2062室(72)发明人吕翔印晶晶卢恒(74)专利代理机构北京超凡宏宇专利代理事务所(特殊普通合伙)11463专利代理师戴尧罡(51)Int.Cl.G10L13/02(2013.01)G10L13/08(2013.01)权利要求书2页说明书11页附图4页(54)发明名称模型匹配方法、装置、电子设备及可读存储介质(57)摘要本发明的实施例提供了一种模型匹配方法、装置、电子设备及可读存储介质,涉及计算机领域。首先获取目标用户的目标声纹特征和固定文本对应的第一匹配信息、多个场景声纹特征;再分别获取每个场景声纹特征对应的第二匹配信息,以及分别获取目标声纹特征与每个场景声纹特征的匹配度评分。接着利用第一匹配信息与第二匹配信息,分别对每个匹配度评分进行归一化处理,得到每个场景声纹特征对应的归一化分值。最后根据全部归一化分值,从模型库中确定与目标声纹特征匹配的目标语音合成模型。这样实现了根据目标用户的声纹特征从模型库中选出匹配的目标语音合成模型,省时便捷。CN115064149ACN115064149A权利要求书1/2页1.一种模型匹配方法,其特征在于,包括:获取目标用户的目标音频对应的目标声纹特征;所述目标音频对应一个固定文本;获取所述目标声纹特征与锚点声纹库对应的第一匹配信息;获取所述固定文本对应的多个场景声纹特征;其中,模型库中包含多个语音合成模型,每个场景声纹特征对应一个所述语音合成模型;分别获取每个所述场景声纹特征对应的第二匹配信息;分别获取目标声纹特征与每个所述场景声纹特征的匹配度评分;利用所述第一匹配信息与所述第二匹配信息,分别对每个所述匹配度评分进行归一化处理,得到每个所述场景声纹特征对应的归一化分值;根据全部所述归一化分值,从所述模型库中确定与所述目标声纹特征匹配的目标语音合成模型。2.如权利要求1所述的方法,其特征在于,所述方法还包括:获取模板音频集合对应的模板音频文本集合;所述模板音频集合中包含多个模板音频,所述模板音频文本集合包含多个模板音频文本;任意一个所述模板音频存在一个对应的模板音频文本;将所述模板音频文本集合分别输入每个所述语音合成模型,获得每个所述模板音频文本集合对应的语音合成音频集合;所述语音合成音频集合中包含多个语音合成音频;每个训练音频文本对应的一个语音合成音频与一个所述语音合成模型对应;利用声纹模型,对所述语音合成音频集合和所述模板音频集合进行特征提取,得到声纹特征集合以构成所述锚点声纹库;其中,所述锚点声纹库中包含每个所述语音合成音频的声纹特征和每个所述模板音频的声纹特征。3.如权利要求1所述的方法,其特征在于,所述锚点声纹库中包含多个声纹特征,所述第一匹配信息包括第一均值和第一标准差,所述获取所述目标声纹特征与锚点声纹库对应的第一匹配信息的步骤,包括:将所述目标声纹特征分别与锚点声纹库中的每个声纹特征进行匹配,得到所述目标声纹特征对应的多个第一匹配分值;每个所述第一匹配分值对应所述锚点声纹库中的一个所述声纹特征;从多个所述第一匹配分值中选取K个第一匹配分值,并基于所述K个第一匹配分值计算所述第一均值和所述第一标准差。4.如权利要求1所述的方法,其特征在于,所述获取所述固定文本对应的多个场景声纹特征的步骤,包括:将所述固定文本分别输入每个所述语音合成模型,得到多个目标语音合成音频;利用声纹模型,分别对每个所述目标语音合成音频进行特征提取,得到多个所述场景声纹特征。5.如权利要求1所述的方法,其特征在于,所述锚点声纹库中包含多个声纹特征,所述第二匹配信息包括每个所述场景声纹特征的第二均值和第二标准差,所述分别获取每个所述场景声纹特征对应的第二匹配信息的步骤,包括:逐个将每个所述场景声纹特征分别与锚点声纹库中的每个声纹特征进行匹配,得到每个所述场景声纹特征对应的多个第二匹配分值;2CN115064149A权利要求书2/2页针对每个所述场景声纹特征,从每个所述场景声纹特征对应的多个第二匹配分值选取K个第二匹配分值,并基于所述K个第二匹配分值计算该场景声纹特征的第二均值和第二标准差。6.一种模型匹配装置,其特征在于,包括第一获取模块、第二获取模块和处理模块;所述第一获取模块,用于:获取目标用户的目标音频对应的目标声纹特征;所述目标音频对应一个固定文本;获取所述目标声纹特征与锚点声纹库对应的第一匹配信息;所述第二获取模块,用于:获取所述固定文本对应的多个场景声纹特征;其中,模型库中包含多个语音合成模型,每个场景声纹特征对应一个所述