模型匹配方法、装置、电子设备及可读存储介质-豆柴文库

模型匹配方法、装置、电子设备及可读存储介质.pdf

2023-07-21

10金币

727KB

18页

又珊****ck

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共18页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115064149A(43)申请公布日2022.09.16(21)申请号202210642792.7(22)申请日2022.06.08(71)申请人上海喜马拉雅科技有限公司地址201100上海市闵行区紫星路588号2幢2062室(72)发明人吕翔印晶晶卢恒(74)专利代理机构北京超凡宏宇专利代理事务所(特殊普通合伙)11463专利代理师戴尧罡(51)Int.Cl.G10L13/02(2013.01)G10L13/08(2013.01)权利要求书2页说明书11页附图4页(54)发明名称模型匹配方法、装置、电子设备及可读存储介质(57)摘要本发明的实施例提供了一种模型匹配方法、装置、电子设备及可读存储介质，涉及计算机领域。首先获取目标用户的目标声纹特征和固定文本对应的第一匹配信息、多个场景声纹特征；再分别获取每个场景声纹特征对应的第二匹配信息，以及分别获取目标声纹特征与每个场景声纹特征的匹配度评分。接着利用第一匹配信息与第二匹配信息，分别对每个匹配度评分进行归一化处理，得到每个场景声纹特征对应的归一化分值。最后根据全部归一化分值，从模型库中确定与目标声纹特征匹配的目标语音合成模型。这样实现了根据目标用户的声纹特征从模型库中选出匹配的目标语音合成模型，省时便捷。CN115064149ACN115064149A权利要求书1/2页1.一种模型匹配方法，其特征在于，包括：获取目标用户的目标音频对应的目标声纹特征；所述目标音频对应一个固定文本；获取所述目标声纹特征与锚点声纹库对应的第一匹配信息；获取所述固定文本对应的多个场景声纹特征；其中，模型库中包含多个语音合成模型，每个场景声纹特征对应一个所述语音合成模型；分别获取每个所述场景声纹特征对应的第二匹配信息；分别获取目标声纹特征与每个所述场景声纹特征的匹配度评分；利用所述第一匹配信息与所述第二匹配信息，分别对每个所述匹配度评分进行归一化处理，得到每个所述场景声纹特征对应的归一化分值；根据全部所述归一化分值，从所述模型库中确定与所述目标声纹特征匹配的目标语音合成模型。2.如权利要求1所述的方法，其特征在于，所述方法还包括：获取模板音频集合对应的模板音频文本集合；所述模板音频集合中包含多个模板音频，所述模板音频文本集合包含多个模板音频文本；任意一个所述模板音频存在一个对应的模板音频文本；将所述模板音频文本集合分别输入每个所述语音合成模型，获得每个所述模板音频文本集合对应的语音合成音频集合；所述语音合成音频集合中包含多个语音合成音频；每个训练音频文本对应的一个语音合成音频与一个所述语音合成模型对应；利用声纹模型，对所述语音合成音频集合和所述模板音频集合进行特征提取，得到声纹特征集合以构成所述锚点声纹库；其中，所述锚点声纹库中包含每个所述语音合成音频的声纹特征和每个所述模板音频的声纹特征。3.如权利要求1所述的方法，其特征在于，所述锚点声纹库中包含多个声纹特征，所述第一匹配信息包括第一均值和第一标准差，所述获取所述目标声纹特征与锚点声纹库对应的第一匹配信息的步骤，包括：将所述目标声纹特征分别与锚点声纹库中的每个声纹特征进行匹配，得到所述目标声纹特征对应的多个第一匹配分值；每个所述第一匹配分值对应所述锚点声纹库中的一个所述声纹特征；从多个所述第一匹配分值中选取K个第一匹配分值，并基于所述K个第一匹配分值计算所述第一均值和所述第一标准差。4.如权利要求1所述的方法，其特征在于，所述获取所述固定文本对应的多个场景声纹特征的步骤，包括：将所述固定文本分别输入每个所述语音合成模型，得到多个目标语音合成音频；利用声纹模型，分别对每个所述目标语音合成音频进行特征提取，得到多个所述场景声纹特征。5.如权利要求1所述的方法，其特征在于，所述锚点声纹库中包含多个声纹特征，所述第二匹配信息包括每个所述场景声纹特征的第二均值和第二标准差，所述分别获取每个所述场景声纹特征对应的第二匹配信息的步骤，包括：逐个将每个所述场景声纹特征分别与锚点声纹库中的每个声纹特征进行匹配，得到每个所述场景声纹特征对应的多个第二匹配分值；2CN115064149A权利要求书2/2页针对每个所述场景声纹特征，从每个所述场景声纹特征对应的多个第二匹配分值选取K个第二匹配分值，并基于所述K个第二匹配分值计算该场景声纹特征的第二均值和第二标准差。6.一种模型匹配装置，其特征在于，包括第一获取模块、第二获取模块和处理模块；所述第一获取模块，用于：获取目标用户的目标音频对应的目标声纹特征；所述目标音频对应一个固定文本；获取所述目标声纹特征与锚点声纹库对应的第一匹配信息；所述第二获取模块，用于：获取所述固定文本对应的多个场景声纹特征；其中，模型库中包含多个语音合成模型，每个场景声纹特征对应一个所述

相关资料

模型匹配方法、装置、电子设备及可读存储介质.pdf

本发明的实施例提供了一种模型匹配方法、装置、电子设备及可读存储介质，涉及计算机领域。首先获取目标用户的目标声纹特征和固定文本对应的第一匹配信息、多个场景声纹特征；再分别获取每个场景声纹特征对应的第二匹配信息，以及分别获取目标声纹特征与每个场景声纹特征的匹配度评分。接着利用第一匹配信息与第二匹配信息，分别对每个匹配度评分进行归一化处理，得到每个场景声纹特征对应的归一化分值。最后根据全部归一化分值，从模型库中确定与目标声纹特征匹配的目标语音合成模型。这样实现了根据目标用户的声纹特征从模型库中选出匹配的目标语音

2023-07-21

727KB

模型处理方法、装置、电子设备及可读存储介质.pdf

本发明实施例提供了一种模型处理方法、装置、电子设备及可读存储介质，该方法中，将待识别音频的帧特征作为目标声学模型的输入。对于任一帧特征，利用目标声学模型中的注意力模块，基于帧特征以及帧特征的第一范围内的相邻帧特征，计算第一注意力权重矩阵，目标声学模型在训练过程中使用的相邻帧特征的范围为第二范围，第二范围小于第一范围；基于第一注意力权重矩阵，生成目标声学模型的输出，以确定待识别音频对应的文本。一定程度上可以缩短声学模型在训练过程中的处理时长，从而提高处理效率。同时，由于采用的相邻帧特征更多，进而一定程度上可

2023-07-25

967KB

模型处理方法、模型处理装置、电子设备及可读存储介质.pdf

本申请提供了一种模型处理方法、模型处理装置、电子设备及可读存储介质，根据初始流动曲线所表征的流动参数以及初始河流模型中目标障碍物边界上每个顶点位置的预设法线参数，确定虚拟水流与目标障碍物发生碰撞的目标碰撞区域；并按照不同的网格密度，分别规划目标碰撞区域内的布线网格和目标碰撞区域外的布线网格，得到待填充河流模型；根据初始流动曲线所表征的流动参数，确定待填充河流模型内对应的网格顶点的顶点填充色并填充该网格顶点，得到目标河流模型。这样，便能够既确保模拟得到的河流中保留有足够的流向细节，又避免了因模型文件过大而出

2023-07-24

856KB

模型训练方法、装置、电子设备及可读存储介质.pdf

本公开提供了一种模型训练方法、装置、电子设备及可读存储介质,涉及计算机技术领域,尤其涉及深度学习技术领域。具体实现方案为:获取N个训练语句,并将所述N个训练语句分别输入第一模型和第二模型,N为大于1的整数;获取所述第一模型输出的第一自注意力关系值和第二自注意力关系值,以及所述第二模型输出的第三自注意力关系值和第四自注意力关系值;获取所述第三自注意力关系值与所述第一自注意力关系值之间的第一相似度,以及所述第四自注意力关系值与所述第二自注意力关系值之间的第二相似度;基于所述第一相似度及所述第二相似度对所述第二

2023-05-18

524KB

模型训练方法、装置、电子设备及可读存储介质.pdf

2023-05-24

524KB