预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共24页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN114974220A(43)申请公布日2022.08.30(21)申请号202210695538.3(22)申请日2022.06.17(71)申请人中国电信股份有限公司地址100033北京市西城区金融大街31号(72)发明人沈浩赵德欣成莎莎王磊(74)专利代理机构北京律智知识产权代理有限公司11438专利代理师孙宝海(51)Int.Cl.G10L15/02(2006.01)G10L15/06(2013.01)G10L15/16(2006.01)G10L25/51(2013.01)G10L25/30(2013.01)权利要求书2页说明书14页附图7页(54)发明名称网络模型的训练方法、语音对象的性别识别方法及装置(57)摘要本申请揭示了一种网络模型的训练方法、语音对象的性别识别方法及装置,该方法包括:获取语音样本数据集中包含的语音样本对的声学特征,语音样本对包括正语音样本对和负语音样本对;将各语音样本对的声学特征输入网络模型中,得到各语音样本对中包含的语音样本的性别特征;根据正语音样本对中包含的语音样本的性别特征确定第一损失函数的损失值,以及根据负语音样本对中包含的语音样本的性别特征确定第二损失函数的损失值;以第一损失函数的损失值变大且第二损失函数的损失值变小为目标训练网络模型,直至根据训练后的网络模型确定出的第一损失函数的损失值与第二损失函数的损失值之和小于预设损失阈值。本申请提高了网络模型的训练效率。CN114974220ACN114974220A权利要求书1/2页1.一种网络模型的训练方法,其特征在于,所述方法包括:获取语音样本数据集中包含的语音样本对的声学特征,所述语音样本对包括正语音样本对和负语音样本对,所述正语音样本对分别选自同一无标签语音样本数据增强后的增强语音,所述负语音样本对中的两语音样本分别选自不同无标签语音样本数据增强后的增强语音;将各语音样本对的声学特征输入所述网络模型中,得到各语音样本对中包含的语音样本的性别特征;根据所述正语音样本对中包含的语音样本的性别特征确定第一损失函数的损失值,以及根据所述负语音样本对中包含的语音样本的性别特征确定第二损失函数的损失值;以所述第一损失函数的损失值变大且所述第二损失函数的损失值变小为目标训练所述网络模型,直至根据训练后的网络模型确定出的所述第一损失函数的损失值与所述第二损失函数的损失值之和小于预设损失阈值。2.根据权利要求1所述的方法,其特征在于,在所述获取语音样本数据集中包含的语音样本对的声学特征的步骤之前,所述方法还包括:根据多种数据增强技术对所述语音样本数据集中包含的语音样本进行数据增强处理,得到各语音样本的多个增强语音;从同一语音样本对应的多个增强语音中选取两个增强语音作为正语音样本对,并从两个不同语音样本对应的多个增强语音中各选取一个增强语音作为负语音样本对;基于所述正语音样本对和所述负语音样本对得到所述语音样本数据集中包含的语音样本对。3.根据权利要求1所述的方法,其特征在于,所述网络模型包括性别特征提取器和特征映射感知器,所述将各语音样本对的声学特征输入所述网络模型中,得到各语音样本对中包含的语音样本的性别特征的步骤,包括:根据所述性别特征提取器对各语音样本对的声学特征进行性别特征提取处理,以得到所述性别特征提取器的末端池化层输出的性别特征表示;根据所述特征映射感知器对所述性别特征表示进行多维度映射处理,得到各语音样本对中包含的语音样本的性别特征。4.一种语音对象的性别识别方法,其特征在于,所述方法包括:将所述语音对象的语音数据对应的声学特征输入网络模型中,得到所述语音对象的所属性别的性别特征;若所述语音对象的语音数据不存在语音标签,则计算所述语音对象的所属性别的性别特征与预设性别特征之间的余弦特征相似度;若所述余弦特征相似度大于预设特征相似度阈值,则确定所述语音对象的所属性别为所述预设性别特征对应的所属性别,其中,所述网络模型为上述权利要求1~3中任一项所述方法所训练得到的网络模型。5.根据权利要求4所述的方法,其特征在于,所述方法还包括:提取获取的标准语音数据的所属性别对应的性别特征;将所述标准语音数据中隶属于同一性别的标准语音数据对应的性别特征进行加权平均处理,并将加权平均后的性别特征作为所述预设性别特征。2CN114974220A权利要求书2/2页6.根据权利要求4所述的方法,其特征在于,在所述将获取的所述语音对象的语音数据的声学特征输入网络模型中,得到所述语音对象的所属性别的性别特征的步骤之后,所述方法还包括:若所述语音对象的语音数据存在语音标签,对所述网络模型进行微调处理;利用所述语音对象的语音数据训练微调后的网络模型,得到训练后的网络模型。7.根据权利要求6所述的方法,其特征