预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共27页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN112071322A(43)申请公布日2020.12.11(21)申请号202011188392.0G10L25/30(2013.01)(22)申请日2020.10.30G10L25/69(2013.01)(71)申请人北京快鱼电子股份公司地址100195北京市海淀区闵庄路3号玉泉慧谷11号楼一层16室(72)发明人马杰(74)专利代理机构北京天盾知识产权代理有限公司11421代理人张彩珍(51)Int.Cl.G10L17/02(2013.01)G10L17/04(2013.01)G10L17/08(2013.01)G10L25/24(2013.01)G10L25/27(2013.01)权利要求书2页说明书13页附图11页(54)发明名称一种端到端的声纹识别方法、装置、存储介质及设备(57)摘要本方案公开了一种端到端的声纹识别方法、装置、存储介质及设备,方法包括准备训练用声音数据集;所述训练用声音数据集中的声音数据进行预处理;对预处理后的声音数据进行活动语音段检测,并将检测存在语音段的声音数据进行拼接得到语音数据;提取所述语音数据的对数梅尔特征;基于所述对数梅尔特征构建端到端的深度神经网络模型;根据模型训练的结果提取所述声音数据的声纹特征,建立说话人声纹数据库;基于所述说话人声纹数据库对说话人声音数据进行识别。本方案从数据预处理、端到端的模型、损失函数的改进、训练过程的改进、匹配算法的改进等方面进一步提升了声纹识别的准确率。CN112071322ACN112071322A权利要求书1/2页1.一种端到端的声纹识别方法,其特征在于,该方法包括:准备训练用声音数据集;对所述训练用声音数据集中的声音数据进行预处理,所述预处理包括对信噪比和语速进行规整和拼接;对预处理后的声音数据进行活动语音段检测,并将检测存在语音段的声音数据进行拼接得到语音数据;提取所述语音数据的对数梅尔特征;基于所述对数梅尔特征构建端到端的深度神经网络模型,在模型训练的开始阶段,每个MiniBatch中轮流加入部分损失值最大的正样本和损失值最大的负样本;在训练结果逐渐稳定后,将损失值大于预定阈值的样本剔除;根据模型训练的结果提取所述声音数据的声纹特征,建立说话人声纹数据库;基于所述说话人声纹数据库对说话人声音数据进行识别;其中,所述端到端的深度神经网络模型训练所采用的损失函数具有如式(1)所示的公式,kyloss=l1+l2(1);式(1)中,kyloss表示损失函数,l1表示类间距离,l2表示类内距离,l1=max(san-sap+alpha,0),其中alpha设为0.5;l2=max(-0.5*sap,0)+max(0.5*san,0);san为不同用户对应的声纹特征的余弦距离,sap为相同用户对应的声纹特征的余弦距离。2.根据权利要求1所述的方法,其特征在于,所述对信噪比和语速进行规整和拼接包括:将获取的原始声音、叠加了噪音的声音、调整语速的声音拼接在一起。3.根据权利要求1所述的方法,其特征在于,所述对预处理后的声音数据进行活动语音段检测,并将检测存在语音段的声音数据进行拼接得到语音数据包括:将拼接后的声音数据集进行分帧,使用双门限法进行基本帧的VAD;对基本帧的VAD结果进行中值滤波;将通过VAD检测的声音数据拼接得到语音数据。4.根据权利要求1所述的方法,其特征在于,所述端到端的深度神经网络训练包括:将从各用户标识对应的声音数据中分别提取的对数梅尔特征,作为训练数据;利用深度神经网络对各声音数据的对数梅尔特征进行学习,输出各声音数据的声纹特征;利用所述各声音数据的声纹特征计算损失函数,利用所述损失函数对所述深度神经网络进行调参,以最小化所述损失函数值。5.根据权利要求1所述的方法,其特征在于,基于所述说话人声纹数据库对待识别语说话人声音数据进行识别包括:通过所述端到端的深度神经网络模型提取说话人声音数据的声纹特征;利用所述说话人声音数据的声纹特征,注册所述说话人声音数据所对应用户标识的声纹模型;将所述声纹特征与声纹数据库中全部或部分的声纹数据通过余弦距离进行相似度对比,若匹配到某说话人,将该声纹特征更新到对应用户标识的声纹数据库中。6.根据权利要求5所述的方法,其特征在于,将所述声纹特征与声纹数据库中全部或部分的声纹数据通过余弦距离进行相似度对比,若匹配到某说话人,将该声纹特征更新到对2CN112071322A权利要求书2/2页应用户标识的声纹数据库中进一步包括:将与所述用户标识对应的声纹特征按注册时间从近期到远期排序,以注册时间排序前5%的声纹特征的均值向量作为近期声纹特征向量值,其他声纹特征的均值向量作为历史声纹特征向量值,将所述说话人声音数据的声纹特征向量与已注册的各