预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共13页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN111326161A(43)申请公布日2020.06.23(21)申请号202010119901.8(22)申请日2020.02.26(71)申请人北京声智科技有限公司地址100080北京市海淀区北四环西路67号3层306室(72)发明人邱广冯大航陈孝良常乐(74)专利代理机构北京集佳知识产权代理有限公司11227代理人王欢(51)Int.Cl.G10L17/02(2013.01)G10L17/04(2013.01)G10L17/18(2013.01)权利要求书1页说明书7页附图4页(54)发明名称一种声纹确定方法及装置(57)摘要本申请公开了一种声纹确定方法及装置,包括:获取语音数据,所述语音数据包括一条或多条语音信息;提取每一条所述语音信息的声学前端特征;将所述声学前端特征输入卷积神经网络CNN进行特征训练,得到每一条所述语音信息对应的声纹特征。所述声纹确定方法及装置,首先提取的是简单的声学前端特征,能够保留更多的原始语音特征,并且减少提取特征时所需的计算量,降低时间复杂度;同时采用卷积神经网络对语音信息进行编码,对语音提取深度特征,从而能够更有效的提取准确的声纹信息。CN111326161ACN111326161A权利要求书1/1页1.一种声纹确定方法,其特征在于,包括:获取语音数据,所述语音数据包括一条或多条语音信息;提取每一条所述语音信息的声学前端特征;将所述声学前端特征输入卷积神经网络CNN进行特征训练,得到每一条语音信息对应的声纹特征。2.根据权利要求1所述的声纹确定方法,其特征在于,在所述提取每一条所述语音信息的声学前端特征前,所述方法还包括:对所述语音信息做静音段去除操作。3.根据权利要求1所述的声纹确定方法,其特征在于,所述提取每一条所述语音信息的声学前端特征,包括:提取每一条所述语音信息的语谱图特征。4.根据权利要求3所述的声纹确定方法,其特征在于,所述语谱图特征的特征维数为512维、513维或257维中的一种。5.根据权利要求1所述的声纹确定方法,其特征在于,在所述将所述声学前端特征输入卷积神经网络CNN进行特征训练前,还包括:对所有的声学前端特征做补齐和切割操作,使得处理后的每一个声学前端特征为相同大小的矩阵,所述矩阵中包括对应的声学前端特征的全部内容。6.根据权利要求5所述的声纹确定方法,其特征在于,所述对所有的声学前端特征做补齐和切割操作,使得处理后的每一个声学前端特征为相同大小的矩阵,包括:确定所有声学前端特征中具有最大时长的声学前端特征对应的最大帧长;将所有声学前端特征补齐至不小于(最大帧长+切割标准长度)的帧长;依据所述切割标准长度将每一个补齐后的声学前端特征切割为包含n个具有所述切割标准长度的切割段,所述n为正整数。7.根据权利要求1-6任一项所述的声纹确定方法,其特征在于,所述卷积神经网络的激活函数为ReLU函数。8.根据权利要求7所述的声纹确定方法,其特征在于,所述卷积神经网络的损失函数包括大裕量余弦lmc损失函数。9.一种声纹确定装置,其特征在于,包括:语音获取模块,用于获取语音数据,所述语音数据包括一条或多条语音信息;特征提取模块,用于提取每一条所述语音信息的声学前端特征;特征训练模块,用于将所述声学前端特征输入卷积神经网络CNN进行特征训练得到每一条语音信息对应的声纹特征。10.根据权利要求9所述的声纹确定装置,其特征在于,所述装置还包括:语音处理模块,用于在所述特征提取模块提取每一条所述语音信息的声学前端特征前,对所述语音信息做静音段去除操作。2CN111326161A说明书1/7页一种声纹确定方法及装置技术领域[0001]本发明涉及数据处理技术,更具体的说,是涉及一种声纹确定方法及装置。背景技术[0002]声纹是用电声学仪器显示的携带言语信息的声波频谱。不同人的声纹都具有差异性,因此,可以通过声纹区别不同人的声音或判断两个声纹对应的是否为同一人的声音。[0003]声纹识别包括两部分内容,即说话人辨认和说话人确认。前者用以判断某段语音是若干人中的哪一个所说的,是“多选一”问题;而后者用以确认某段语音是否是指定的某个人所说的,是“一对一判别”问题。不同的任务和应用会使用不同的声纹识别技术,如缩小刑侦范围时可能需要辨认技术,而银行交易时则需要确认技术。[0004]不管是辨认还是确认,都需要先对说话人的声纹进行建模,即获取声纹的过程。现有技术中已有的声纹建模过程,都存在一定的问题,例如不能很好地学习同一个说话人不同语音之间的类内信息、训练过程过拟合,即泛化能力差的问题。发明内容[0005]有鉴于此,本申请提出了一种声纹确定方法及装置,以克服现有技术中由于类内信息学习能力差和泛化能力差而导致的声纹建模准确性差