预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共18页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115083423A(43)申请公布日2022.09.20(21)申请号202210861979.6G10L17/18(2013.01)(22)申请日2022.07.21G06K9/62(2022.01)G06N3/04(2006.01)(71)申请人中国科学院自动化研究所G06N3/08(2006.01)地址100190北京市海淀区中关村东路95号申请人国家计算机网络与信息安全管理中心(72)发明人陶建华许乐易江燕张震李鹏石瑾刘睿霖(74)专利代理机构北京华夏泰和知识产权代理有限公司11662专利代理师李永叶(51)Int.Cl.G10L17/04(2013.01)G10L17/02(2013.01)权利要求书2页说明书10页附图5页(54)发明名称语音鉴别的数据处理方法和装置(57)摘要本公开涉及一种语音鉴别的数据处理方法和装置,涉及语音识别技术、人工智能和计算机技术领域,上述数据处理方法包括:获取待鉴别音频;对上述待鉴别音频进行特征提取,得到初始声学特征;对上述初始声学特征进行量化处理,得到量化声学特征;将上述量化声学特征输入至目标语音鉴别模型中进行处理,输出得到上述待鉴别音频的真伪结果,上述目标语音鉴别模型为参数预训练好且经过量化后的语音鉴别模型。在确保语音真伪鉴别准确率的基础上能够提升语音真伪鉴别的鉴别速度,提升数据处理的效率。CN115083423ACN115083423A权利要求书1/2页1.一种语音鉴别的数据处理方法,其特征在于,包括:获取待鉴别音频;对所述待鉴别音频进行特征提取,得到初始声学特征;对所述初始声学特征进行量化处理,得到量化声学特征;将所述量化声学特征输入至目标语音鉴别模型中进行处理,输出得到所述待鉴别音频的真伪结果,所述目标语音鉴别模型为参数预训练好且经过量化后的语音鉴别模型。2.根据权利要求1所述的数据处理方法,其特征在于,对所述初始声学特征进行量化处理,得到量化声学特征,包括:统计所述初始声学特征的特征值分布情况,得到特征值分布结果;根据所述特征值分布结果中的分布密集程度,将所述初始声学特征的特征值划分至多个数值区间;其中,分布越稀疏对应划分的区间个数越少且区间范围越大,分布越密集对应划分的区间个数越多且区间范围越小;针对所述初始声学特征划分至所述多个数值区间内的各个特征值,分别进行量化处理,得到量化声学特征。3.根据权利要求2所述的数据处理方法,其特征在于,在对特征值进行量化处理时,根据所述待鉴别音频的音频类型对应的预设量化步长范围,确定各个数值区间所对应的量化步长,其中,区间范围越大的区间所对应的量化步长大于或等于区间范围越小的区间所对应的量化步长。4.根据权利要求1所述的数据处理方法,其特征在于,所述目标语音鉴别模型通过以下方式得到:获取参数预训练好的语音鉴别模型;对所述参数预训练好的语音鉴别模型的模型参数进行量化处理;获取训练音频样本的训练量化声学特征;将所述训练量化声学特征输入至量化处理后的语音鉴别模型,根据输出结果来对量化处理后的模型参数进行微调,得到所述目标语音鉴别模型。5.根据权利要求4所述的数据处理方法,其特征在于,所述获取参数预训练好的语音鉴别模型,包括:获取训练音频库中的训练音频样本;对所述训练音频样本进行特征提取,得到训练声学特征;将所述训练声学特征输入至参数待训练的神经网络模型中,将所述训练音频样本为真实音频或伪造音频的真实结果作为训练标签,对所述神经网络模型进行预训练,得到参数预训练好的语音鉴别模型;所述获取训练音频样本的训练量化声学特征,包括:对所述训练音频样本的训练声学特征进行量化处理,得到训练量化声学特征。6.根据权利要求5所述的数据处理方法,其特征在于,对所述训练音频样本的训练声学特征进行量化处理,得到训练量化声学特征,包括:统计所述训练声学特征的特征值分布情况,得到训练特征值分布结果;根据所述训练特征值分布结果中的分布密集程度,将所述训练声学特征的特征值划分为多个数值区间,分布越稀疏对应划分的区间个数越少且区间范围越大,分布越密集对应2CN115083423A权利要求书2/2页划分的区间个数越多且区间范围越小;针对所述训练声学特征划分至所述多个数值区间内的各个特征值,分别进行量化处理,得到训练量化声学特征。7.根据权利要求1所述的数据处理方法,其特征在于,还包括:将所述待鉴别音频的量化声学特征以整形类型的数据存储至数据队列中;从所述数据队列中获取一个或多个目标待鉴别音频的量化声学特征;其中,将所述量化声学特征输入至目标语音鉴别模型中进行处理,包括:将从所述数据队列中获取到的所述目标待鉴别音频的量化声学特征输入至目标语音鉴别模型中进行处理。8.根据权利要求1所述的数据处理方法,其特征在于,对所