预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共19页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113744719A(43)申请公布日2021.12.03(21)申请号202111032297.6(22)申请日2021.09.03(71)申请人清华大学地址100084北京市海淀区清华园(72)发明人史慧宇尹首一韩慧明刘雷波魏少军(74)专利代理机构北京三友知识产权代理有限公司11127代理人谢层层徐焕(51)Int.Cl.G10L15/02(2006.01)G10L15/06(2013.01)G10L21/0272(2013.01)权利要求书3页说明书11页附图4页(54)发明名称一种语音提取方法、装置及设备(57)摘要本说明书实施例提供一种语音提取方法、装置及设备。所述方法包括:获取混合语音样本数据;所述混合语音样本数据中包括噪声信号、干扰语音信号、混响信号中的至少一种和目标语音信号;利用所述混合语音样本数据训练预设语音分离模型,得到预训练语音分离模型;基于所述预训练语音分离模型构建策略网络和评估网络;所述策略网络和评估网络对应有网络参数;基于所述网络参数确定目标量化策略;利用目标量化策略更新所述预训练语音分离模型得到语音提取模型;利用所述语音提取模型从待处理语音数据中提取目标对象语音信号。上述方法减小了语音提取模型的规模,进而快速有效地对单通道语音中的目标对象的语音实现了分离。CN113744719ACN113744719A权利要求书1/3页1.一种语音提取方法,其特征在于,包括:获取混合语音样本数据;所述混合语音样本数据为单通道语音信号;所述混合语音样本数据中包括噪声信号、干扰语音信号、混响信号中的至少一种和目标语音信号;利用所述混合语音样本数据训练预设语音分离模型,得到预训练语音分离模型;基于所述预训练语音分离模型构建策略网络和评估网络;所述策略网络和评估网络对应有网络参数;基于所述网络参数确定目标量化策略;所述目标量化策略用于确定对于预训练语音分离模型的优化方式;利用目标量化策略更新所述预训练语音分离模型得到语音提取模型;利用所述语音提取模型从待处理语音数据中提取目标对象语音信号;所述待处理语音数据包括单通道语音信号。2.如权利要求1所述的方法,其特征在于,所述混合语音样本数据通过以下方式获取:将至少两个人声语音信号在第一信噪比范围内混合得到人声混合语音信号;将所述人声混合语音信号与噪声信号在第二信噪比范围内混合得到综合语音信号;利用语音信号生成函数处理所述综合语音信号得到混合语音样本数据。3.如权利要求1所述的方法,其特征在于,所述混合语音样本数据包括训练样本数据、验证样本数据和测试样本数据;所述利用所述混合语音样本数据训练预设语音分离模型,得到预训练语音分离模型,包括:利用所述训练样本数据训练预设语音分离模型,得到预训练语音分离模型;所述利用所述语音提取模型从待处理语音数据中提取目标对象语音信号之前,还包括:利用所述语音提取模型提取测试样本数据中的测试目标语音信号;根据所述测试目标语音信号和验证样本数据的比对结果对所述语音提取模型进行优化;相应的,所述利用所述语音提取模型从待处理语音数据中提取目标对象语音信号,包括:利用优化后的语音提取模型从待处理语音数据中提取目标对象语音信号。4.如权利要求1所述的方法,其特征在于,所述利用所述混合语音样本数据训练预设语音分离模型,得到预训练语音分离模型,包括:对所述预设语音分离模型中的模型参数进行初始化以使神经网络进行前向传播;其中,包括:对所述预设语音分离模型中的神经元节点之间的权重和偏置进行初始化;所述初始语音提取模型中的网络神经元节点之间设置有激活函数;所述激活函数用于在神经网络前向传播的过程中,生成对应于所述网络神经元节点的输入和输出之间的非线性映射;基于所述混合语音样本数据,计算所述预设语音分离模型的损失函数;根据所述损失函数,利用梯度下降法更新所述模型参数。5.如权利要求4所述的方法,其特征在于,所述基于所述混合语音样本数据,计算所述预设语音分离模型的损失函数,包括:将所述混合语音样本数据输入预设语音分离模型得到预测目标语音;2CN113744719A权利要求书2/3页利用公式计算损失函数,式中,L为损失函数,其中,s为理想目标语音,为预测目标语音,6.如权利要求1所述的方法,其特征在于,所述基于所述预训练语音分离模型构建策略网络和评估网络,包括:基于所述预训练语音分离模型构建当前策略网络、目标策略网络、当前评估网络和目标评估网络;所述基于所述网络参数确定目标量化策略,包括:基于当前策略网络、目标策略网络、当前评估网络和目标评估网络中的网络参数构建第一状态;所述第一状态对应有第一特征向量;根据当前策略网络和初始状态构建第一动作;执行所述第一动作得到对应于预训练语音分离模型的第二状态