预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113823311A(43)申请公布日2021.12.21(21)申请号202110955519.5(22)申请日2021.08.19(71)申请人安徽创变信息科技有限公司地址230041安徽省合肥市包河区滨湖区庐州大道与紫云路交叉口滨湖世纪城-观湖苑1幢1104室(72)发明人戴李(74)专利代理机构合肥维可专利代理事务所(普通合伙)34135代理人吴明华(51)Int.Cl.G10L21/0216(2013.01)G10L21/0224(2013.01)G10L15/16(2006.01)权利要求书2页说明书6页附图1页(54)发明名称基于音频增强的语音识别方法及装置(57)摘要本发明公开了一种基于音频增强的语音识别方法及装置,包括将麦克风阵列拾取的多通道声源声音数据经过第一滤波函数计算获得第一数据,将第一数据经过第二滤波函数计算获得第二数据,将第二数据通过波束形成算法处理得到单通道音频信号;将单通道音频信号经过基于第一环境噪声降噪算法进行处理获得第三数据;将第三数据通过语音识别模型进行识别。本发明将麦克风阵列拾取的多通道语音数据先消除由于声源声音遇到不同障碍物反射和吸收造成的不同延时的多路反射混合语音数据,然后去除第二数据中的非目标声源声音数据,最后去除环境噪声,实现对声源声音数据的增强处理,提高语音识别的准确性。CN113823311ACN113823311A权利要求书1/2页1.一种基于音频增强的语音识别方法,其特征在于,包括:将麦克风阵列拾取的多通道声源声音数据经过第一滤波函数计算获得第一数据,该第一滤波函数具有能够满足输出信号与第一期望信号的均方误差最小的滤波参数;将第一数据经过第二滤波函数计算以消除第一数据中声源声音到达延迟大于第一预设阈值的多路反射混合数据,获得第二数据,该第二滤波函数具有能够使输出信号的第二期望信号的时域相关性最小的滤波参数;将第二数据通过波束形成算法处理得到单通道音频信号;将单通道音频信号经过基于第一环境噪声降噪算法进行处理以去除其中的环境噪声,获得第三数据;将第三数据通过语音识别模型进行识别。2.根据权利要求1所述的一种基于音频增强的语音识别方法,其特征在于,所述第一环境噪声降噪算法,包括:将单通道音频信号输入第一深度学习网络模型获得单通道音频信号中环境噪声的音频特征;基于单通道音频信号和所述音频特征获得单通道音频信号中干净语音数据。3.根据权利要求1所述的一种基于音频增强的语音识别方法,其特征在于,所述第一深度学习网络模型包括多个LSTM网络模型,第1到n个LSTM网络模型的第a层输出共同连接到第n个LSTM网络模型的第a+1层的输入。4.根据权利要求1所述的一种基于音频增强的语音识别方法,其特征在于,所述第二滤波函数的获取方法包括:基于当前时刻前的所有时刻的第一数据中声源声音到达延迟大于第一预设阈值的多路反射混合数据进行线性组合获取当前时刻的第一数据中声源声音到达延迟大于第一预设阈值的多路反射混合数据的估计值;采用加权最小二乘算法获取该线性组合的系数矩阵以使估计值满足输出信号的第二期望信号的时域相关性最小,即:其中,为第二期望信号的估计值,加权最小二乘算法的权重估计值为:为第二期望信号的功率谱密度估计值,M为麦克风阵列中麦克风的个数,ε是一个常数;线性组合的系数矩阵的估计值为:其中为第一数据中声源声音到2CN113823311A权利要求书2/2页达延迟大于第一预设阈值的多路反射混合数据的自相关矩阵的逆矩阵。5.根据权利要求4所述的一种基于音频增强的语音识别方法,其特征在于,所述第二期望信号的功率谱密度估计值采用基于第二深度学习网络的功率谱密度估计模型获取,该第二深度学习网络在训练时以第一数据的功率谱密度为输入,学习第一数据的功率谱密度到第二期望信号功率谱密度的映射关系以输出第二期望信号功率谱密度的估计值。6.根据权利要求5所述的一种基于音频增强的语音识别方法,其特征在于,所述第二深度学习网络采用LSTM网络,所述LSTM网络的每个cell的输出数据经过投影处理输入到下一cell的输入。7.一种基于音频增强的语音识别装置,其特征在于,包括:第一数据生成模块,用于将麦克风阵列拾取的多通道声源声音数据经过第一滤波函数计算获得第一数据,该第一滤波函数具有能够满足输出信号与第一期望信号的均方误差最小的滤波参数;第二数据生成模块,用于将第一数据经过第二滤波函数计算以消除第一数据中声源声音到达延迟大于第一预设阈值的多路反射混合数据,获得第二数据,该第二滤波函数具有能够使输出信号的第二期望信号的时域相关性最小的滤波参数;单通道音频信号生成模块,用于将第二数据通过波束形成算法处理得到单通道音频信号;第三数据生成模块,用于将单