预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共16页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113450777A(43)申请公布日2021.09.28(21)申请号202110588547.8(22)申请日2021.05.28(71)申请人华东师范大学地址200241上海市闵行区东川路500号(72)发明人孙仕亮吴丽丹赵静张楠(74)专利代理机构上海蓝迪专利商标事务所(普通合伙)31215代理人徐筱梅张翔(51)Int.Cl.G10L15/06(2013.01)G10L15/02(2006.01)G10L15/16(2006.01)G10L15/20(2006.01)G10L15/22(2006.01)权利要求书2页说明书11页附图2页(54)发明名称一种基于对比学习的端到端音障语音识别方法(57)摘要本发明公开了一种基于对比学习的端到端音障语音识别方法,该方法具备语音识别能力前需要使用大量正常发音数据预训练得到一个基本模型,再迁移到音障语音识别的任务中。在训练完成后,本方法就有了音障语音识别的能力。本发明首先对音障语音数据进行频谱图上的数据增强,再通过Transformer模型中的编码器提取隐层信息,然后该隐层信息经过投影模块被提取出低维的隐表示。最后本方法在隐表示所在的低维隐空间上进行对比损失的计算。在解码过程中,解码器直接使用隐层信息进行解码。本发明的创新点在于将对比学习与Transformer模型中的编码器引入到音障语音识别的领域,并通过投影模块得到的隐表示在隐空间上加速计算,同时在投影模块前保留足够多的信息供解码器使用。CN113450777ACN113450777A权利要求书1/2页1.一种基于对比学习的端到端音障语音识别方法,其特征在于,该方法包括如下步骤:步骤一:基于大规模正常发音的语音数据集预训练出基本的语音识别模型所述语音识别模型为Transformer模型中的端对端神经网络,包括编码器和解码器两部分,预训练后可得到网络的初始参数;步骤二:对开源的音障语音数据进行信号处理得到频谱图,在频谱图上进行数据增强操作,生成多视图数据;步骤三:多视图数据通过共享参数的Transformer模型中的编码器作为非线性神经网络提取隐层信息;步骤四:隐层信息经过投影模块对隐层信息进一步提取得到低维空间中的隐表示;步骤五:计算不同视图数据的隐表示之间的对比损失,并将其作为模型训练时的优化目标;步骤六:在解码过程中直接使用隐层信息解码进行音障语音识别。2.如权利要求1所述的基于对比学习的端到端音障语音识别方法,其特征在于,步骤二所述的数据增强操作是指:对于音频经过信号处理得到的频谱图,进行时域扭曲、频域掩蔽或时域掩蔽变换;详细步骤包括:步骤a1:对不同频域的信号进行预加重操作,补充高频部分的能量,使得信号在不同频段的能量均匀,进而在求频谱图时使用相同的信噪比;步骤a2:对语音信号进行分帧、加窗操作,将原来由于波形特性变化而没有规律的非平稳信号转化为多个帧,在分帧后的每个小片段被认为是平稳信号;步骤a3:对每个小片段进行快速傅立叶变换,将时域信号转到频域,获得线性谱;傅里叶变换以及傅立叶逆变换符合下列式子:其中,t、w分别是时间和频率,f(t)、F(w)分别是信号的时域和频域的表示;F(w)是f(t)的象函数,F(w)到f(t)的过程实际上是将频率域的函数表示为时间域函数的积分;f(t)是F(w)的象原函数,其过程正好相反;象函数和象原函数构成一个傅立叶变换对,当T→∞时,Ω=2π/T→dw,nΩ→w;步骤a4:通过一组模拟人耳听觉特性的梅尔滤波器,将线性谱转化为梅尔频谱图,获得准确的频谱特征;步骤a5:在梅尔频谱图上进行数据增强操作,包括时域扭曲、频域掩蔽或时域掩蔽变换;原始数据x经由变换得到了两个视图下的数据xi与xj,符合下列式子:(x)xi=a(x),xj=a′,(2)其中a与a′为变换族中的两种变换,即且3.如权利要求1所述的基于对比学习的端到端音障语音识别方法,其特征在于,步骤三所述的Transformer模型中的编码器f运用了Attention机制,提取出两个视图间共有的信息;经过编码器得到隐层信息hi=f(xi)以及hj=f(xj)。2CN113450777A权利要求书2/2页4.如权利要求1所述的基于对比学习的端到端音障语音识别方法,其特征在于,步骤四所述的投影模块是一种保留隐层表示的信息、加速损失函数的计算而增设的非线性网络g,采用注意力时序金字塔网络实现投影模块的功能,将隐层信息映射到隐表示,zl=g(hl),详细步骤包括:步骤b1:将长度为T的D维向量划分为N个子集,其中每个子集内含有n个分块,n=1,2,4,其中每个分块是长度为T/n的特征向量;步骤b2:将子集输入到N×M的注意力权重矩阵当中,获得每个分块的权重,其中