预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共18页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115831105A(43)申请公布日2023.03.21(21)申请号202211375977.2G06F18/25(2023.01)(22)申请日2022.11.04G06N3/0455(2023.01)G06N3/0464(2023.01)(71)申请人中山大学G06N3/084(2023.01)地址510000广东省广州市新港西路135号申请人广州智慧城市发展研究院(72)发明人胡建国唐佳浩卢星宇丁颜玉段志奎秦军瑞(74)专利代理机构广州专理知识产权代理事务所(普通合伙)44493专利代理师张凤(51)Int.Cl.G10L15/16(2006.01)G10L15/02(2006.01)G10L15/06(2013.01)G10L15/18(2013.01)权利要求书3页说明书10页附图4页(54)发明名称基于改进Transformer模型的语音识别方法及装置(57)摘要本发明涉及基于改进Transformer模型的语音识别方法,通过改进的Transformer模型进行语音识别,改进的方式为特征融合的方式为利用拼接函数和卷积神经网络融合解码器的高低层特征,并提取局部特征信息,将卷积神经网络提取的局部细节特征与Transformer的全局特征相融合,使得模型提取的特征更具有健壮性。同时为解码器的每一层构建一条短距离的反向传播路径,缓解模型底层的梯度消失问题;以及位置编码增强,将Transformer模型的语音特征嵌入向量和位置编码进行拆解,可以解决因为两者间的弱关联而引起噪声的问题,之后在Transformer模型每个编码器层的自注意力子层中都加入位置编码信息,解决因网络多次叠加而造成位置编码信息减弱的问题。CN115831105ACN115831105A权利要求书1/3页1.基于改进Transformer模型的语音识别方法,其特征在于,包括以下:获取待识别的语音数据;对所述语音数据进行预处理得到预处理后的语音数据;通过改进的Transformer模型对所述语音数据进行语音识别得到语音识别结果;输出所述语音识别结果;改进的Transformer模型与传统的Transformer模型的不同之处在于,特征融合的方式为利用拼接函数和卷积神经网络融合解码器的高低层特征,并提取局部特征信息,将卷积神经网络提取的局部细节特征与Transformer的全局特征相融合;以及位置编码增强,将Transformer模型的语音特征嵌入向量和位置编码进行拆解,之后在Transformer模型每个编码器层的自注意力子层中都加入位置编码信息。2.根据权利要求1所述的基于改进Transformer模型的语音识别方法,其特征在于,具体的,利用拼接函数和卷积神经网络融合解码器的高低层特征,并提取局部特征信息,将卷积神经网络提取的局部细节特征与Transformer的全局特征相融合,包括,首先将除最高层外的所有层特征拼接起来以便更好地融合,然后使用卷积神经网络来压缩提取拼接后的特征,以保证融合特征后的输出与每个解码层的特征有相同的维度,其公式表现形式如下,b×d·th其中,SFF为算法定义名称,Li∈R是解码器中i的输出,b表示批量(batchsize)大小,d表示单个嵌入量,Concat(·)是拼接操作,Concat(·)∈R^((N‑1)×b×d),也就是说,拼接操作在第一维度上拼接了输入矩阵,ξ是一个压缩函数,SFF算法使用卷积神经网络实现压缩,它使得SFF重新回到Rb×d,由于来自每个解码器的特征都是Rb×d的维度,如果维度不相同,提取后的融合特征将不能叠加在原来的解码器顶层,如此一来,最顶层的输出特征LN(x)和便可以与SFF提取的特征进行叠加运算。3.根据权利要求1所述的基于改进Transformer模型的语音识别方法,其特征在于,具体的,将Transformer模型的语音特征嵌入向量和位置编码进行拆解,之后在Transformer模型每个编码器层的自注意力子层中都加入位置编码信息,包括,编码器只使用语音嵌入向量作为输入,之后,将位置编码添加进编码器的每一个自注意力层中,在编码器的自注意力层中,分别进行语音嵌入向量和位置编码的关联性Q×K计算,在计算的过程中,位置编码使用自己独立的自注意力矩阵,语音嵌入向量与位置编码分别进行关联性计算后融合在一起,共同产生注意力分布,Transformer的编码器自注意力层计算公式如下,其中,Q=xWQ,K=xWK,V=xWV,x是自注意力层的输入,p是位置编码,WQ、WK、WV与经典Transformer模型一致,分别为查询query、键key、值value的映射矩阵,和是位置编码增强在子注意力层增加的两个映射矩阵,分别为位置编码独立的2CN11