一种基于对比学习的端到端音障语音识别方法-豆柴文库

一种基于对比学习的端到端音障语音识别方法.pdf

2023-11-07

10金币

949KB

16页

大渊****公主

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共16页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113450777A(43)申请公布日2021.09.28(21)申请号202110588547.8(22)申请日2021.05.28(71)申请人华东师范大学地址200241上海市闵行区东川路500号(72)发明人孙仕亮吴丽丹赵静张楠(74)专利代理机构上海蓝迪专利商标事务所(普通合伙)31215代理人徐筱梅张翔(51)Int.Cl.G10L15/06(2013.01)G10L15/02(2006.01)G10L15/16(2006.01)G10L15/20(2006.01)G10L15/22(2006.01)权利要求书2页说明书11页附图2页(54)发明名称一种基于对比学习的端到端音障语音识别方法(57)摘要本发明公开了一种基于对比学习的端到端音障语音识别方法，该方法具备语音识别能力前需要使用大量正常发音数据预训练得到一个基本模型，再迁移到音障语音识别的任务中。在训练完成后，本方法就有了音障语音识别的能力。本发明首先对音障语音数据进行频谱图上的数据增强，再通过Transformer模型中的编码器提取隐层信息，然后该隐层信息经过投影模块被提取出低维的隐表示。最后本方法在隐表示所在的低维隐空间上进行对比损失的计算。在解码过程中，解码器直接使用隐层信息进行解码。本发明的创新点在于将对比学习与Transformer模型中的编码器引入到音障语音识别的领域，并通过投影模块得到的隐表示在隐空间上加速计算，同时在投影模块前保留足够多的信息供解码器使用。CN113450777ACN113450777A权利要求书1/2页1.一种基于对比学习的端到端音障语音识别方法，其特征在于，该方法包括如下步骤：步骤一：基于大规模正常发音的语音数据集预训练出基本的语音识别模型所述语音识别模型为Transformer模型中的端对端神经网络，包括编码器和解码器两部分，预训练后可得到网络的初始参数；步骤二：对开源的音障语音数据进行信号处理得到频谱图，在频谱图上进行数据增强操作，生成多视图数据；步骤三：多视图数据通过共享参数的Transformer模型中的编码器作为非线性神经网络提取隐层信息；步骤四：隐层信息经过投影模块对隐层信息进一步提取得到低维空间中的隐表示；步骤五：计算不同视图数据的隐表示之间的对比损失，并将其作为模型训练时的优化目标；步骤六：在解码过程中直接使用隐层信息解码进行音障语音识别。2.如权利要求1所述的基于对比学习的端到端音障语音识别方法，其特征在于，步骤二所述的数据增强操作是指：对于音频经过信号处理得到的频谱图，进行时域扭曲、频域掩蔽或时域掩蔽变换；详细步骤包括：步骤a1：对不同频域的信号进行预加重操作，补充高频部分的能量，使得信号在不同频段的能量均匀，进而在求频谱图时使用相同的信噪比；步骤a2：对语音信号进行分帧、加窗操作，将原来由于波形特性变化而没有规律的非平稳信号转化为多个帧，在分帧后的每个小片段被认为是平稳信号；步骤a3：对每个小片段进行快速傅立叶变换，将时域信号转到频域，获得线性谱；傅里叶变换以及傅立叶逆变换符合下列式子：其中，t、w分别是时间和频率，f(t)、F(w)分别是信号的时域和频域的表示；F(w)是f(t)的象函数，F(w)到f(t)的过程实际上是将频率域的函数表示为时间域函数的积分；f(t)是F(w)的象原函数，其过程正好相反；象函数和象原函数构成一个傅立叶变换对，当T→∞时，Ω＝2π/T→dw，nΩ→w；步骤a4：通过一组模拟人耳听觉特性的梅尔滤波器，将线性谱转化为梅尔频谱图，获得准确的频谱特征；步骤a5：在梅尔频谱图上进行数据增强操作，包括时域扭曲、频域掩蔽或时域掩蔽变换；原始数据x经由变换得到了两个视图下的数据xi与xj，符合下列式子：(x)xi＝a(x)，xj＝a′，(2)其中a与a′为变换族中的两种变换，即且3.如权利要求1所述的基于对比学习的端到端音障语音识别方法，其特征在于，步骤三所述的Transformer模型中的编码器f运用了Attention机制，提取出两个视图间共有的信息；经过编码器得到隐层信息hi＝f(xi)以及hj＝f(xj)。2CN113450777A权利要求书2/2页4.如权利要求1所述的基于对比学习的端到端音障语音识别方法，其特征在于，步骤四所述的投影模块是一种保留隐层表示的信息、加速损失函数的计算而增设的非线性网络g，采用注意力时序金字塔网络实现投影模块的功能，将隐层信息映射到隐表示，zl＝g(hl)，详细步骤包括：步骤b1：将长度为T的D维向量划分为N个子集，其中每个子集内含有n个分块，n＝1，2，4，其中每个分块是长度为T/n的特征向量；步骤b2：将子集输入到N×M的注意力权重矩阵当中，获得每个分块的权重，其中

相关资料

一种基于对比学习的端到端音障语音识别方法.pdf

本发明公开了一种基于对比学习的端到端音障语音识别方法，该方法具备语音识别能力前需要使用大量正常发音数据预训练得到一个基本模型，再迁移到音障语音识别的任务中。在训练完成后，本方法就有了音障语音识别的能力。本发明首先对音障语音数据进行频谱图上的数据增强，再通过Transformer模型中的编码器提取隐层信息，然后该隐层信息经过投影模块被提取出低维的隐表示。最后本方法在隐表示所在的低维隐空间上进行对比损失的计算。在解码过程中，解码器直接使用隐层信息进行解码。本发明的创新点在于将对比学习与Transformer模

2023-11-07

949KB

一种基于深度学习的端到端车牌识别方法.pdf

本发明提出一种基于深度学习的端到端车牌识别方法，经过高斯混合模型算法处理后输出待检测车牌的图像；卷积神经网络提取共享特征模块，将待检测车牌的图像输入已经训练过卷积神经网络算法提取特征，再经过车牌图像初步检测模块处理后输出回归位置信息、回归角度特征映射图以及对应的判别是否车牌的特征映射图；车牌初步检测模块通过对应的判别是否车牌的特征映射图分析获得置信度得分，得到一批候选车牌图像，利用非极大值抑制算法进行车牌图像融合，最后获取真实的车牌位置的图像；将真实的车牌位置的图像输入到车牌内容识别反馈模块识别出车牌内容

2024-01-10

442KB

基于端对端transformer模型的语音识别方法.pdf

本发明公开了基于端对端transformer模型的语音识别方法，该方法包括：对原始语音信息进行预处理，得到音频序列信息；结合噪声修剪技术，构建transformer语音识别网络模型；基于transformer语音识别网络模型对音频序列信息进行识别处理，得到语音识别结果。通过使用本发明，能够通过获取语音数据的全局～局部信息和高层～低层特征信息进而提高模型的语音识别准确度。本发明作为基于端对端transformer模型的语音识别方法，可广泛应用于深度学习语音识别技术领域。

2023-06-07

689KB

基于深度学习的端到端乐谱音符识别方法.pdf

本发明公开了基于深度学习的端到端乐谱音符识别方法，该方法一共分为三步：(1)数据预处理：需要从MuseScore中下载对应的数据集，重新编码音高和时值标签。(2)数据增强：对重新编码后的乐谱数据进行数据增强，本发明提出了4种不同的增强方法。(3)端到端模型：应用于端到端乐谱音符识别的深度卷积神经网络模型，将增强后的数据输入的模型，模型的输出为音符时值和音高。本发明在于针对打印体乐谱提出一个基于深度学习的乐谱音符识别模型，即输入整张乐谱图像到该模型，直接输出乐谱上音符的时值和音高，该模型完全端到端，能够精准

2023-12-04

672KB

端到端语音识别模型处理方法、语音识别方法及相关装置.pdf

本发明提供的端到端语音识别模型处理方法、语音识别方法及相关装置，方法包括：获取预设词表和文本语料集；其中，所述预设词表用于维护任意一种直播领域中的热词、所述热词对应的发音路径和建模单元；根据所述文本语料集，训练初始的语言模型的模型参数，得到所述直播领域对应的目标语言模型；根据所述热词的发音路径和建模单元，更新所述目标语言模型，并确定更新后的目标语言模型中所述热词的权重；根据更新后的所述目标语言模型，生成端到端语音识别模型。由于在生成的目标语音识别模型中包含了直播领域中的热词的权重，因而使得模型能够实在语音

2023-07-24

832KB