基于人工智能的语音识别方法、装置及存储介质-豆柴文库

基于人工智能的语音识别方法、装置及存储介质.pdf

2023-07-25

10金币

1.3MB

23页

阳炎****找我

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共23页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113870846A(43)申请公布日2021.12.31(21)申请号202111135001.3(22)申请日2021.09.27(71)申请人平安科技（深圳）有限公司地址518033广东省深圳市福田区福田街道福安社区益田路5033号平安金融中心23楼(72)发明人罗剑王健宗(74)专利代理机构北京鸿元知识产权代理有限公司11327代理人王迎袁文婷(51)Int.Cl.G10L15/06(2013.01)G10L15/32(2013.01)权利要求书3页说明书16页附图3页(54)发明名称基于人工智能的语音识别方法、装置及存储介质(57)摘要本发明涉及人工智能，揭露一种基于人工智能的语音识别方法，包括：将获取的训练数据输入预设联合识别模型的语音识别模块中，获取所述语音识别模块的输出数据以及第一目标任务损失；将所述输出数据输入所述联合识别模型的损失预测模块中，以获取所述损失预测模块的第二目标任务损失；基于所述第一目标任务损失和所述第二目标任务损失，获取所述联合识别模型的总任务损失；基于所述训练数据对所述联合识别模型进行迭代训练，直至所述总任务损失收敛在预设范围内，形成联合识别模型；基于所述联合识别模型中的语音识别模块对待检测语音信号进行识别，并获取对应的识别结果。本发明可以提高语音识别的精度和效率。CN113870846ACN113870846A权利要求书1/3页1.一种基于人工智能的语音识别方法，其特征在于，所述方法包括：将获取的训练数据输入预设联合识别模型的语音识别模块中，获取所述语音识别模块的输出数据以及第一目标任务损失；将所述输出数据输入所述联合识别模型的损失预测模块中，以获取所述损失预测模块的第二目标任务损失；基于所述第一目标任务损失和所述第二目标任务损失，获取所述联合识别模型的总任务损失；基于所述训练数据对所述联合识别模型进行迭代训练，直至所述总任务损失收敛在预设范围内，形成联合识别模型；基于所述联合识别模型中的语音识别模块对待检测语音信号进行识别，并获取对应的识别结果。2.如权利要求1所述的基于人工智能的语音识别方法，其特征在于，所述获取所述语音识别模块的输出数据以及第一目标任务损失的步骤包括：基于所述语音识别模块中的编码器网络对所述训练数据进行编码处理，以获取与所述训练数据对应的隐藏特征，作为编码器输出；基于所述编码器输出，通过所述语音识别模块中的解码器网络输出与所述编码器输出相对应的文本标签序列，作为解码器输出；获取所述隐藏特征下的所述训练数据的真实文本序列的负对数似然，作为所述语音识别模块的CTC损失，并基于所述文本标签序列和所述真实文本序列的交叉熵损失，确定所述语音识别模块的注意力损失；基于所述CTC损失和所述注意力损失，确定所述语音识别模块的第一目标任务损失。3.如权利要求2所述的基于人工智能的语音识别方法，其特征在于，所述语音识别模块的CTC损失的表达公式如下：其中，y表示所述真实文本序列，h表示所述隐藏特征，t表示第t个隐藏特征，P(y|ht)表示所述真实文本序列在第t个隐藏特征处的概率；所述注意力损失的表达公式如下：其中，y表示所述真实文本序列，g＝(g1,g2,...,gS)表示所述解码器网络输出的隐藏特征，s表示所述真实文本序列的长度，表示所述真实文本序列中的目标标签ys在所述解码器网络输出的步骤S处出现的频率，表示在步骤s‑1中预测出的文本序列中的字符；所述第一目标任务损失的表达公式如下：2CN113870846A权利要求书2/3页其中，表示所述语音识别模块的CTC损失，表示所述注意力损失，λ表示缩放因子，0≤λ≤1。4.如权利要求1所述的基于人工智能的语音识别方法，其特征在于，所述获取所述损失预测模块的第二目标任务损失的步骤包括：将所述输出数据的编码器输出输入所述损失预测模块的CTC损失预测模块中，获取与所述训练数据对应的CTC预测损失；将所述输出数据的解码器输出输入所述损失预测模块的注意力损失预测模块中，获取与所述训练数据对应的注意力预测损失；基于所述CTC预测损失和所述注意力预测损失，确定所述损失预测模块的第二目标任务损失。5.如权利要求4所述的基于人工智能的语音识别方法，其特征在于，所述基于所述CTC预测损失和所述注意力预测损失，确定所述损失预测模块的第二目标任务损失的步骤包括：基于所述CTC预测损失获取与所述CTC预测损失相对应的第一误差损失函数；基于所述注意力预测损失获取与所述注意力预测损失相对应的第二误差损失函数；基于所述第一误差损失函数和所述第二误差损失函数，确定所述损失预测模块的第二目标任务损失。6.如权利要求5所述的基于人工智能的语音识别方法，其特征在于，所述第一误差损失函数的表达公式如下：所

相关资料

基于人工智能的语音识别方法、装置及存储介质.pdf

本发明涉及人工智能，揭露一种基于人工智能的语音识别方法，包括：将获取的训练数据输入预设联合识别模型的语音识别模块中，获取所述语音识别模块的输出数据以及第一目标任务损失；将所述输出数据输入所述联合识别模型的损失预测模块中，以获取所述损失预测模块的第二目标任务损失；基于所述第一目标任务损失和所述第二目标任务损失，获取所述联合识别模型的总任务损失；基于所述训练数据对所述联合识别模型进行迭代训练，直至所述总任务损失收敛在预设范围内，形成联合识别模型；基于所述联合识别模型中的语音识别模块对待检测语音信号进行识别，并

2023-07-25

1.3MB

基于视线的语音识别方法、装置、设备及存储介质.pdf

本发明涉及车辆控制技术领域，其公开了基于视线的语音识别方法、装置、设备及存储介质，通过获取语音监听时间内采集的驾驶员语音信息；根据所述驾驶员语音信息确定对应的初始语义是否完整；在所述初始语义不完整时，确定所述初始语义属于语义缺失或语义冗余；在所述初始语义属于语义缺失或语义冗余时，获取视线转移状态；根据所述视线转移状态确定目标识别语义，并基于所述目标识别语义进行车辆控制，从而将驾驶员的视线结合驾驶员的语音进行意图识别，提高驾驶员意图识别的准确性。

2023-07-21

781KB

语音识别方法、装置及存储介质.pdf

本公开是关于一种语音识别方法、装置及存储介质，属于机器学习技术领域。方法包括：获取待识别的音频帧；分别提取音频帧的梅尔标度滤波器组特征和发声用户信息矢量；对梅尔标度滤波器组特征和发声用户信息矢量进行融合处理，得到融合特征；基于目标声学模型对融合特征进行处理，得到音频帧的语音识别结果，目标声学模型包括多个空洞卷积层。本公开会同时提取音频帧的梅尔标度滤波器组特征和发声用户信息矢量，之后，将二者进行特征融合并将融合后的特征输入声学模型，由于融合后的特征能够对说话人特征和信道特征进行有效表达，提高了语音识别的准确

2023-06-25

785KB

语音识别方法、装置和存储介质.pdf

本发明实施例公开了一种语音识别方法、装置和存储介质；本实施例在获取到音频数据后，可以通过DSP对该音频数据进行模糊语音识别，当确定存在唤醒词时，才由该DSP唤醒处于休眠状态的CPU，并通过CPU对该音频数据进行语义分析，然后，根据分析结果执行相应操作；该方案可以在保留移动性和语音唤醒功能的前提下，大大减少系统功耗，从而延长移动终端的待机时间，改善移动终端的性能。

2023-11-19

808KB

语音识别方法、装置和存储介质.pdf

本公开提出一种语音识别方法、装置和存储介质，涉及语音识别技术领域。本公开的一种语音识别方法，包括：根据当前语句的语音信号获取候选lattice；根据当前语句对应的上文文本重置神经网络模型，其中，上文文本为当前语句的前一句或多句的识别文本；通过重置后的神经网络模型对候选lattice重打分，获取重打分lattice；根据重打分lattice确定当前语句的识别文本。通过这样的方法，对当前语句的语音识别能够考虑到上文一句或多句的信息，从而更加充分的利用先验信息，使重打分更加准确，提高语音识别的准确率。

2023-06-14

529KB