语音识别方法、装置、介质及电子设备-豆柴文库

语音识别方法、装置、介质及电子设备.pdf

2023-12-03

10金币

765KB

19页

猫巷****忠娟

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共19页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN111968647A(43)申请公布日2020.11.20(21)申请号202010873809.0(22)申请日2020.08.26(71)申请人北京字节跳动网络技术有限公司地址100041北京市石景山区实兴大街30号院3号楼2层B-0035房间(72)发明人殷翔(74)专利代理机构北京英创嘉友知识产权代理事务所(普通合伙)11447代理人贾会玲(51)Int.Cl.G10L15/26(2006.01)G10L15/06(2013.01)H04N21/4402(2011.01)权利要求书2页说明书12页附图4页(54)发明名称语音识别方法、装置、介质及电子设备(57)摘要本公开涉及一种语音识别方法、装置、介质及电子设备。方法包括：获取目标视频数据，所述目标视频数据包括目标音频数据和目标图像数据；提取所述目标音频数据对应的第一文本数据；提取所述目标图像数据的特征信息，并根据所述特征信息，生成用于描述所述目标图像数据的第二文本数据；根据所述第二文本数据，对所述第一文本数据进行修正，得到修正后的第一文本数据。由此，可以避免因目标视频数据中杂音或者背景音乐对语音识别准确度的影响，从而提升了目标音频数据对应的文本内容的准确度。CN111968647ACN111968647A权利要求书1/2页1.一种语音识别方法，其特征在于，包括：获取目标视频数据，所述目标视频数据包括目标音频数据和目标图像数据；提取所述目标音频数据对应的第一文本数据；提取所述目标图像数据的特征信息，并根据所述特征信息，生成用于描述所述目标图像数据的第二文本数据；根据所述第二文本数据，对所述第一文本数据进行修正，得到修正后的第一文本数据。2.根据权利要求1所述的方法，其特征在于，所述提取所述目标音频数据对应的第一文本数据，包括：将所述目标音频数据输入至语音识别模型中，以得到所述目标音频数据对应的第一文本数据；所述提取所述目标图像数据的特征信息，并根据所述特征信息，生成用于描述所述目标图像数据的第二文本数据，包括：将所述目标图像数据输入至描述信息生成模型中，以通过所述描述信息生成模型提取所述目标图像数据的特征信息，并根据所述特征信息，生成用于描述所述目标图像数据的第二文本数据；其中，所述语音识别模型的训练样本是通过语音合成模型生成的，所述描述信息生成模型的训练样本是通过图像生成模型生成的。3.根据权利要求2所述的方法，其特征在于，所述语音识别模型和所述描述信息生成模型通过如下方式训练得到：获取第一参考文本数据；通过将所述第一参考文本数据、所述语音识别模型的输出以及所述描述信息生成模型的输出作为所述语音合成模型的输入，将所述语音合成模型的输出作为所述语音识别模型的输入，将所述第一参考文本数据作为所述语音识别模型的目标输出，将所述第一参考文本数据、所述语音识别模型的输出以及所述描述信息生成模型的输出作为所述图像生成模型的输入，将所述图像生成模型的输出作为所述描述信息生成模型的输入，将所述第一参考文本数据作为所述描述信息生成模型的目标输出的方式进行模型训练，以得到所述语音识别模型和所述描述信息生成模型。4.根据权利要求2所述的方法，其特征在于，在进行模型训练之前，所述方法还包括：对所述语音识别模型和所述描述信息生成模型进行预训练。5.根据权利要求4所述的方法，其特征在于，所述对所述语音识别模型和所述描述信息生成模型进行预训练，包括：获取第二参考文本数据；通过将所述第二参考文本数据和所述语音识别模型的输出作为所述语音合成模型的输入，将所述语音合成模型的输出作为所述语音识别模型的输入，将所述第二参考文本数据作为所述语音识别模型的目标输出的方式对所述语音识别模型进行预训练；通过将所述第二参考文本数据、所述描述信息生成模型的输出以及预训练后所得的语音识别模型的输出作为所述图像生成模型的输入，将所述图像生成模型的输出作为所述描述信息生成模型的输入，将所述第二参考文本数据作为所述描述信息生成模型的目标输出的方式对所述描述信息生成模型进行预训练。2CN111968647A权利要求书2/2页6.根据权利要求4所述的方法，其特征在于，所述对所述语音识别模型和所述描述信息生成模型进行预训练，包括：获取第二参考文本数据；通过将所述第二参考文本数据和所述描述信息生成模型的输出作为所述图像生成模型的输入，将所述图像生成模型的输出作为所述描述信息生成模型的输入，将所述第二参考文本数据作为所述描述信息生成模型的目标输出的方式对所述描述信息生成模型进行预训练；通过将所述第二参考文本数据、所述语音识别模型的输出以及预训练后所得的描述信息生成模型的输出作为所述语音合成模型的输入，将所述语音合成模型的输出作为所述语音识别模型的输入，将所述

相关资料

语音识别方法、装置、介质及电子设备.pdf

本公开涉及一种语音识别方法、装置、介质及电子设备。方法包括：获取目标视频数据，所述目标视频数据包括目标音频数据和目标图像数据；提取所述目标音频数据对应的第一文本数据；提取所述目标图像数据的特征信息，并根据所述特征信息，生成用于描述所述目标图像数据的第二文本数据；根据所述第二文本数据，对所述第一文本数据进行修正，得到修正后的第一文本数据。由此，可以避免因目标视频数据中杂音或者背景音乐对语音识别准确度的影响，从而提升了目标音频数据对应的文本内容的准确度。

2023-12-03

765KB

语音识别方法、装置、电子设备及存储介质.pdf

本发明公开了一种语音识别方法、装置、电子设备及存储介质，所述方法包括：若确定上一段语音信号的识别结果为不完整文本，将上一段语音信号的识别结果确定为历史识别信息；基于历史识别信息，对当前获取到的语音信号进行语音识别。本发明实施例提供的技术方案，在确定上一段语音信号的识别结果不是完整文本后，将上一段语音信号的识别结果作为识别当前获取到的语音信号时的历史识别信息，在对当前获取到的语音信号计算语言模型得分时，增加了历史识别信息带来的影响，从而提升语音识别准确率。

2024-01-04

557KB

语音识别方法、装置、存储介质及电子设备.pdf

本发明提供了一种语音识别方法、装置、存储介质及电子设备，所述语音识别方法包括如下步骤：获取多个样本语音数据；采用梅尔频率倒普系数对每个样本语音数据进行语音特征提取，以得到每个样本语音数据的特征矩阵；按照一预设值构建每个样本语音数据的特征矩阵的大小，以得到归一化的特征矩阵的集合；基于所述归一化的特征矩阵的集合以支持向量机算法建立一分类模型；通过所述分类模型识别目标语音数据。本发明可以准确区分多种语言的目标语音数据，特别是带有彩铃或振铃的外呼呼叫失败的语音数据。

2023-06-25

558KB

语音识别方法、装置、电子设备及存储介质.pdf

本发明实施例提供一种语音识别方法、装置、电子设备及存储介质，该方法包括：将待识别语音输入声学模型中，得到所述待识别语音对应的音素序列；将所述音素序列输入第一语言模型中，得到所述待识别语音对应的多个候选解码文本；将所述多个候选解码文本输入第二语言模型中，得到各所述候选解码文本属于各标准语法结构的第一预测结果；基于所述第一预测结果确定所述待识别语音的识别结果。本发明实施例提供的语音识别方法、装置、电子设备及存储介质提高了语音识别的准确度。

2023-06-01

1.9MB

语音识别方法、装置、电子设备及存储介质.pdf

本发明公开了一种语音识别方法、装置、电子设备及存储介质，所述方法包括：获取输入语音以及输入语音对应的用户ID；根据用户ID，在解码网络中，搜索输入语音对应的最优路径，解码网络中各词节点之间的路径标记有用户ID；根据最优路径确定输入语音对应的文本信息。本发明实施例提供的技术方案，基于一套解码网络，即可为用户提供个性化的语音识别服务，同时大大节省了硬件资源。

2024-01-04

683KB