语音识别模型的训练方法、装置、设备及存储介质-豆柴文库

语音识别模型的训练方法、装置、设备及存储介质.pdf

2023-07-25

10金币

933KB

26页

雨星****萌娃

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共26页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113724698A(43)申请公布日2021.11.30(21)申请号202111018807.4(22)申请日2021.09.01(71)申请人马上消费金融股份有限公司地址401120重庆市渝北区黄山大道中段52号渝兴广场B2栋4至8楼(72)发明人杨斌吴海英刘敏蒋宁王洪斌(74)专利代理机构北京同立钧成知识产权代理有限公司11205代理人宋兴臧建明(51)Int.Cl.G10L15/06(2013.01)G10L15/14(2006.01)权利要求书2页说明书16页附图7页(54)发明名称语音识别模型的训练方法、装置、设备及存储介质(57)摘要本申请实施例提供一种语音识别模型的训练方法、装置、设备及存储介质，获取多个样本语音数据；根据关键词对应的声学特征中的信号帧进行建模，得到初始声学模型，每个声学特征包含多个信号帧；利用多个样本语音数据对初始声学模型进行训练，得到目标声学模型；根据目标声学模型构建语音识别模型。本申请通过关键词对应的帧级别的声学特征来构建声学模型，无需对样本语音数据进行对齐处理，训练过程相对简单，可以提升训练效率。CN113724698ACN113724698A权利要求书1/2页1.一种语音识别模型的训练方法，其特征在于，包括：获取多个样本语音数据，所述样本语音数据为包含一种关键词的语音数据；根据关键词对应的声学特征中的信号帧进行建模，得到初始声学模型，每个声学特征包含多个信号帧；利用所述多个样本语音数据对所述初始声学模型进行训练，得到目标声学模型；根据所述目标声学模型构建语音识别模型，所述语音识别模型用于识别待识别语音数据中的目标关键词。2.根据权利要求1所述的训练方法，其特征在于，所述根据关键词对应的声学特征中的信号帧进行建模，得到初始声学模型，包括：通过N状态HMM对关键词对应的声学特征中信号帧进行建模，得到初始声学模型，其中，N为大于等于5的整数。3.根据权利要求2所述的训练方法，其特征在于，所述利用所述多个样本语音数据对所述初始声学模型进行训练，得到目标声学模型，包括：利用所述多个样本语音数据对所述初始声学模型进行迭代训练，得到每次训练的输出结果；根据所述输出结果，获得当前声学模型的损失值；根据所述损失值，确定是否对当前声学模型的模型参数进行更新；若是，则对当前声学模型的模型参数更新；若否，则确定当前声学模型为目标声学模型。4.根据权利要求3所述的训练方法，其特征在于，所述输出结果包括所述各关键词中每个信号帧对应的N个目标后验概率，其中，每个目标后验概率为所述信号帧对应每个状态的后验概率，所述根据所述输出结果，获得当前声学模型的损失值，包括：根据每个关键词对应的目标后验概率，确定第一概率，所述第一概率为根据所述目标后验概率获得的路径为正确路径的概率，所述正确路径中包含所述关键词；根据各关键词对应的目标后验概率，确定第二概率，所述第二概率为各关键词对应的正确路径的概率之和；根据所述第一概率和所述第二概率，确定当前声学模型的损失值。5.根据权利要求1至4中任一项所述的训练方法，其特征在于，所述根据所述目标声学模型构建语音识别模型，包括：将音素模型和语音模型进行融合，获得目标解码网络；根据所述目标声学模型和所述目标解码网络，构建所述语音识别模型。6.根据权利要求1至4中任一项所述的训练方法，其特征在于，所述样本语音数据还包括：包含非关键词的语音数据，所述训练方法还包括：根据关键词和非关键词对应的声学特征中的信号帧进行建模，得到初始声学模型。7.一种语音识别方法，其特征在于，包括：获取待识别语音数据；基于语音识别模型对所述待识别语音数据进行识别，获取所述待识别语音数据中包含的目标关键词，其中，所述语音识别模型中的目标声学模型是对初始声学模型进行训练得2CN113724698A权利要求书2/2页到的，所述初始声学模型是对关键词的声学特征中的信号帧进行建模得到的，每个声学特征包含多个信号帧。8.一种语音识别方法，其特征在于，包括：获取待识别语音数据；对所述待识别语音数据进行特征提取，将特征提取后的声学特征输入语音识别模型中的目标声学模型，所述语音识别模型不包括对齐模型；将所述目标声学模型输出的后验概率，输入所述语音识别模型中的目标解码网络，输出识别结果。9.一种号码状态检测方法，其特征在于，包括：获取当前呼叫号码对应的状态描述语音；基于语音识别模型对所述状态描述语音进行识别，获取所述状态描述语音中的目标关键词，所述目标关键词用于指示当前呼叫号码的状态，其中，所述语音识别模型中的目标声学模型是对初始声学模型进行训练得到的，所述初始声学模型是对用于指示号码状态的关键词的声学特征中的信号帧进行建模得到的，每个声学特征包含多个信号帧。1

相关资料

语音识别模型的训练方法、装置、设备及存储介质.pdf

本申请实施例提供一种语音识别模型的训练方法、装置、设备及存储介质，获取多个样本语音数据；根据关键词对应的声学特征中的信号帧进行建模，得到初始声学模型，每个声学特征包含多个信号帧；利用多个样本语音数据对初始声学模型进行训练，得到目标声学模型；根据目标声学模型构建语音识别模型。本申请通过关键词对应的帧级别的声学特征来构建声学模型，无需对样本语音数据进行对齐处理，训练过程相对简单，可以提升训练效率。

2023-07-25

933KB

语音识别模型的训练方法、装置、设备及存储介质.pdf

本申请公开了一种语音识别模型的训练方法、装置、设备及存储介质,属于人工智能领域。所述方法包括:获取样本音频集,所述样本音频集中包括多个样本音频;基于初始语音识别模型,在所述样本音频集中筛选候选样本音频;在所述候选样本音频中提取音频片段;其中,所述音频片段包括所述候选样本音频中与连续相同文本单元对齐的音频;且,所述初始语音识别模型在对所述候选样本音频进行语音识别时,未正确识别所述连续相同文本单元;根据所述音频片段对所述初始语音识别模型进行再训练,得到目标语音识别模型。本申请能够提升语音识别质量,特别是提升了

2023-04-20

724KB

语音识别模型训练方法、装置、设备、存储介质及产品.pdf

本申请公开了一种语音识别模型训练方法、装置、设备、存储介质及产品，属于互联网技术领域。该方法先获取多个非人声音频，通过第一语音识别模型对多个非人声音频进行识别，得到每个非人声音频对应的识别结果，基于该识别结果，确定被识别为人声音频的多个第一非人声音频，从多个第一非人声音频中，确定目标非人声音频，将目标非人声音频与不包含唤醒词的人声音频作为负样本，将包含唤醒词的人声音频作为正样本，基于负样本和正样本进行模型训练，得到用于识别唤醒词的第二语音识别模型。该第二语音识别模型在识别唤醒词时，可以消除与唤醒词相似的非

2023-07-24

818KB

语音识别、网络模型的训练方法、装置、设备和存储介质.pdf

本申请提供了一种语音识别、网络模型的训练方法、装置、设备和存储介质，解决了现有技术中语音识别系统识别效果较差的问题。基于初始说话人波束和多路语音信号确定第一目标说话人波束，初始说话人波束基于多路语音信号的波束成形过程得到，第一目标说话人波束指示多路语音信号各自在初始说话人波束所在方向上的声音信息；基于第一目标说话人波束和多路语音信号确定噪声波束，噪声波束指示多路语音信号中除了第一目标说话人波束之外的声音信息；基于噪声波束和唤醒波束对第一目标说话人波束进行滤波，得到第二目标说话人波束，唤醒波束指示包含唤醒词

2023-07-24

1KB

语音识别模型的训练方法、装置、存储介质及电子设备.pdf

本公开涉及语音识别领域，具体涉及一种语音识别模型的训练方法、装置、存储介质及电子设备。该语音识别模型的训练方法包括构建初始语音识别模型；固定第二初始参数，基于无标注数据集计算对比学习损失函数以将第一初始参数调整为第一中间参数；固定第一中间参数，基于有标注数据集计算第一联合损失函数以将第二初始参数调整为第二中间参数；基于有标注数据集计算第二联合损失函数，并根据第二联合损失函数对第一网络和第二网络进行训练，以调整第一中间参数和第二中间参数得到目标语音识别模型。本公开提供的语音识别模型的训练方法能够解决语音识别

2023-07-21

755KB