预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共26页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113724698A(43)申请公布日2021.11.30(21)申请号202111018807.4(22)申请日2021.09.01(71)申请人马上消费金融股份有限公司地址401120重庆市渝北区黄山大道中段52号渝兴广场B2栋4至8楼(72)发明人杨斌吴海英刘敏蒋宁王洪斌(74)专利代理机构北京同立钧成知识产权代理有限公司11205代理人宋兴臧建明(51)Int.Cl.G10L15/06(2013.01)G10L15/14(2006.01)权利要求书2页说明书16页附图7页(54)发明名称语音识别模型的训练方法、装置、设备及存储介质(57)摘要本申请实施例提供一种语音识别模型的训练方法、装置、设备及存储介质,获取多个样本语音数据;根据关键词对应的声学特征中的信号帧进行建模,得到初始声学模型,每个声学特征包含多个信号帧;利用多个样本语音数据对初始声学模型进行训练,得到目标声学模型;根据目标声学模型构建语音识别模型。本申请通过关键词对应的帧级别的声学特征来构建声学模型,无需对样本语音数据进行对齐处理,训练过程相对简单,可以提升训练效率。CN113724698ACN113724698A权利要求书1/2页1.一种语音识别模型的训练方法,其特征在于,包括:获取多个样本语音数据,所述样本语音数据为包含一种关键词的语音数据;根据关键词对应的声学特征中的信号帧进行建模,得到初始声学模型,每个声学特征包含多个信号帧;利用所述多个样本语音数据对所述初始声学模型进行训练,得到目标声学模型;根据所述目标声学模型构建语音识别模型,所述语音识别模型用于识别待识别语音数据中的目标关键词。2.根据权利要求1所述的训练方法,其特征在于,所述根据关键词对应的声学特征中的信号帧进行建模,得到初始声学模型,包括:通过N状态HMM对关键词对应的声学特征中信号帧进行建模,得到初始声学模型,其中,N为大于等于5的整数。3.根据权利要求2所述的训练方法,其特征在于,所述利用所述多个样本语音数据对所述初始声学模型进行训练,得到目标声学模型,包括:利用所述多个样本语音数据对所述初始声学模型进行迭代训练,得到每次训练的输出结果;根据所述输出结果,获得当前声学模型的损失值;根据所述损失值,确定是否对当前声学模型的模型参数进行更新;若是,则对当前声学模型的模型参数更新;若否,则确定当前声学模型为目标声学模型。4.根据权利要求3所述的训练方法,其特征在于,所述输出结果包括所述各关键词中每个信号帧对应的N个目标后验概率,其中,每个目标后验概率为所述信号帧对应每个状态的后验概率,所述根据所述输出结果,获得当前声学模型的损失值,包括:根据每个关键词对应的目标后验概率,确定第一概率,所述第一概率为根据所述目标后验概率获得的路径为正确路径的概率,所述正确路径中包含所述关键词;根据各关键词对应的目标后验概率,确定第二概率,所述第二概率为各关键词对应的正确路径的概率之和;根据所述第一概率和所述第二概率,确定当前声学模型的损失值。5.根据权利要求1至4中任一项所述的训练方法,其特征在于,所述根据所述目标声学模型构建语音识别模型,包括:将音素模型和语音模型进行融合,获得目标解码网络;根据所述目标声学模型和所述目标解码网络,构建所述语音识别模型。6.根据权利要求1至4中任一项所述的训练方法,其特征在于,所述样本语音数据还包括:包含非关键词的语音数据,所述训练方法还包括:根据关键词和非关键词对应的声学特征中的信号帧进行建模,得到初始声学模型。7.一种语音识别方法,其特征在于,包括:获取待识别语音数据;基于语音识别模型对所述待识别语音数据进行识别,获取所述待识别语音数据中包含的目标关键词,其中,所述语音识别模型中的目标声学模型是对初始声学模型进行训练得2CN113724698A权利要求书2/2页到的,所述初始声学模型是对关键词的声学特征中的信号帧进行建模得到的,每个声学特征包含多个信号帧。8.一种语音识别方法,其特征在于,包括:获取待识别语音数据;对所述待识别语音数据进行特征提取,将特征提取后的声学特征输入语音识别模型中的目标声学模型,所述语音识别模型不包括对齐模型;将所述目标声学模型输出的后验概率,输入所述语音识别模型中的目标解码网络,输出识别结果。9.一种号码状态检测方法,其特征在于,包括:获取当前呼叫号码对应的状态描述语音;基于语音识别模型对所述状态描述语音进行识别,获取所述状态描述语音中的目标关键词,所述目标关键词用于指示当前呼叫号码的状态,其中,所述语音识别模型中的目标声学模型是对初始声学模型进行训练得到的,所述初始声学模型是对用于指示号码状态的关键词的声学特征中的信号帧进行建模得到的,每个声学特征包含多个信号帧。1