预览加载中,请您耐心等待几秒...
1/9
2/9
3/9
4/9
5/9
6/9
7/9
8/9
9/9

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN112466297A(43)申请公布日2021.03.09(21)申请号202011301480.7(22)申请日2020.11.19(71)申请人重庆兆光科技股份有限公司地址400000重庆市沙坪坝区天星桥凤天大道109号2-2-1号(72)发明人彭德光赵清清孙健汤斌黄攀(74)专利代理机构重庆渝之知识产权代理有限公司50249代理人陆蕾(51)Int.Cl.G10L15/16(2006.01)G10L15/22(2006.01)G10L19/26(2013.01)G10L25/24(2013.01)权利要求书2页说明书5页附图1页(54)发明名称一种基于时域卷积编解码网络的语音识别方法(57)摘要本发明提出一种基于时域卷积编解码网络的语音识别方法,包括:输入音频信息,获取音频特征,其中音频特征包括梅尔频率倒谱系数、线性预测倒谱系数;将所述音频特征输入预先构建的神经网络模型,获取时序特征序列;通过时域卷积网络对所述时序特征序列进行编码和解码操作,得到一组输出序列;根据输出序列中每个元素的输出概率以及所述输出序列与预设标签序列的预设映射规则,获取预测结果;本发明可有效解决语音识别延迟问题。CN112466297ACN112466297A权利要求书1/2页1.一种基于时域卷积编解码网络的语音识别方法,其特征在于,包括:输入音频信息,获取音频特征,其中音频特征包括梅尔频率倒谱系数、线性预测倒谱系数;将所述音频特征输入预先构建的神经网络模型,获取时序特征序列;通过时域卷积网络对所述时序特征序列进行编码和解码操作,得到一组输出序列;根据输出序列中每个元素的输出概率以及所述输出序列与预设标签序列的预设映射规则,获取预测结果。2.根据权利要求1所述的基于时域卷积编解码网络的语音识别方法,其特征在于,所述神经网络模型包括卷积神经网络模型和递归神经网络模型;输入的所述音频特征预先通过卷积神经网络进行特征提取,在将提取的特征输入循环神经网络获取所述时序特征序列。3.根据权利要求2所述的基于时域卷积编解码网络的语音识别方法,其特征在于,所述卷积神经网络模型至少包括两层带有批量归一化的卷积层,激活函数采用硬双曲正切函数。4.根据权利要求2所述的基于时域卷积编解码网络的语音识别方法,其特征在于,所述递归神经网络包括5到7层网络层,且每层网络层均采用批量归一化。5.根据权利要求1所述的基于时域卷积编解码网络的语音识别方法,其特征在于,根据根据输出序列中每个元素的输出概率以及每个所述元素与标签的预设映射规则构建CTC损失函数;通过所述CTC损失函数反向传播更新所述时域卷积网络的参数。6.根据权利要求1所述的基于时域卷积编解码网络的语音识别方法,其特征在于,所述时域卷积网络通过Softmax激活函数输出每个时间步输出序列中元素的输出概率。7.根据权利要求1所述的基于时域卷积编解码网络的语音识别方法,其特征在于,根据输出序列中每个元素的输出概率以及所述输出序列与预设标签序列的预设映射规则,获取预测结果,包括:根据输出序列中某一元素的输出概率与输出该元素之前的所有输出概率的关系获取输出序列中元素的输出概率;计算所有映射到所述标签序列中某一标签的输出序列的输出概率之和,作为该标签的输出概率;选出输出概率最高的标签作为所述预测结果。8.根据权利要求7所述的基于时域卷积编解码网络的语音识别方法,其特征在于,所述输出序列中某一元素的输出概率与输出该元素之前的所有输出概率的关系表示为:其中,设输出序列表示为π={π1,π2,…,πn},表示第t时间步输出πt的概率,T表示输出为π的时间步。9.根据权利要求7所述的基于时域卷积编解码网络的语音识别方法,其特征在于,标签的输出概率表示为:其中,l表示标签序列;F-1(l)表示标签映射到输出序列的映射规则。2CN112466297A权利要求书2/2页10.根据权利要求1所述的基于时域卷积编解码网络的语音识别方法,其特征在于,通过预训练的语言模型对所述预测结果进行校正。3CN112466297A说明书1/5页一种基于时域卷积编解码网络的语音识别方法技术领域[0001]本发明涉及语音识别领域,尤其涉及一种基于时域卷积编解码网络的语音识别方法。背景技术[0002]目前语音识别领域主要有传统方法和深度学习方法,传统方法主要使用GMM-HMM或DNN-HMM等基于HMM的方法对每一帧语音进行建模;基于深度学习的方法使用包括卷积神经网络、循环神经网络在内的深度神经网络对大量语音数据进行建模。现有技术的缺点:传统的基于HMM的方法需要帧级别的标注,标注工作耗费大量时间和人力;深度学习方法中的双向循环网络无法有效解决识别延迟问题。发明内容[0003]鉴于以上现有技术