预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共21页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN108932941A(43)申请公布日2018.12.04(21)申请号201710955065.5(22)申请日2017.10.13(71)申请人北京猎户星空科技有限公司地址100041北京市石景山区实兴大街30号院3号楼2层A-2570房间(72)发明人白锦峰(74)专利代理机构北京清亦华知识产权代理事务所(普通合伙)11201代理人张润(51)Int.Cl.G10L15/02(2006.01)G10L15/26(2006.01)权利要求书2页说明书14页附图4页(54)发明名称语音识别方法、装置及计算机设备、存储介质及程序产品(57)摘要本发明提出一种语音识别方法及其装置,该方法包括:对待识别的音频进行特征提取,得到音频的特征序列,对特征序列进行过切分处理,得到音频的多个候选切分边界和多个子特征序列;根据候选切分边界和子特征序列构建识别图;其中,识别图中的每条识别路径包括至少一个候选声学单元;每个候选声学单元是由至少一个子特征序列连续拼接形成的;利用声学模型识别所述识别图中的候选声学单元,并结合语言模型对识别图进行解码,获取识别图中符合识别策略的识别路径对应的识别结果作为音频的目标识别文本。由过切分将特征序列切分成一个相对大粒度真实有意义发音单元,在构建识别图的过程中动态地组合子特征序列来消除误切分点,提高音频的识别准确率。CN108932941ACN108932941A权利要求书1/2页1.一种语音识别方法,其特征在于,包括:对待识别的音频进行特征提取,得到所述音频的特征序列;对所述特征序列进行过切分处理,得到所述音频的多个候选切分边界和多个子特征序列,其中每个子特征序列代表一个声学单元或者一个声学单元的一部分;根据所述候选切分边界和所述子特征序列构建识别图;其中,所述识别图中的每条识别路径包括至少一个候选声学单元;所述候选声学单元是由至少一个所述子特征序列连续拼接形成的;利用声学模型识别所述识别图中每条识别路径上的所述候选声学单元,并结合语言模型对所述识别图中的每条识别路径进行解码,获取所述识别图中符合识别策略的目标识别路径;将所述目标识别路径对应的识别结果作为所述音频的目标识别文本。2.根据权利要求1所述的方法,其特征在于,所述对所述特征序列进行过切分处理,得到所述音频的多个候选切分边界和多个子特征序列,包括:将所述音频的特征序列输入到切分模型中进行过切分处理,得到多个候选切分边界,所述切分边界将所述音频的特征序列切分为多个子特征序列。3.根据权利要求2所述的方法,其特征在于,所述对所述特征序列进行过切分处理,得到所述音频的切分结果之前,还包括:从训练数据中获取样本音频的子特征序列的标注切分边界;其中,所述训练数据中包括所述样本音频的特征序列和所述样本音频的标注数据;筛选包含所述标注切分边界的定长的所述样本音频的子特征序列作为正样本,以及识别非正样本的定长的所述样本音频的子特征序列作为负样本;以所述正样本作为建模单元,基于所述训练数据中的所述样本音频的特征序列和所述标注数据对构建的深度神经网络进行训练,得到过切分模型。4.根据权利要求1所述的方法,其特征在于,所述根据所述候选切分边界和子特征序列构建识别图,包括:按照所述音频的特征序列的时序,以每个候选切分边界为顶点,将任意两个顶点之间符合预设约束条件的多个子特征序列连续拼接形成所述候选声学单元;利用所述候选声学单元构建所述识别图。5.根据权利要求4所述的方法,其特征在于,所述将任两个顶点之间符合预设约束条件的多个子特征序列连续拼接形成所述候选声学单元,包括:如果所述任意两个顶点之间的多个子特征序列连续拼接后的持续时长未超过预设的阈值,且所述任意两个顶点之间不存在静音子特征序列,则判定所述任意两个顶点之间的多个子特征序列符合所述约束条件;将所述任意两个顶点之间的多个子特征序列连续拼接形成候选声学单元。6.根据权利要求1-5任一项所述的方法,其特征在于,所述结合语言模型对所述识别图中的每条识别路径进行解码,获取所述识别图中符合识别策略的目标识别路径,包括:在语言模型中使用动态规划算法对所述识别图中的每条识别路径进行解码;根据预设路径评价函数对每条识别路径进行打分并排序;将所述打分最高的识别路径作为所述目标识别路径。2CN108932941A权利要求书2/2页7.根据权利要求6所述的方法,其特征在于,所述根据预设路径评价函数对所述识别图中的每条识别路径进行打分,包括:获取每条识别路径在整个识别过程中的各类概率得分;其中,各类概率得分包括:所述识别路径上的子特征序列在过切分过程中的第一概率得分、所述识别路径上的候选声学单元在识别图构建过程中的第二概率得分、所述识别路径在所述声学模型中的第三概率得