预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共35页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113889081A(43)申请公布日2022.01.04(21)申请号202111185332.8G10L15/22(2006.01)(22)申请日2021.10.12G10L17/02(2013.01)G10L17/04(2013.01)(71)申请人杭州网易智企科技有限公司G10L17/18(2013.01)地址310052浙江省杭州市滨江区长河街G10L17/22(2013.01)道网商路399号3幢408室(72)发明人周立峰朱浩齐李雨珂杨卫强高民(74)专利代理机构北京同立钧成知识产权代理有限公司11205代理人刘丹臧建明(51)Int.Cl.G10L15/02(2006.01)G10L15/06(2013.01)G10L15/16(2006.01)G10L15/18(2013.01)权利要求书2页说明书24页附图8页(54)发明名称语音识别方法、介质、装置和计算设备(57)摘要本公开的实施方式提供了一种语音识别方法、介质、装置和计算设备。该语音识别方法包括:获取待识别语音信号的声学特征;基于语音识别模型和声学特征,确定待识别语音信号包含的各语音片段为目标语音片段的置信度;根据各语音片段的置信度,识别待识别语音信号中的目标语音片段。一方面,通过语音识别模型对音频数据进行识别,可以大大提升语音识别的效率和准确率。另一方面,通过识别音频数据中特定人员的语音片段,可以排除非特定人员的语音片段的影响,进一步提升语音识别效率。CN113889081ACN113889081A权利要求书1/2页1.一种语音识别方法,包括:获取待识别语音信号的声学特征;基于语音识别模型和所述声学特征,确定所述待识别语音信号包含的各语音片段为目标语音片段的置信度,其中,所述目标语音片段为目标人员发出的语音信号,所述语音识别模型是基于所述目标人员的样本音频信号对应的声学特征进行训练得到的;根据各语音片段的置信度,识别所述待识别语音信号中的目标语音片段。2.根据权利要求1所述的语音识别方法,所述语音识别模型是基于所述目标人员的声学特征进行如下训练得到的:获取对应于目标人员的多个样本音频信号的声学特征;将所述声学特征输入目标声纹识别模型,获得所述目标声纹识别模型输出的所述声学特征对应的声纹特征;根据所述声纹特征获得所述声学特征的标签数据,所述声学特征的标签数据用于指示声学特征所属的目标人员;通过所述声学特征的标签数据对初始语音识别模型进行训练,得到所述语音识别模型。3.根据权利要求1所述的语音识别方法,所述根据所述置信度,识别所述待识别语音信号中的目标语音片段,包括:根据所述置信度大于或等于置信度阈值的第一语音片段,识别所述待识别语音信号中的目标语音片段;或者,确定置信度小于所述置信度阈值的语音片段不是目标语音片段。4.根据权利要求3所述的语音识别方法,所述根据所述置信度大于或等于置信度阈值的第一语音片段,识别所述待识别语音信号中的目标语音片段,包括:获取所述置信度大于所述置信度阈值的第一语音片段;基于所述第一语音片段的声学特征,获取所述第一语音片段的声纹特征;根据所述声纹特征,识别所述第一语音片段是否为目标语音片段。5.根据权利要求4所述的语音识别方法,所述基于所述第一语音片段的声学特征,获取所述第一语音片段的声纹特征,包括:将所述第一语音片段的声学特征输入目标声纹识别模型,获取所述第一语音片段的声纹特征,其中,所述目标声纹识别模型是基于所述目标人员的声纹特征进行训练得到的。6.根据权利要求4所述的语音识别方法,所述根据所述声纹特征,识别所述第一语音片段是否为目标语音片段,包括:将所述声纹特征与数据库中的声纹特征进行对比,所述数据库包含所述目标人员的声纹特征;若确定所述声纹特征与所述数据库中至少一个声纹特征的相似度大于或等于相似度阈值,则确定所述第一语音片段为目标语音片段;若确定所述声纹特征与所述数据库中声纹特征的相似度小于所述相似度阈值,则确定所述第一语音片段不为目标语音片段。7.根据权利要求1至6任一项所述的语音识别方法,还包括:确定所述待识别语音信号中各所述目标语音片段的第一时间信息,所述第一时间信息2CN113889081A权利要求书2/2页包括:各所述目标语音片段的起止时间。8.根据权利要求7所述的语音识别方法,还包括:根据各所述目标语音片段的第一时间信息,将时间连续的所述目标语音片段进行合并处理,获得待处理语音片段以及各待处理语音片段对应的第二时间信息,所述第二时间信息包括:各所述待处理语音片段的起止时间,和/或,各所述待处理语音片段的时长。9.根据权利要求1至6中任一项所述的语音识别方法,所述语音识别模型包括:卷积神经网络、循环神经网络、自注意力机制以及全连接层