预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共21页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN114267360A(43)申请公布日2022.04.01(21)申请号202111640910.2(22)申请日2021.12.29(71)申请人达闼机器人有限公司地址200245上海市闵行区中青路207号8幢(72)发明人袁桦(74)专利代理机构北京太合九思知识产权代理有限公司11610代理人刘戈(51)Int.Cl.G10L17/02(2013.01)G10L17/04(2013.01)G10L17/14(2013.01)G10L17/18(2013.01)G10L17/22(2013.01)权利要求书2页说明书11页附图7页(54)发明名称语音识别、基于语音的联合处理模型训练方法、装置(57)摘要本公开提供的语音识别方法,可以根据语音识别结果为目标对象进行属性识别,后续可以基于目标对象的分类结果进行个性化服务配置,在机器人与用户的语音交流中,准确的通过语音信号来确定用户的身份,对于更人性化的人机交互有着重要的作用。同样,如果能够获取到用户的个性信息也非常重要,机器人相应就可以做出有针对性的回答或者建议。本公开提供的方法适用于任何需要进行人机语音交互的场景,可以为交互中提供更多有用的信息,使得交互更智能。本公开还提供了基于语音的联合处理模型的训练方法、装置、计算机设备、计算机可读存储介质以及计算机程序产品,可以用于多种人机语音交互的场景,提升交互的性能。CN114267360ACN114267360A权利要求书1/2页1.一种语音识别方法,其中,包括:获取待识别的语音信号;对所述语音信号进行提取处理得到声学特征;将所述声学特征输入多层神经网络得到帧级别神经网络特征;对所述帧级别神经网络特征进行加权求和处理得到句子级特征向量;将所述句子级特征向量输入预先训练的联合处理模型得到所述语音信号对应目标对象的分类结果,其中所述预先训练的联合处理模型用于表征语音信号的多维信息。2.根据权利要求1所述的语音识别方法,其中,所述声学特征为Fbank特征,所述对所述语音信号进行提取处理得到声学特征,包括:对所述语音信号进行分帧和加窗得到T帧语音信号,所述T帧语音信号的帧数与所述语音信号的长度相对应,T为正整数;对所述T帧语音信号进行快速傅里叶FFT变换并计算能量谱,将所述能量谱输入梅尔Mel滤波器组得到Fbank特征。3.根据权利要求1或2所述的语音识别方法,其中,所述对所述帧级别神经网络特征进行加权求和处理得到句子级特征向量,包括:将所述帧级别神经网络特征通过注意力网络处理得到一组权值;对所述帧级别神经网络特征与所述一组权值进行加权求和处理得到句子级特征向量,所述句子级特征向量为固定长度的向量,用于表征所述待识别的语音信号中所蕴含的说话人相关的个性信息,所述个性信息与所述分类结果相关。4.根据权利要求1或2所述的语音识别方法,其中,所述多维信息包括声纹信息、性别信息、年龄信息、语种信息、情绪信息、口音信息中的至少两项,所述联合处理模型包括声纹子模型、性别子模型、年龄子模型、语种子模型、情绪子模型、口音子模型中的至少两种。5.根据权利要求4所述的语音识别方法,其中,所述联合处理模型包括声纹子模型、年龄子模型、性别子模型,所述将所述句子级特征向量输入预先训练的联合处理模型得到所述语音信号对应目标对象的分类结果,包括:将所述句子级特征向量输入所述声纹子模型得到声纹特征;将所述句子级特征向量输入所述年龄子模型得到年龄预测值;将所述句子级特征向量输入所述性别子模型得到性别预测值;将所述声纹特征、所述年龄预测值以及所述性别预测值作为分类结果输出。6.根据权利要求1所述的语音识别方法,其中,还包括:将所述分类结果与所述目标对象建立一一对应关系,将所述对应关系存入声纹库。7.一种基于语音的联合处理模型训练方法,其中,包括:利用预先标注的训练集输入所述联合处理模型,其中所述联合处理模型包括至少两个多维子模型;获取每个所述多维子模型确定对应的损失值;利用所有所述多维子模型对应的损失值确定总损失值;利用所述总损失值对所述联合处理模型的参数进行更新,直至所述联合处理模型收敛为止。8.根据权利要求7所述的基于语音的联合处理模型训练方法,其中,所述至少两个多维2CN114267360A权利要求书2/2页子模型包括声纹子模型、年龄子模型、性别子模型,所述获取每个所述多维子模型确定对应的损失值包括:利用所述声纹子模型得到第一损失值,利用所述年龄子模型得到第二损失值,利用所述性别子模型得到第三损失值;所述利用所有所述多维子模型对应的损失值确定总损失值,包括。利用所述第一损失值、所述第二损失值以及所述第三损失值确定总损失值。9.根据权利要求8所述的基于语音的联合处理模型训练方法,其中,所述利用预