预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共18页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115019802A(43)申请公布日2022.09.06(21)申请号202210743461.2(22)申请日2022.06.27(71)申请人平安科技(深圳)有限公司地址518000广东省深圳市福田区福田街道福安社区益田路5033号平安金融中心23楼(72)发明人南海顺(74)专利代理机构深圳市明日今典知识产权代理事务所(普通合伙)44343专利代理师王杰辉石良武(51)Int.Cl.G10L15/26(2006.01)G10L25/51(2013.01)G10L17/08(2013.01)G10L21/028(2013.01)权利要求书2页说明书11页附图4页(54)发明名称语音意图识别的方法、装置、计算机设备和存储介质(57)摘要本申请涉及人工智能领域,揭示了一种语音意图识别的方法、装置、计算机设备和存储介质,在执行方法时,先判断音频数据是否含有多人的发音,如果有,则进行人声分离得到不同人的单独音频数据并提取对应的声纹特征,之后在提取的声纹特征中查找与第一ID用户的预存声纹特征相同的目标声纹特征,最后得到与目标声纹特征对应的目标单独音频数据,该目标单独音频数据即可以认为是第一ID用户自己发出声音,最后基于该目标单独音频数据进行文本转换,进行意图识别,既可以得到排除其他人的音频数据的干扰后,第一ID用户的真实意图,提高智能外呼机器人遇到多人声时意图识别的准确率。CN115019802ACN115019802A权利要求书1/2页1.一种语音意图识别的方法,其特征在于,所述方法包括:获取第一ID用户发送的待识别的音频数据,以及到预设的声纹库中查找与第一ID用户对应的预存声纹特征;判断所述音频数据中是否包含多个人的发音;若所述音频数据中包含多个人的发音,则通过预训练的人声分离模型对所述音频数据进行人声分离,得到多个不同人的单独音频数据;分别解析多个不同人的单独音频数据的声纹特征,得到多个不同人的声纹特征;在多个不同人的所述声纹特征中,提取与所述预存声纹特征相同的目标声纹特征;在多个不同人的所述单独音频数据中,提取与所述目标声纹特征对应的单独音频数据作为目标单独音频数据;将所述目标单独音频数据转换为文本数据,并将所述文本数据输入到预训练的意图识别模型中,得到所述待识别的音频数据的意图。2.根据权利要求1所述的语音意图识别的方法,其特征在于,所述判断所述音频数据中是否包含多个人的发音,包括:在所述音频数据中截取第一时间长度的第一音频数据;将所述第一音频数据分成第二音频数据和第三音频数据;分别提取所述第一音频数据、第二音频数据和第三音频数据的声纹特征,得到第一声纹特征、第二声纹特征和第三声纹特征;判断所述第一声纹特征、第二声纹特征和第三声纹特征是否相同;若不相同,则判定所述音频数据中包含多个人的发音。3.根据权利要求1所述的语音意图识别的方法,其特征在于,所述在多个不同人的所述声纹特征中,提取与所述第一ID用户对应的预存声纹特征相同的目标声纹特征之前,包括:判断是否存储有所述第一ID用户的预存声纹特征;若有,则执行“在多个不同人的所述声纹特征中,提取与所述第一ID用户对应的预存声纹特征相同的目标声纹特征”的步骤;若否,则获取所述第一ID用户的第一历史声音数据,基于所述第一历史声纹数据建立所述第一ID用户的预存声纹特征,之后执行“在多个不同人的所述声纹特征中,提取与所述第一ID用户对应的预存声纹特征相同的目标声纹特征”的步骤。4.根据权利要求1所述的语音意图识别的方法,其特征在于,所述获取第一ID用户发送的待识别的音频数据之前,包括:获取各历史用户的第二历史声音数据;基于预设的声纹注册模型提取各第二历史声音数据对应的入库声纹特征;将各历史用户的ID与对应的入库声纹特征进行一对一映射的放入所述声纹库中。5.根据权利要求4所述的语音意图识别的方法,其特征在于,所述声纹注册模型为在ecapa‑tdnn模型的第一层前加入SpecAug层的改进模型,所述SpecAug层用于对输入的fbank向量做随机mask。6.根据权利要求1所述的语音意图识别的方法,其特征在于,所述获取第一ID用户发送的待识别的音频数据之前,包括:训练人声分离基础模型,得到预训练的人声分离模型,其中,所述人声分离基础模型为2CN115019802A权利要求书2/2页在ecapa‑tdnn模型的第一层前加入SpecAug层,以及将所述capa‑tdnn模型的softmax层替换为focaloss层的改进模型。7.根据权利要求6所述的语音意图识别的方法,其特征在于,所述训练人声分离基础模型,得到预训练的人声分离模型之前,包括:获取所有具有ID的历史用户的声音片段,其中,所述声音片段上具有对应的ID标记;将各所述声