预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共19页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113921016A(43)申请公布日2022.01.11(21)申请号202111207159.7(22)申请日2021.10.15(71)申请人阿波罗智联(北京)科技有限公司地址100176北京市大兴区北京经济技术开发区瑞合西二路7号院1号楼1层101(72)发明人周毅(74)专利代理机构中科专利商标代理有限责任公司11021代理人刘丽丽(51)Int.Cl.G10L17/02(2013.01)G10L17/22(2013.01)权利要求书2页说明书11页附图5页(54)发明名称语音处理方法、装置、电子设备以及存储介质(57)摘要本公开提供了语音处理方法、装置、电子设备、存储介质以及程序产品,涉及人工智能技术领域,尤其涉及车联网和智能座舱等技术领域。具体实现方案为:响应于语音交互功能被唤醒,获取被用于唤醒语音交互功能的唤醒语音的唤醒声纹特征;从接收到的交互语音中提取至少一个交互声纹特征,交互语音中包括至少一个单声源交互语音,至少一个单声源交互语音与至少一个交互声纹特征一一对应;从至少一个交互声纹特征中确定与唤醒声纹特征相匹配的目标交互声纹特征;从与目标交互声纹特征相对应的目标单声源交互语音中提取目标语音特征;以及发送目标语音特征,以便基于目标语音特征,进行语音识别。CN113921016ACN113921016A权利要求书1/2页1.一种语音处理方法,包括:响应于语音交互功能被唤醒,获取被用于唤醒所述语音交互功能的唤醒语音的唤醒声纹特征;从接收到的交互语音中提取至少一个交互声纹特征,所述交互语音中包括至少一个单声源交互语音,所述至少一个单声源交互语音与所述至少一个交互声纹特征一一对应;从所述至少一个交互声纹特征中确定与所述唤醒声纹特征相匹配的目标交互声纹特征;从与所述目标交互声纹特征相对应的目标单声源交互语音中提取目标语音特征;以及发送目标语音特征,以便基于所述目标语音特征,进行语音识别。2.根据权利要求1所述的方法,还包括,在所述响应于语音交互功能被唤醒,获取被用于唤醒所述语音交互功能的唤醒语音的唤醒声纹特征之前:从接收到的所述唤醒语音中,提取所述唤醒语音的唤醒声纹特征;基于所述唤醒声纹特征,确定所述唤醒语音的声源;以及响应于确定所述唤醒语音的声源为人声源,基于所述唤醒语音,确定所述语音交互功能的唤醒结果。3.根据权利要求1或2所述的方法,其中,所述从所述至少一个交互声纹特征中确定与所述唤醒声纹特征相匹配的目标交互声纹特征包括:针对所述至少一个交互声纹特征中的每个交互声纹特征,确定所述交互声纹特征与所述唤醒声纹特征之间的声纹相似度;以及从所述至少一个交互声纹特征中确定声纹相似度最高的交互声纹特征,作为所述目标交互声纹特征。4.根据权利要求3所述的方法,其中,所述针对所述至少一个交互声纹特征中的每个交互声纹特征,确定所述交互声纹特征与所述唤醒声纹特征之间的声纹相似度包括:确定与所述交互声纹特征相对应的单声源交互语音的声源;以及响应于确定所述单声源交互语音的声源为人声源,确定所述交互声纹特征与所述唤醒声纹特征之间的声纹相似度。5.根据权利要求1所述的方法,其中,所述发送目标语音特征包括:确定所述目标单声源交互语音的数据量;以及响应于所述数据量大于或等于预定数据量阈值,发送目标语音特征。6.根据权利要求1至5任一项所述的方法,其中,所述方法应用于语音交互设备;所述发送目标语音特征包括:利用所述语音交互设备将所述目标语音特征发送至云服务器,以便所述云服务器基于所述目标语音特征,进行语音识别。7.一种语音处理装置,包括:唤醒声纹获取模块,用于响应于语音交互功能被唤醒,获取被用于唤醒所述语音交互功能的唤醒语音的唤醒声纹特征;交互声纹提取模块,用于从接收到的交互语音中提取至少一个交互声纹特征,所述交互语音中包括至少一个单声源交互语音,所述至少一个单声源交互语音与所述至少一个交互声纹特征一一对应;2CN113921016A权利要求书2/2页确定模块,用于从所述至少一个交互声纹特征中确定与所述唤醒声纹特征相匹配的目标交互声纹特征;语音特征提取模块,用于从与所述目标交互声纹特征相对应的目标单声源交互语音中提取目标语音特征;以及发送模块,用于发送目标语音特征,以便基于所述目标语音特征,进行语音识别。8.根据权利要求7所述的装置,还包括,在所述唤醒声纹获取模块之前:接收模块,用于从接收到的所述唤醒语音中,提取所述唤醒语音的唤醒声纹特征;声源确定模块,用于基于所述唤醒声纹特征,确定所述唤醒语音的声源;以及唤醒结果确定模块,用于响应于确定所述唤醒语音的声源为人声源,基于所述唤醒语音,确定所述语音交互功能的唤醒结果。9.根据权利要求7或8所述的装置,其中,所述确定模块包括: