语音处理方法、装置、电子设备以及存储介质-豆柴文库

语音处理方法、装置、电子设备以及存储介质.pdf

2023-07-24

10金币

817KB

19页

努力****弘毅

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共19页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113921016A(43)申请公布日2022.01.11(21)申请号202111207159.7(22)申请日2021.10.15(71)申请人阿波罗智联（北京）科技有限公司地址100176北京市大兴区北京经济技术开发区瑞合西二路7号院1号楼1层101(72)发明人周毅(74)专利代理机构中科专利商标代理有限责任公司11021代理人刘丽丽(51)Int.Cl.G10L17/02(2013.01)G10L17/22(2013.01)权利要求书2页说明书11页附图5页(54)发明名称语音处理方法、装置、电子设备以及存储介质(57)摘要本公开提供了语音处理方法、装置、电子设备、存储介质以及程序产品，涉及人工智能技术领域，尤其涉及车联网和智能座舱等技术领域。具体实现方案为：响应于语音交互功能被唤醒，获取被用于唤醒语音交互功能的唤醒语音的唤醒声纹特征；从接收到的交互语音中提取至少一个交互声纹特征，交互语音中包括至少一个单声源交互语音，至少一个单声源交互语音与至少一个交互声纹特征一一对应；从至少一个交互声纹特征中确定与唤醒声纹特征相匹配的目标交互声纹特征；从与目标交互声纹特征相对应的目标单声源交互语音中提取目标语音特征；以及发送目标语音特征，以便基于目标语音特征，进行语音识别。CN113921016ACN113921016A权利要求书1/2页1.一种语音处理方法，包括：响应于语音交互功能被唤醒，获取被用于唤醒所述语音交互功能的唤醒语音的唤醒声纹特征；从接收到的交互语音中提取至少一个交互声纹特征，所述交互语音中包括至少一个单声源交互语音，所述至少一个单声源交互语音与所述至少一个交互声纹特征一一对应；从所述至少一个交互声纹特征中确定与所述唤醒声纹特征相匹配的目标交互声纹特征；从与所述目标交互声纹特征相对应的目标单声源交互语音中提取目标语音特征；以及发送目标语音特征，以便基于所述目标语音特征，进行语音识别。2.根据权利要求1所述的方法，还包括，在所述响应于语音交互功能被唤醒，获取被用于唤醒所述语音交互功能的唤醒语音的唤醒声纹特征之前：从接收到的所述唤醒语音中，提取所述唤醒语音的唤醒声纹特征；基于所述唤醒声纹特征，确定所述唤醒语音的声源；以及响应于确定所述唤醒语音的声源为人声源，基于所述唤醒语音，确定所述语音交互功能的唤醒结果。3.根据权利要求1或2所述的方法，其中，所述从所述至少一个交互声纹特征中确定与所述唤醒声纹特征相匹配的目标交互声纹特征包括：针对所述至少一个交互声纹特征中的每个交互声纹特征，确定所述交互声纹特征与所述唤醒声纹特征之间的声纹相似度；以及从所述至少一个交互声纹特征中确定声纹相似度最高的交互声纹特征，作为所述目标交互声纹特征。4.根据权利要求3所述的方法，其中，所述针对所述至少一个交互声纹特征中的每个交互声纹特征，确定所述交互声纹特征与所述唤醒声纹特征之间的声纹相似度包括：确定与所述交互声纹特征相对应的单声源交互语音的声源；以及响应于确定所述单声源交互语音的声源为人声源，确定所述交互声纹特征与所述唤醒声纹特征之间的声纹相似度。5.根据权利要求1所述的方法，其中，所述发送目标语音特征包括：确定所述目标单声源交互语音的数据量；以及响应于所述数据量大于或等于预定数据量阈值，发送目标语音特征。6.根据权利要求1至5任一项所述的方法，其中，所述方法应用于语音交互设备；所述发送目标语音特征包括：利用所述语音交互设备将所述目标语音特征发送至云服务器，以便所述云服务器基于所述目标语音特征，进行语音识别。7.一种语音处理装置，包括：唤醒声纹获取模块，用于响应于语音交互功能被唤醒，获取被用于唤醒所述语音交互功能的唤醒语音的唤醒声纹特征；交互声纹提取模块，用于从接收到的交互语音中提取至少一个交互声纹特征，所述交互语音中包括至少一个单声源交互语音，所述至少一个单声源交互语音与所述至少一个交互声纹特征一一对应；2CN113921016A权利要求书2/2页确定模块，用于从所述至少一个交互声纹特征中确定与所述唤醒声纹特征相匹配的目标交互声纹特征；语音特征提取模块，用于从与所述目标交互声纹特征相对应的目标单声源交互语音中提取目标语音特征；以及发送模块，用于发送目标语音特征，以便基于所述目标语音特征，进行语音识别。8.根据权利要求7所述的装置，还包括，在所述唤醒声纹获取模块之前：接收模块，用于从接收到的所述唤醒语音中，提取所述唤醒语音的唤醒声纹特征；声源确定模块，用于基于所述唤醒声纹特征，确定所述唤醒语音的声源；以及唤醒结果确定模块，用于响应于确定所述唤醒语音的声源为人声源，基于所述唤醒语音，确定所述语音交互功能的唤醒结果。9.根据权利要求7或8所述的装置，其中，所述确定模块包括：

相关资料

语音处理方法、装置、电子设备以及存储介质.pdf

本申请公开了一种语音处理方法、装置、电子设备以及存储介质，包括：获取已标注的第一语音样本、未标注的第二语音样本、预训练的基础语音模型、流式语音处理模型和语言模型；根据第一语音样本对流式语音处理模型进行调整，得到调整后流式语音处理模型；基于第一语音样本、第二语音样本以及流式语音处理模型对应的教师模型，对流式语音处理模型进行训练，得到训练后流式语音处理模型；根据第一语音样本、基础语音模型以及语言模型对第二语音样本进行标注，得到标注后第二语音样本；基于第一语音样本和标注后第二语音样本对训练后流式语音处理模型进行

2023-07-25

845KB

语音处理方法、装置、电子设备以及存储介质.pdf

本公开提供了语音处理方法、装置、电子设备、存储介质以及程序产品，涉及人工智能技术领域，尤其涉及车联网和智能座舱等技术领域。具体实现方案为：响应于语音交互功能被唤醒，获取被用于唤醒语音交互功能的唤醒语音的唤醒声纹特征；从接收到的交互语音中提取至少一个交互声纹特征，交互语音中包括至少一个单声源交互语音，至少一个单声源交互语音与至少一个交互声纹特征一一对应；从至少一个交互声纹特征中确定与唤醒声纹特征相匹配的目标交互声纹特征；从与目标交互声纹特征相对应的目标单声源交互语音中提取目标语音特征；以及发送目标语音特征，

2023-07-24

817KB

语音信号处理方法、装置、电子设备以及存储介质.pdf

本申请实施例公开了一种语音信号处理方法、装置、电子设备以及存储介质，包括：在通话过程中获取采集信号以及参考信号；基于所述参考信号对所述采集信号进行回声消除处理，得到处理后语音信号；提取所述采集信号对应的第一信号音频特征以及所述参考信号对应的第二信号音频特征；根据所述第一信号音频特征以及第二信号音频特征，确定所述采集信号中近端语音信号的信号衰减；基于所述信号衰减抑制处理后语音信号中残留的回声信号，并对所述参考信号的音量进行调整，该方案可以提高语音信号处理的准确性。

2023-11-07

683KB

语音处理方法、装置、设备以及存储介质.pdf

本申请公开了一种语音处理方法、装置、设备以及存储介质，属于计算机技术领域。通过本申请实施例提供的技术方案，在进行语音降噪时，无需通过结构复杂的模型进行噪声识别，直接基于语音数据的频域信息确定一个第一掩码，将第一掩码与语音数据的频谱结合，就能够得到目标语音数据，在保证降噪效果的同时，提高了语音降噪的速度，减少了计算资源的消耗。

2023-07-25

1.2MB

语音处理方法及装置、存储介质、电子设备.pdf

本公开属于语音克隆技术领域，涉及一种语音处理方法及装置、存储介质、电子设备。该方法包括：对目标视频进行分离得到音频轨道和视频轨道，并采集被模仿者的第一语音；提取第一语音的第一语音特征，并将第一语音特征和音频轨道中的第二语音输入音色转换模型，以将音频轨道中第二语音的音色从第二音色转换至第一音色；其中，第一音色与第一语音对应，第二音色与第二语音对应；将音色转换后的音频轨道与视频轨道合并，以得到具有被模仿者音色的目标视频。在本公开中，通过识别第二语音的音素，实现了任意第二语音的音色的转换。

2023-07-25

1.2MB