语音处理方法、装置、电子设备和介质-豆柴文库

语音处理方法、装置、电子设备和介质.pdf

2023-07-25

10金币

663KB

14页

St****36

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共14页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113674755A(43)申请公布日2021.11.19(21)申请号202110957376.1(22)申请日2021.08.19(71)申请人北京百度网讯科技有限公司地址100085北京市海淀区上地十街10号百度大厦2层(72)发明人王柳锋(74)专利代理机构中科专利商标代理有限责任公司11021代理人王江选(51)Int.Cl.G10L21/0272(2013.01)G10L21/0308(2013.01)G10L17/02(2013.01)G10L15/00(2013.01)权利要求书2页说明书7页附图4页(54)发明名称语音处理方法、装置、电子设备和介质(57)摘要本公开公开了一种语音处理方法、装置、设备、介质和产品，涉及语音技术领域。语音处理方法包括：从针对多个对象的第一语音数据中，确定针对多个对象中目标对象的至少一个语音片段；基于至少一个语音片段，确定目标对象的声纹特征；基于目标对象的声纹特征，处理第二语音数据，得到第二语音数据中针对目标对象的语音识别结果。CN113674755ACN113674755A权利要求书1/2页1.一种语音处理方法，包括：从针对多个对象的第一语音数据中，确定针对所述多个对象中目标对象的至少一个语音片段；基于所述至少一个语音片段，确定所述目标对象的声纹特征；以及基于所述目标对象的声纹特征，处理第二语音数据，得到所述第二语音数据中针对所述目标对象的语音识别结果。2.根据权利要求1所述的方法，其中，所述从针对多个对象的第一语音数据中，确定针对所述多个对象中目标对象的至少一个语音片段包括：从与所述第一语音数据对应的时序信息中确定多个时间段，其中，与每个所述时间段对应的语音片段包括一个对象的语音；以及从与所述多个时间段一一对应的多个语音片段中确定针对目标对象的至少一个语音片段。3.根据权利要求2所述的方法，其中，所述从与所述多个时间段一一对应的多个语音片段中确定针对目标对象的至少一个语音片段包括：将所述多个语音片段进行分组，得到与所述多个对象一一对应的多个分组；从所述多个分组中确定针对目标对象的目标分组；以及将所述目标分组中的语音片段，作为针对目标对象的至少一个语音片段。4.根据权利要求1所述的方法，其中，所述基于所述目标对象的声纹特征，处理第二语音数据包括：基于所述目标对象的声纹特征，从所述第二语音数据中分离出所述目标对象的子语音数据；以及对所述目标对象的子语音数据进行语音识别，得到针对所述目标对象的语音识别结果。5.根据权利要求4所述的方法，其中，所述第二语音数据包括多个对象的子语音数据；其中，所述基于所述目标对象的声纹特征，从第二语音数据中分离出所述目标对象的子语音数据包括：基于所述目标对象的声纹特征，将所述第二语音数据中针对所述目标对象的子语音数据和剩余语音数据进行分离，其中，所述剩余语音数据包括多个对象中除所述目标对象之外的至少一个对象的子语音数据。6.根据权利要求5所述的方法，还包括：针对所述至少一个对象中的每个对象，基于每个对象的声纹特征，从所述剩余语音数据中分离出所述每个对象的子语音数据。7.一种语音处理装置，包括：第一确定模块，用于从针对多个对象的第一语音数据中，确定针对所述多个对象中目标对象的至少一个语音片段；第二确定模块，用于基于所述至少一个语音片段，确定所述目标对象的声纹特征；以及处理模块，用于基于所述目标对象的声纹特征，处理第二语音数据，得到所述第二语音数据中针对所述目标对象的语音识别结果。2CN113674755A权利要求书2/2页8.根据权利要求7所述的装置，其中，所述第一确定模块包括：第一确定子模块，用于从与所述第一语音数据对应的时序信息中确定多个时间段，其中，与每个所述时间段对应的语音片段包括一个对象的语音；以及第二确定子模块，用于从与所述多个时间段一一对应的多个语音片段中确定针对目标对象的至少一个语音片段。9.根据权利要求8所述的装置，其中，所述第二确定子模块包括：分组单元，用于将所述多个语音片段进行分组，得到与所述多个对象一一对应的多个分组；第一确定单元，用于从所述多个分组中确定针对目标对象的目标分组；以及第二确定单元，用于将所述目标分组中的语音片段，作为针对目标对象的至少一个语音片段。10.根据权利要求7所述的装置，其中，所述处理模块包括：分离子模块，用于基于所述目标对象的声纹特征，从所述第二语音数据中分离出所述目标对象的子语音数据；以及识别子模块，用于对所述目标对象的子语音数据进行语音识别，得到针对所述目标对象的语音识别结果。11.根据权利要求10所述的装置，其中，所述第二语音数据包括多个对象的子语音数据；其中，所述分离子模块还用于：基于所述目标对象的声纹特征，将所述第二语音

相关资料

语音处理方法、装置、电子设备和介质.pdf

本公开公开了一种语音处理方法、装置、设备、介质和产品，涉及语音技术领域。语音处理方法包括：从针对多个对象的第一语音数据中，确定针对多个对象中目标对象的至少一个语音片段；基于至少一个语音片段，确定目标对象的声纹特征；基于目标对象的声纹特征，处理第二语音数据，得到第二语音数据中针对目标对象的语音识别结果。

2023-07-25

663KB

语音处理方法、装置、电子设备和介质.pdf

本公开涉及一种语音处理方法、装置、电子设备和介质，尤其涉及语音处理技术领域；其中，该方法包括：对语音数据进行识别，得到对应的目标识别文本与目标声纹特征；根据目标声纹特征确定目标用户；基于目标用户对应的纠错图谱，确定目标识别文本对应的目标信息，纠错图谱中包括：目标识别文本与目标信息的对应关系；获取目标识别文本与目标信息的相似度，若相似度超过预设阈值，则将目标识别文本修改为目标信息。本公开实施例能够对目标用户的语音数据进行修正，有利于提高纠错速度，提高用户的使用体验。

2023-07-22

1.2MB

语音处理方法、装置、电子设备和存储介质.pdf

本公开提供了一种语音处理方法、装置、电子设备和存储介质，涉及计算机技术领域，具体涉及语音技术和深度学习等人工智能技术领域。具体实现方案为：获取原始语音；从原始语音中提取频谱图；获取语音合成模型，其中，语音合成模型包括第一生成子模型和第二生成子模型；调用第一生成子模型对频谱图进行处理，以生成频谱图的谐波结构；以及调用第二生成子模型对谐波结构和频谱图进行处理，以生成目标语音。由此，该方法具有合成音质较好，音色还原度高，发音稳定且计算量小等特点。

2023-07-25

702KB

语音处理方法、装置、电子设备以及介质.pdf

本公开提供了一种语音处理方法，包括：获取目标用户的第一语音数据，其中，第一语音数据的语言类别为第一语言类别，第一语音数据包括目标用户的语音特性；确定用于处理第一语音数据的处理方式，其中，处理方式包括将第一语音数据的语言类别由第一语言类别转换为第二语言类别，处理方式还包括处理第一语音数据时保留语音特性；以及基于处理方式处理第一语音数据，得到第二语音数据，其中，第二语音数据的语言类别为第二语言类别，第二语音数据包括语音特性。本公开还提供了一种语音处理装置、一种电子设备以及一种计算机可读存储介质。

2023-11-14

663KB

语音处理方法及装置、存储介质、电子设备.pdf

本公开属于语音克隆技术领域，涉及一种语音处理方法及装置、存储介质、电子设备。该方法包括：对目标视频进行分离得到音频轨道和视频轨道，并采集被模仿者的第一语音；提取第一语音的第一语音特征，并将第一语音特征和音频轨道中的第二语音输入音色转换模型，以将音频轨道中第二语音的音色从第二音色转换至第一音色；其中，第一音色与第一语音对应，第二音色与第二语音对应；将音色转换后的音频轨道与视频轨道合并，以得到具有被模仿者音色的目标视频。在本公开中，通过识别第二语音的音素，实现了任意第二语音的音色的转换。

2023-07-25

1.2MB