一种语音数据处理方法、装置及设备-豆柴文库

一种语音数据处理方法、装置及设备.pdf

2023-05-25

10金币

967KB

29页

努力****承悦

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共29页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113066485A(43)申请公布日2021.07.02(21)申请号202110319220.0(22)申请日2021.03.25(71)申请人支付宝（杭州）信息技术有限公司地址310000浙江省杭州市西湖区西溪路556号8层B段801-11(72)发明人刘杰王维强(74)专利代理机构北京国昊天诚知识产权代理有限公司11315代理人朱文杰(51)Int.Cl.G10L15/06(2013.01)G10L19/16(2013.01)权利要求书4页说明书19页附图5页(54)发明名称一种语音数据处理方法、装置及设备(57)摘要本公开实施例提供了一种语音数据处理方法、装置及设备，包括：获取待处理的原始语音数据；将原始语音数据输入至预设语音编码模型中，以对原始语音数据进行语音编码处理，得到目标语音数据，其中，预设语音编码模型是基于预先获取的样本语音数据，以及预先训练的语音识别模型进行训练而得到；输出目标语音数据，其中，目标语音数据与原始语音数据的相似度大于第一预设阈值，将原始语音数据和目标语音数据分别输入至语音识别模型后输出的第一识别结果与第二识别结果的相似度小于第二预设阈值。CN113066485ACN113066485A权利要求书1/4页1.一种语音数据处理方法，包括：获取待处理的原始语音数据；将所述原始语音数据输入至预设语音编码模型中，以对所述原始语音数据进行语音编码处理，得到目标语音数据，其中，所述预设语音编码模型是基于预先获取的样本语音数据，以及预先训练的语音识别模型进行训练而得到；输出所述目标语音数据，其中，所述目标语音数据与所述原始语音数据的相似度大于第一预设阈值，将所述原始语音数据和所述目标语音数据分别输入至所述语音识别模型后输出的第一识别结果与第二识别结果的相似度小于第二预设阈值。2.根据权利要求1所述的方法，在所述获取待处理的原始语音数据之前，所述方法还包括：向服务器发送预设语音编码模型获取请求；接收所述服务器发送的所述预设语音编码模型。3.根据权利要求1所述的方法，在所述获取待处理的原始语音数据之前，所述方法还包括：获取用于训练所述预设语音编码模型的样本语音数据；将所述样本语音数据输入至预设语音编码模型的初始架构中，以对所述样本语音数据进行语音编码处理，得到样本编码语音数据；分别将所述样本语音数据、所述样本编码语音数据输入至预先训练的语音识别模型中，以对所述样本语音数据、所述样本编码语音数据进行语音识别处理，得到第一样本识别结果和第二样本识别结果；计算所述样本语音数据与所述样本编码语音数据之间的第一相似度，以及，计算所述第一样本识别结果与所述第二样本识别结果之间的第二相似度；基于所述第一相似度和所述第二相似度，迭代调整所述初始架构的模型参数得到所述预设语音编码模型。4.根据权利要求3所述的方法，所述基于所述第一相似度和所述第二相似度，迭代调整所述初始架构的模型参数得到所述预设语音编码模型，包括：基于所述第一相似度越大，所述初始架构的损失越小，所述第二相似度越大，所述初始架构的损失越大，并以减小所述初始架构的损失为目标，不断迭代调整所述初始架构的模型参数直到所述初始架构的损失收敛，将与所述初始架构的损失收敛时所对应的初始架构确定为所述预设语音编码模型。5.根据权利要求3所述的方法，所述计算所述第一样本识别结果与所述第二样本识别结果之间的第二相似度，包括：计算所述第一样本识别结果中所包含的每个元素，与该元素所对应的所述第二样本识别结果所对应的元素之间的文本编辑距离，将所述文本编辑距离确定为所述第一样本识别结果与所述第二样本识别结果之间的第二相似度。6.根据权利要求4所述的方法，所述方法还包括：将所述样本编码语音数据输入到预先训练的重构网络模型中，以对所述样本编码语音数据进行还原处理，得到编码还原语音数据；计算所述样本语音数据与所述编码还原语音数据之间的第三相似度；2CN113066485A权利要求书2/4页基于所述第一相似度、所述第二相似度、所述第三相似度，迭代调整所述初始架构的模型参数得到所述预设语音编码模型，其中，所述第三相似度越大，所述初始架构的损失越大。7.根据权利要求3‑6任一所述的方法，所述方法还包括：向预设语音测试接口发送语音测试数据，其中，所述语音测试数据为经过所述预设语音编码模型进行编码处理后输出的语音数据；接收通过所述预设语音测试接口返回的与所述语音测试数据对应的测试文本信息；将所述语音测试数据输入至预先训练的语音识别模型中，以对所述语音测试数据进行语音识别处理，得到目标文本信息；计算所述测试文本信息与所述目标文本信息之间的第四相似度；在确定所述第四相似度满足预设条件的情况下，迭代调整所述初始架构的模型参数得到更新后

相关资料

一种语音数据处理方法、装置及设备.pdf

本公开实施例提供了一种语音数据处理方法、装置及设备，包括：获取待处理的原始语音数据；将原始语音数据输入至预设语音编码模型中，以对原始语音数据进行语音编码处理，得到目标语音数据，其中，预设语音编码模型是基于预先获取的样本语音数据，以及预先训练的语音识别模型进行训练而得到；输出目标语音数据，其中，目标语音数据与原始语音数据的相似度大于第一预设阈值，将原始语音数据和目标语音数据分别输入至语音识别模型后输出的第一识别结果与第二识别结果的相似度小于第二预设阈值。

2023-05-25

967KB

一种语音数据处理方法、装置、设备及介质.pdf

本发明实施例公开了一种语音数据处理方法、装置、设备及介质，用以减少所需的目标发音人的语音训练数据，降低语音合成的工作量、周期和成本。所述语音数据处理方法，包括：获取多个发音人的语音训练数据和目标发音人的语音训练数据，所述目标发音人的语音训练数据的数量远小于所述多个发音人的语音训练数据总数量；基于所述多个发音人的语音训练数据和所述目标发音人的语音训练数据，训练生成用于合成所述目标发音人语音的初级语音合成模型；根据预先配置的文本语料，利用所述初级语音合成模型，得到所述目标发音人用于语音合成的语料数据。

2024-01-04

414KB

一种语音数据处理装置、方法及终端.pdf

本发明实施例公开了一种语音数据处理装置，包括：基带处理模块、加/解密接口模块以及加/解密模块，加/解密模块挂载于基带处理模块；其中，基带处理模块，用于接收来自上一级处理模块的待处理语音数据；调用加/解密接口模块；通过加/解密接口模块将待处理语音数据发送至加/解密模块；还用于接收来自加/解密模块的处理后的语音数据；向下一级处理模块发送处理后的语音数据；加/解密模块，用于接收来自基带处理模块的待处理语音数据；采用预先存储的密钥对待处理语音数据进行处理，获得处理后的语音数据；通过加/解密接口模块向基带处理模块发

2023-06-10

678KB

语音数据处理方法、装置、设备及存储介质.pdf

本申请实施例公开了一种语音数据处理方法、装置、设备及存储介质，涉及人工智能中的机器学习技术，其中，方法包括：获取与第一网络状态关联的第一目标冗余参数，以及该第一目标冗余参数的长期奖励值，根据该第一目标冗余参数对待传输的第一原始语音数据进行冗余编码，得到第二语音数据包，通过该目标网络将该第二语音数据包发送至该接收设备；获取该接收设备对该第二语音数据包进行解析得到的该目标网络的第二网络状态，以及对该第二语音数据包中的异常数据进行恢复处理所生成的恢复状态信息；根据该第二网络状态、该恢复状态信息对该第一目标冗余参

2023-07-25

847KB

一种语音数据处理方法、装置、电子设备和存储介质.pdf

本发明公开了一种语音数据处理方法，所述方法包括：识别第一语音数据，确定所述第一语音数据的语义；选择与所述语义相适配的声学特征；利用所述声学特征，将所述第一语音数据转换为第二语音数据。本发明公开了一种语音数据处理装置、电子设备和存储介质。

2023-12-05

532KB