语音生成方法、语音生成装置和电子设备-豆柴文库

语音生成方法、语音生成装置和电子设备.pdf

2023-07-22

10金币

745KB

26页

青团****青吖

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共26页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN114979050A(43)申请公布日2022.08.30(21)申请号202210523583.0H04L51/52(2022.01)(22)申请日2022.05.13(71)申请人维沃移动通信(深圳)有限公司地址518101广东省深圳市宝安区新安街道海旺社区N12区新湖路99号壹方中心北区三期A塔2301-09、2401-09、2501-09、2601-09(72)发明人甘明润(74)专利代理机构北京路浩知识产权代理有限公司11002专利代理师郑朝然(51)Int.Cl.H04L51/046(2022.01)H04L51/10(2022.01)H04L51/18(2022.01)权利要求书2页说明书15页附图8页(54)发明名称语音生成方法、语音生成装置和电子设备(57)摘要本申请公开了一种语音生成方法、语音生成装置和电子设备，属于通信技术领域。该语音生成方法，包括：获取第一目标对象，所述第一目标对象包括目标控件和目标标识中的至少一项；获取与所述第一目标对象关联的语音；将与所述第一目标对象关联的多段语音进行拼接，生成目标语音。CN114979050ACN114979050A权利要求书1/2页1.一种语音生成方法，其特征在于，包括：获取第一目标对象，所述第一目标对象包括目标控件和目标标识中的至少一项；获取与所述第一目标对象关联的语音；将与所述第一目标对象关联的多段语音进行拼接，生成目标语音。2.根据权利要求1所述的语音生成方法，其特征在于，在所述生成目标语音之后，所述方法还包括：显示与所述目标语音对应的第一目标控件，所述第一目标控件包括多个用户标识，与所述第一目标对象关联的所述多段语音各对应一个所述用户标识。3.根据权利要求2所述的语音生成方法，其特征在于，在所述显示与所述目标语音对应的第一目标控件之后，所述方法还包括：接收用户对所述多个用户标识中的目标用户标识的第二输入；响应于所述第二输入，编辑或播放与所述目标用户标识对应的所述语音。4.根据权利要求1‑3中任一项所述的语音生成方法，其特征在于，所述获取第一目标对象之前，所述方法还包括：接收用户对第一语音的第一输入；响应于所述第一输入，生成第一目标对象，并向至少一个第二电子设备发送包括所述第一目标对象的第一消息，且将所述第一语音与所述第一目标对象关联；所述获取与所述第一目标对象关联的语音，包括：接收所述至少一个第二电子设备基于所述第一消息发送的第二消息，并从所述第二消息中获取与所述第一目标对象关联的第二语音。5.一种语音生成装置，其特征在于，包括：第一获取模块，用于获取第一目标对象，所述第一目标对象包括目标控件和目标标识中的至少一项；第二获取模块，用于获取与所述第一目标对象关联的语音；第一处理模块，用于将与所述第一目标对象关联的多段语音进行拼接，生成目标语音。6.根据权利要求5所述的语音生成装置，其特征在于，所述装置还包括：第一显示模块，用于在所述生成目标语音之后，显示与所述目标语音对应的第一目标控件，所述第一目标控件包括多个用户标识，与所述第一目标对象关联的所述多段语音各对应一个所述用户标识。7.根据权利要求6所述的语音生成装置，其特征在于，所述装置还包括：第二接收模块，用于在所述显示与所述目标语音对应的第一目标控件之后，接收用户对所述多个用户标识中的目标用户标识的第二输入；第二处理模块，用于响应于所述第二输入，编辑或播放与所述目标用户标识对应的所述语音。8.根据权利要求5‑7中任一项所述的语音生成装置，其特征在于，所述装置还包括：第一接收模块，用于在所述获取第一目标对象之前，接收用户对第一语音的第一输入；第三处理模块，用于响应于所述第一输入，生成第一目标对象，并向至少一个第二电子设备发送包括所述第一目标对象的第一消息，且将所述第一语音与所述第一目标对象关联；2CN114979050A权利要求书2/2页所述第二获取模块，还用于接收所述至少一个第二电子设备基于所述第一消息发送的第二消息，并从所述第二消息中获取与所述第一目标对象关联的第二语音。9.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如权利要求1‑4中任一项所述的语音生成方法的步骤。10.一种可读存储介质，其特征在于，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如权利要求1‑4中任一项所述的语音生成方法的步骤。3CN114979050A说明书1/15页语音生成方法、语音生成装置和电子设备技术领域[0001]本申请属于通信技术领域，具体涉及一种语音生成方法、语音生成装置和电子设备。背景技术[0002]在工作生活中，用户使用电子设备的过程中，通过语音消息

相关资料

语音生成方法、语音生成装置和电子设备.pdf

本申请公开了一种语音生成方法、语音生成装置和电子设备，属于通信技术领域。该语音生成方法，包括：获取第一目标对象，所述第一目标对象包括目标控件和目标标识中的至少一项；获取与所述第一目标对象关联的语音；将与所述第一目标对象关联的多段语音进行拼接，生成目标语音。

2023-07-22

745KB

语音生成方法、装置、电子设备.pdf

本公开提供一种语音生成方法、装置及电子设备，包括：根据目标视频的视频数据，确定视觉特征，并根据目标视频的音频数据，确定语音特征与语音特征的隐变量特征，根据视觉特征、语音特征、隐变量特征，确定目标视频的增益特征，并根据视觉特征、增益特征，确定目标视频的合成语音。本公开可以提高合成语音的生动性、自然性，以达到提升语音合成质量的效果。

2023-07-24

519KB

语音增强模型生成方法和装置、语音增强方法和装置.pdf

本申请公开了一种语音增强模型生成方法和装置，涉及语音技术、计算机视觉、深度学习技术领域。该方法的一个具体实施方式包括：获取样本语音信号的样本时频域谱图集，样本时频域谱图集包括至少一个样本时频域谱图；获取预先建立的深度神经网络，深度神经网络包括：平滑模块、网络模块，平滑模块用于对输入的图像进行平滑处理，得到平滑特征图；执行以下训练步骤：从样本时频域谱图集中选取样本时频域谱图，并将选取的样本时频域谱图以及与选取的样本时频域谱图对应的平滑特征图同时输入网络模块；响应于确定深度神经网络满足训练完成条件，则将深度神

2023-06-14

755KB

语音合成模型的生成方法、装置和电子设备.pdf

本申请实施例提供了一种语音合成模型的生成方法、装置和电子设备，方法包括：能够获取多个文本样本；对文本样本进行训练，获得第一语音合成模型，其中，第一语音合成模型包括多个卷积处理模块，每个卷积处理模块包括多个并行的卷积层；在i取1至n中的每一个整数时，确定与第i个卷积处理模块包括的多个并行卷积层等价的一个卷积层，以作为第i个目标卷积层；将第一语音合成模型的第i个卷积处理模块包括的多个并行卷积层，替换为第i个目标卷积层；当将第n个卷积处理模块包括的多个并行卷积层，替换为第n个目标卷积层时，得到第二语音合成模型。

2023-07-24

776KB

语音生成方法及装置、存储介质、电子设备.pdf

本公开属于语音处理技术领域，涉及一种语音生成方法及装置、存储介质、电子设备。该方法包括：获取待处理语音的语音特征向量，并将语音特征向量输入至语音生成模型得到语言单元向量；获取文本特征向量，并根据文本特征向量和语言单元向量确定待处理特征向量；将待处理特征向量输入至序列到序列模型中得到声学特征向量，并将声学特征向量输入至声码器得到与待处理语音或文本特征向量对应的目标语音。本公开接收语音和文本作为输入，将语音合成任务和语音音色转换任务融合起来，提升了语音合成任务和语音音色转换任务的性能，提供了多种音色克隆的策略

2023-07-21

1.2MB