语音处理方法和装置-豆柴文库

语音处理方法和装置.pdf

2023-06-14

10金币

704KB

17页

邻家****文章

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共17页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN112669855A(43)申请公布日2021.04.16(21)申请号202011492877.9(22)申请日2020.12.17(71)申请人北京沃东天骏信息技术有限公司地址100176北京市大兴区经济技术开发区科创十一街18号院2号楼4层A402室申请人北京京东世纪贸易有限公司(72)发明人丁国宏蔡玉玉青飞(74)专利代理机构北京英赛嘉华知识产权代理有限责任公司11204代理人王达佐马晓亚(51)Int.Cl.G10L17/18(2013.01)G10L17/06(2013.01)G10L17/02(2013.01)G10L21/0308(2013.01)权利要求书2页说明书9页附图5页(54)发明名称语音处理方法和装置(57)摘要本申请公开了语音处理方法和装置，涉及人工智能技术领域，进一步涉及语音处理技术领域。具体实施方式包括：将目标语音分成多个第一片段；将多个第一片段分别输入训练后的神经网络，生成多个第一片段分别对应的特征向量，得到多个特征向量；由多个特征向量，确定出至少两个特征向量作为说话人向量；对于多个说话人向量中的说话人向量，获取该说话人向量与各个特征向量的相关度，并根据相关度对多个第一片段进行迭代聚类，生成不同类别的第一片段之间的分割点；根据分割点，将目标语音或多个第一片段分成至少两个第二片段，其中，每个第二片段对应一个说话人。本申请通过迭代聚类的方式使得不同说话人的特征向量逐渐收敛，实现准确性更高的说话人分离。CN112669855ACN112669855A权利要求书1/2页1.一种语音处理方法，所述方法包括：将目标语音分成多个第一片段；将所述多个第一片段分别输入训练后的神经网络，生成所述多个第一片段分别对应的特征向量，得到多个特征向量；由所述多个特征向量，确定出至少两个特征向量作为说话人向量；对于所述多个说话人向量中的说话人向量，获取该说话人向量与各个特征向量的相关度，并根据所述相关度对所述多个第一片段进行迭代聚类，生成不同类别的第一片段之间的分割点；根据所述分割点，将所述目标语音或所述多个第一片段分成至少两个第二片段，其中，每个第二片段对应一个说话人。2.根据权利要求1所述的方法，其中，所述目标语音存在对应的说话人的数量；所述由所述多个特征向量，确定至少两个特征向量作为说话人向量，包括：对多个所述特征向量进行分类，得到所述数量个类别，确定所述数量个类别分别对应的说话人向量。3.根据权利要求2所述的方法，其中，所述根据所述相关度对所述多个第一片段进行迭代聚类，生成不同类别的第一片段之间的分割点，包括：获取所述数量个类别的说话人向量分别与所述各个特征向量的相关度，根据所述相关度，对所述多个第一片段进行聚类，以对所述数量个类别进行数量减少，生成不同类别的第一片段之间的分割点。4.根据权利要求1所述的方法，其中，所述将目标语音分成多个第一片段，包括：采用说话人变更检测器确定所述目标语音中的说话人跳转点，根据所述说话人跳转点，将所述目标语音分成所述多个第一片段。5.根据权利要求4所述的方法，其中，所述采用说话人变更检测器确定所述目标语音中的说话人跳转点，根据所述说话人跳转点，将所述目标语音分成所述多个第一片段，包括：通过静音检测技术将所述目标语音分成多个基础片段；采用所述说话人变更检测器确定所述多个基础片段分别对应的说话人跳转点；根据所述说话人跳转点，将所述多个基础片段分成所述多个第一片段。6.一种语音处理装置，所述装置包括：第一切分单元，被配置成将目标语音分成多个第一片段；处理单元，被配置成将所述多个第一片段分别输入训练后的神经网络，生成所述多个第一片段分别对应的特征向量，得到多个特征向量；确定单元，被配置成由所述多个特征向量，确定出至少两个特征向量作为说话人向量；聚类单元，被配置成对于所述多个说话人向量中的说话人向量，获取该说话人向量与各个特征向量的相关度，并根据所述相关度对所述多个第一片段进行迭代聚类，生成不同类别的第一片段之间的分割点；第二切分单元，被配置成根据所述分割点，将所述目标语音或所述多个第一片段分成至少两个第二片段，其中，每个第二片段对应一个说话人。7.根据权利要求6所述的装置，其中，所述目标语音存在对应的说话人的数量；所述确定单元，进一步被配置成对多个所述特征向量进行分类，得到所述数量个类别，2CN112669855A权利要求书2/2页确定所述数量个类别分别对应的说话人向量。8.根据权利要求7所述的装置，其中，所述聚类单元，进一步被配置成获取所述数量个类别的说话人向量分别与所述各个特征向量的相关度，根据所述相关度，对所述多个第一片段进行聚类，以对所述数量个类别进行数量减少，生成不同类别的第一片段之间的分割点。9.根

相关资料

语音处理装置、语音处理方法和程序.pdf

本发明提供了一种语音处理装置、语音处理方法和程序，所述语音处理装置包括：数据获取单元，用于获取定义音乐进行中一个或更多个时间点或者一个或更多个时间段的特性的音乐进行数据；确定单元，用于通过采用数据获取单元获取的音乐进行数据确定要在播放音乐期间输出语音的输出时间点；以及音频输出单元，用于在播放音乐期间在确定单元确定的输出时间点输出语音。

2024-01-04

1.1MB

语音处理方法和装置.pdf

本申请公开了语音处理方法和装置，涉及人工智能技术领域，进一步涉及语音处理技术领域。具体实施方式包括：将目标语音分成多个第一片段；将多个第一片段分别输入训练后的神经网络，生成多个第一片段分别对应的特征向量，得到多个特征向量；由多个特征向量，确定出至少两个特征向量作为说话人向量；对于多个说话人向量中的说话人向量，获取该说话人向量与各个特征向量的相关度，并根据相关度对多个第一片段进行迭代聚类，生成不同类别的第一片段之间的分割点；根据分割点，将目标语音或多个第一片段分成至少两个第二片段，其中，每个第二片段对应一个

2023-06-14

704KB

一种语音处理方法、装置和用于语音处理的装置.pdf

本发明实施例提供了一种语音处理方法、装置和用于语音处理的装置,应用于终端设备，所述终端设备设置有至少两个麦克风。其中的方法包括：将所述至少两个麦克风接收到的信号进行求和处理，得到第一路信号，以及将所述至少两个麦克风接收到的信号进行求差处理，得到第二路信号；将所述第一路信号和所述第二路信号进行盲分离处理，得到语音信号和噪音信号；基于所述噪音信号，将所述语音信号进行自适应噪音消除处理，得到目标语音信号。本发明实施例可以优化语音去噪效果，进而在环境复杂多变、噪音或者干扰较大的情况下，提高终端设备的语音识别准确率

2023-06-27

661KB

语音数据的处理方法和装置.pdf

本发明实施例提供一种语音数据的处理方法和装置。所述处理方法包括：获取待处理的语音数据；从所述待处理的语音数据中提取相应的声学特征信息；根据所述声学特征信息查找预先存储的基准声学特征曲谱表，获取所述待处理的语音数据对应的曲谱。采用本发明实施例，可以快速获取语音数据的曲谱，增强曲谱的传播性，提高用户体验。

2023-12-07

742KB

语音处理方法、装置以及用于语音处理的装置.pdf

本发明提供了一种语音处理方法及装置，在对语音文件进行录制或播放的情况下，响应于对电子设备中目标区域的敲击操作，在语音文件的时间轴中确定目标时刻；对时间轴中的目标时刻进行标记；在语音文件中，将与目标时刻相邻的至少一个语音片段转换为目标文本，并对目标文本进行智能整理，本发明可以对电子设备的目标位置进行敲击操作来快速便捷的完成标记；提高了标记效率，降低了标记繁琐程度。另外，作为重要内容的目标文本，在用户进行目标时刻标记的同时就会自动生成，并不需要用户重复将语音文件在目标时刻进行播放，也不需要用户人工记录生成重要

2023-07-24

688KB