预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共16页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN114974258A(43)申请公布日2022.08.30(21)申请号202210891372.2(22)申请日2022.07.27(71)申请人深圳市北科瑞声科技股份有限公司地址518036广东省深圳市福田区梅林街道梅都社区中康路136号深圳新一代产业园3栋1201-6(72)发明人黄石磊程刚陈诚廖晨熊霞(74)专利代理机构深圳智汇远见知识产权代理有限公司44481专利代理师蒋学超(51)Int.Cl.G10L17/02(2013.01)G10L17/04(2013.01)G10L25/51(2013.01)G06K9/62(2022.01)权利要求书2页说明书9页附图4页(54)发明名称基于语音处理的说话人分离方法、装置、设备及存储介质(57)摘要本申请涉及一种基于语音处理的说话人分离方法、装置、设备及存储介质。所述方法包括:根据待处理语音的说话人变化点标记及预设的时间尺度对待处理语音进行分割,得到至少一个语音片段集,生成每个语音片段集的语音特征,基于预先构建的模型对每个语音片段集的语音特征执行特征提取和特征融合操作,得到每个语音片段集的目标特征矩阵,计算每个目标特征矩阵的相似度矩阵,基于谱聚类算法对每个相似度特征矩阵进行聚类操作得到每个语音片段集的聚类结果,对每个语音片段集的聚类结果执行投票操作,生成待处理语音的目标结果。本申请可以准确将待处理语音中说话人信息分离出来,得到待处理语音的说话人起始时间点、说话时长及/或说话人标签信息。CN114974258ACN114974258A权利要求书1/2页1.一种基于语音处理的说话人分离方法,其特征在于,所述方法包括:获取待处理语音,根据所述待处理语音的说话人变化点标记及预设的时间尺度对所述待处理语音进行分割,得到至少一个语音片段集;分别生成每个语音片段集的语音特征,基于预先构建的模型分别对每个语音片段集的语音特征执行特征提取和特征融合操作,得到每个语音片段集的目标特征矩阵;计算每个目标特征矩阵的相似度矩阵,基于谱聚类算法对每个相似度特征矩阵进行聚类操作得到每个语音片段集的聚类结果;对每个语音片段集的聚类结果执行投票操作,生成所述待处理语音的目标结果,所述目标结果包括所述待处理语音的说话人起始时间点、说话时长及/或说话人标签信息。2.如权利要求1所述的基于语音处理的说话人分离方法,其特征在于,所述根据所述待处理语音的说话人变化点标记及预设的时间尺度对所述待处理语音进行分割,得到至少一个语音片段集,包括:利用语音端点检测算法检测出所述待处理语音中每个语音片段的说话人变化点标记;基于所述时间点标记对所述待处理语音进行分割得到第一语音片段集;根据预设的时间尺度对所述第一语音片段集进行均匀分割,得到第二语音片段集。3.如权利要求2所述的基于语音处理的说话人分离方法,其特征在于,所述根据预设的时间尺度对所述第一语音片段集进行均匀分割,得到第二语音片段集,包括:采用多个时间尺度分别对所述第一语音片段集中的每个语音片段进行分割,得到每个语音片段对应的多个子语音段;汇总每个语音片段对应的多个子语音段,得到所述第二语音片段集。4.如权利要求1所述的基于语音处理的说话人分离方法,其特征在于,所述基于预先构建的模型分别对每个语音片段集的语音特征执行特征提取和特征融合操作,得到每个语音片段集的目标特征矩阵,包括:分别利用所述模型的多层特征提取网络,对每个语音片段集的语音特征执行特征提取操作,得到每个语音片段集的多个初始特征矩阵;利用所述模型的特征融合网络分别对每个语音片段集的多个初始特征矩阵执行融合操作,得到每个语音片段集的目标特征矩阵。5.如权利要求4所述的基于语音处理的说话人分离方法,其特征在于,所述分别利用所述模型的多层特征提取网络,对每个语音片段集的语音特征执行特征提取操作,得到每个语音片段集的多个初始特征矩阵,包括:分别将每个语音片段集的语音特征输入所述模型的第一层特征提取网络,得到每个语音片段集的第一特征矩阵;将每个语音片段集的第一特征矩阵输入所述模型的第二层特征提取网络,得到每个语音片段集的第二特征矩阵;将每个语音片段集的第二特征矩阵输入所述模型的第三层特征提取网络,得到每个语音片段集的第三特征矩阵;将每个语音片段集的第三特征矩阵输入所述模型的第四层特征提取网络,得到每个语音片段集的第四特征矩阵;将每个语音片段集的第四特征矩阵输入所述模型的第五层特征提取网络,得到每个语2CN114974258A权利要求书2/2页音片段集的第五特征矩阵;将每个语音片段集的第一特征矩阵、第二特征矩阵、第三特征矩阵、第四特征矩阵及第五特征矩阵,作为该语音片段集的多个初始特征矩阵。6.如权利要求1所述的基于语音处理的说话人分离方法,其特征在于,所述