预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共24页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN114299964A(43)申请公布日2022.04.08(21)申请号202111591448.1(22)申请日2021.12.23(71)申请人北京达佳互联信息技术有限公司地址100085北京市海淀区上地西路6号1幢1层101D1-7(72)发明人曾夕娟(74)专利代理机构北京铭硕知识产权代理有限公司11286代理人王兆赓苏银虹(51)Int.Cl.G10L17/04(2013.01)G10L17/06(2013.01)权利要求书2页说明书17页附图4页(54)发明名称声线识别模型的训练方法和装置、声线识别方法和装置(57)摘要本公开关于一种声线识别模型的训练方法和装置、声线识别方法和装置。其中,声线识别模型的训练方法包括:获取多个语音样本,每个语音样本携带有语音输出对象标签;对多个语音样本进行聚类处理,得到多个语音样本集合;其中,携带有同一语音输出对象标签的语音样本归入的语音样本集合相同;从每个语音样本集合中抽取预设数量个抽样语音样本,获取预设数量个抽样语音样本的第一声线类型标签;根据预设数量个第一声线类型标签中满足预设条件的目标第一声线类型标签,得到相应语音样本集合对应的第二声线类型标签;根据每个语音样本集合中的语音样本及对应的第二声线类型标签训练预设机器学习模块,得到声线识别模型。CN114299964ACN114299964A权利要求书1/2页1.一种声线识别模型的训练方法,其特征在于,包括:获取多个语音样本,每个所述语音样本携带有语音输出对象标签;对所述多个语音样本进行聚类处理,得到多个语音样本集合;其中,携带有同一所述语音输出对象标签的语音样本归入的所述语音样本集合相同;从每个所述语音样本集合中抽取预设数量个抽样语音样本,获取所述预设数量个抽样语音样本的第一声线类型标签;根据所述预设数量个第一声线类型标签中满足预设条件的目标第一声线类型标签,得到相应所述语音样本集合对应的第二声线类型标签;根据每个所述语音样本集合中的语音样本及对应的第二声线类型标签训练预设机器学习模块,得到声线识别模型。2.如权利要求1所述的训练方法,其特征在于,所述对所述多个语音样本进行聚类处理,得到多个语音样本集合,包括:对每个所述语音样本进行切割处理,得到多个语音样本片段;提取每个所述语音样本对应的所述多个语音样本片段的嵌入特征,并计算提取的多个嵌入特征的平均值,作为相应的所述语音样本的嵌入特征;对所述多个语音样本的嵌入特征进行聚类处理,得到所述多个语音样本集合。3.如权利要求2所述的训练方法,其特征在于,所述对所述多个语音样本的嵌入特征进行聚类处理,得到所述多个语音样本集合,包括:基于预设聚类算法将所述多个语音样本的嵌入特征分为多个聚类;响应于确定同一所述语音输出对象标签对应的嵌入特征中,有超过第一比例的嵌入特征属于同一个聚类,将携带有对应的所述语音输出对象标签的全部所述语音样本归入一个与所述同一个聚类相对应的所述语音样本集合,得到所述多个语音样本集合,或响应于确定同一所述语音输出对象标签对应的嵌入特征中,有超过第一比例的嵌入特征属于同一个聚类,将所述超过第一比例的嵌入特征对应的所述语音样本归入一个所述语音样本集合,得到所述多个语音样本集合。4.如权利要求1所述的训练方法,其特征在于,所述对所述多个语音样本进行聚类处理,得到多个语音样本集合,包括:将所述语音样本分为多个组;对每组所述语音样本分别进行聚类处理,得到每组对应的多个所述语音样本集合;对不同组之间存在共有语音输出对象标签的所述语音样本集合进行合并处理,得到所述多个语音样本集合。5.一种声线识别方法,其特征在于,包括:获取待识别语音;提取所述待识别语音的声学特征;将所述声学特征输入声线识别模型,得到所述待识别语音的预估声线类型,其中,所述声线识别模型是使用如权利要求1到4中的任一权利要求所述的训练方法训练得到的。6.一种声线识别模型的训练装置,其特征在于,包括:获取单元,被配置为执行获取多个语音样本,每个所述语音样本携带有语音输出对象2CN114299964A权利要求书2/2页标签;聚类单元,被配置为执行对所述多个语音样本进行聚类处理,得到多个语音样本集合;其中,携带有同一所述语音输出对象标签的语音样本归入的所述语音样本集合相同;标注单元,被配置为执行从每个所述语音样本集合中抽取预设数量个抽样语音样本,获取所述预设数量个抽样语音样本的第一声线类型标签;确定单元,被配置为执行根据所述预设数量个第一声线类型标签中满足预设条件的目标第一声线类型标签,得到相应所述语音样本集合对应的第二声线类型标签;训练单元,被配置为执行根据每个所述语音样本集合中的语音样本及对应的第二声线类型标签训练预设机器学习模块,得到声线识