预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共25页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN111147871A(43)申请公布日2020.05.12(21)申请号201911229100.0(22)申请日2019.12.04(71)申请人北京达佳互联信息技术有限公司地址100085北京市海淀区上地西路6号1幢1层101D1-7(72)发明人张大威(74)专利代理机构北京先进知识产权代理有限公司11648代理人邵劲草(51)Int.Cl.H04N21/2187(2011.01)H04N21/233(2011.01)H04N21/439(2011.01)G10L25/30(2013.01)G10L25/24(2013.01)权利要求书3页说明书11页附图10页(54)发明名称直播间歌唱识别方法、装置及服务器、存储介质(57)摘要本公开关于一种直播间歌唱识别方法、装置及服务器、存储介质,涉及直播领域。首先通过经音乐声分类模型对声音特征向量序列进行分类,并得到分类结果;如果分类结果表征声音特征向量序列包括音乐声特征向量,则从直播流中提取出包括音乐声特征向量的音频流;然后提取出包括音乐声特征向量的音频流中的人声特征向量;最后经清唱声分类模型对人声特征向量进行分类,并得到分类结果。通过上述的方式分析得出分别通过先通过音乐声分类模型对声音特征向量序列进行分类、再经过清唱声分类模型对人声特征向量进行分类,从而得到的分类结果更加精确,能够更准的确定当前的直播间的主播是否正在进行歌唱表演。CN111147871ACN111147871A权利要求书1/3页1.一种直播间歌唱识别方法,其特征在于,所述方法包括:获得目标应用程序的直播间处于播放状态的直播流,并对所述直播流进行处理,以得到所述直播流的声音特征向量序列;经音乐声分类模型对所述声音特征向量序列进行分类,并得到分类结果,其中,所述音乐声分类模型的目标函数用于将所述声音特征向量序列是否包括音乐声特征向量作为分类基准进行分类;如果所述分类结果表征所述声音特征向量序列中包括音乐声特征向量,则从所述直播流中提取出包括音乐声特征向量的音频流;提取出所述包括音乐声特征向量的音频流中的人声特征向量;经清唱声分类模型对所述人声特征向量进行分类,并得到分类结果,其中,所述清唱声分类模型的目标函数用于将所述人声特征向量是否包括清唱声特征向量作为分类基准进行分类。2.根据权利要求1所述的方法,其特征在于,所述音乐声分类模型为长短期记忆分类模型,所述长短期记忆分类模型包括依次连接的两组依次相连的长短期记忆网络层和随机失活处理层、特征连接层以及全连接层,每个所述长短期记忆网络层的输出与所述特征连接层的输入连接,所述经所述音乐声分类模型对所述声音特征向量序列进行分类,并得到分类结果包括:经所述长短期记忆网络层根据声音特征向量序列中的音频帧之间的上下文依赖关系,生成包含每个时间步的音频帧的特征的声音特征向量序列;再经随机失活处理层对生成的声音特征向量序列中的部分特征值进行随机归零处理,输出处理后的声音特征向量序列至下一组依次相连的长短期记忆网络层和随机失活处理层,以依次执行与第一组依次相连的长短期记忆网络层和随机失活处理层对上述的声音特征向量序列的相同处理;经所述特征连接层将每个所述长短期记忆网络层输出的声音特征向量序列连接生成待分类特征向量;经全连接层对所述待分类特征向量进行分类,并得到分类结果。3.根据权利要求1所述的方法,其特征在于,所述音乐声分类模型为长短期记忆分类模型,所述长短期记忆分类模型包括依次连接的两组依次相连的长短期记忆网络层和随机失活处理层、特征连接层以及全连接层,每个所述长短期记忆网络层的输出与所述特征连接层的输入连接,所述经所述清唱声分类模型对所述人声特征向量进行分类,并得到分类结果包括:经所述长短期记忆网络层根据人声特征向量中的音频帧之间的上下文依赖关系,生成包含每个时间步的音频帧的特征的人声特征向量;再经随机失活处理层对生成的人声特征向量中的部分特征值进行随机归零处理,输出处理后的人声特征向量至下一组依次相连的长短期记忆网络层和随机失活处理层,以依次执行与第一组依次相连的长短期记忆网络层和随机失活处理层对上述的人声特征向量的相同处理;经所述特征连接层将每个所述长短期记忆网络层输出的人声特征向量连接生成待分类特征向量;2CN111147871A权利要求书2/3页经全连接层对所述待分类特征向量进行分类,并得到分类结果。4.根据权利要求1所述的方法,其特征在于,所述获得目标应用程序的直播间处于播放状态的直播流,并对所述直播流进行处理,以得到所述直播流的声音特征向量序列包括:获得目标应用程序的直播间处于播放状态的直播流,经解码器对所述直播流进行音视频分离得到音频流;提取所述音频流中的声音特征向量序列。5.根据权利要