预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共27页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN108962286A(43)申请公布日2018.12.07(21)申请号201811198963.1(22)申请日2018.10.15(71)申请人腾讯音乐娱乐科技(深圳)有限公司地址518000广东省深圳市前海深港合作区前湾一路1号A栋201室(72)发明人黄安麒李深远董治(74)专利代理机构深圳翼盛智成知识产权事务所(普通合伙)44300代理人黄威(51)Int.Cl.G10L25/90(2013.01)权利要求书3页说明书16页附图7页(54)发明名称音频识别方法、装置及存储介质(57)摘要本发明公开了一种音频识别方法、装置及存储介质,该方法包括:获取音频文件,以及音频文件对应的文本信息,文本信息包括多个字;依次将文本信息中的每个字,设置为目标字,并获取目标字对应的时间信息,时间信息包括目标字的开始时间和目标字的结束时间;根据目标字的开始时间,确定目标字对应的多个开始调整时间,并根据目标字的结束时间,确定目标字对应的多个结束调整时间;根据目标字的多个开始调整时间和目标字的多个结束调整时间,对音频文件进行识别,得到目标字的音高信息。该方案通过在根据目标字对应的开始时间和结束时间,确定多个开始调整时间和多个结束调整时间后,再对音频文件进行识别,提高了音频识别的准确性。CN108962286ACN108962286A权利要求书1/3页1.一种音频识别方法,其特征在于,包括:获取音频文件,以及所述音频文件对应的文本信息,所述文本信息包括多个字;依次将所述文本信息中的每个字,设置为目标字,并获取所述目标字对应的时间信息,所述时间信息包括所述目标字的开始时间和所述目标字的结束时间;根据所述目标字的开始时间,确定所述目标字对应的多个开始调整时间,并根据所述目标字的结束时间,确定所述目标字对应的多个结束调整时间;根据所述目标字的多个开始调整时间和所述目标字的多个结束调整时间,对所述音频文件进行识别,得到所述目标字的音高信息。2.根据权利要求1所述的音频识别方法,其特征在于,所述根据所述目标字的开始时间,确定所述目标字对应的多个开始调整时间,并根据所述目标字的结束时间,确定所述目标字对应的多个结束调整时间步骤,包括:获取预设时间步长和预设最大误差值;根据所述目标字的开始时间、所述预设时间步长和所述预设最大误差值,确定所述目标字对应的多个开始调整时间,并根据所述目标字的结束时间、所述预设时间步长和所述预设最大误差值,确定所述目标字对应的多个结束调整时间。3.根据权利要求1所述的音频识别方法,其特征在于,所述根据所述目标字的多个开始调整时间和所述目标字的多个结束调整时间,对所述音频文件进行识别,得到所述目标字的音高信息步骤,包括:从所述目标字的多个开始调整时间中,选取目标开始调整时间,并从所述目标字的多个结束调整时间中,选取所述目标开始调整时间对应的目标结束调整时间,得到多个目标调整时间组;确定每一组所述目标调整时间组对应的音高概率集合,得到多个音高概率集合,所述音高概率集合包括音高、概率以及二者之间的关联关系;对所述多个音高概率集合进行评分,并选取评分最高的音高概率集合;根据所述评分最高的音高概率集合,生成所述目标字的音高信息。4.根据权利要求3所述的音频识别方法,其特征在于,所述对所述多个音高概率集合进行评分,并选取评分最高的音高概率集合步骤包括:根据所述目标字的开始时间、所述目标字的结束时间、所述目标字的多个目标调整时间组,得到多个误差减益值;依次将所述多个误差减益值,设置为目标误差减益值,并从所述目标误差减益值对应的音高概率集合中,获取第一概率和第二概率,其中所述第一概率为最大概率,所述第二概率为第二大概率;根据所述第一概率、所述第二概率以及所述目标误差减益值,对所述目标误差减益值对应的音高概率集合进行评分。5.根据权利要求3所述的音频识别方法,其特征在于,所述确定每一组所述目标调整时间组对应的音高概率集合,得到多个音高概率集合,所述音高概率集合包括音高、概率以及二者之间的关联关系步骤,包括:根据所述目标调整时间组,对所述音频文件划分多个采样区间;获取每一个采样区间对应的音高,以及所述音高对应的概率;2CN108962286A权利要求书2/3页将所述音高、所述概率以及二者之间的关联关系存储,生成所述目标调整时间组对应的音高概率集合。6.根据权利要求1所述的音频识别方法,其特征在于,所述目标字对应的时间信息还包括所述目标字的持续时长;所述依次将所述文本信息中的每个字,设置为目标字,并获取所述目标字对应的时间信息,所述时间信息包括所述目标字的开始时间和所述目标字的结束时间步骤之后,还包括:确定所述目标字的持续时长是否大于预设持续时长;如果大于预设持续时长,则对所