预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共23页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113707130A(43)申请公布日2021.11.26(21)申请号202110945706.5G10L25/90(2013.01)(22)申请日2021.08.16(71)申请人北京搜狗科技发展有限公司地址100084北京市海淀区中关村东路1号院9号楼搜狐网络大厦9层01房间(72)发明人张弼弘周盼(74)专利代理机构北京润泽恒知识产权代理有限公司11319代理人苏培华(51)Int.Cl.G10L15/02(2006.01)G10L15/05(2013.01)G10L15/06(2013.01)G10L15/22(2006.01)G10L15/26(2006.01)权利要求书3页说明书16页附图3页(54)发明名称一种语音识别方法、装置和用于语音识别的装置(57)摘要本发明实施例提供了一种语音识别方法、装置和用于语音识别的装置。所述方法包括:根据待处理的语音数据中各个说话人的声学特征,对所述语音数据进行切分处理,得到若干子句,每个子句包含一个说话人的语音片段;按照预设标签对所述子句进行归并处理,得到目标子句;对所述目标子句进行语音识别处理,得到所述语音数据的语音识别结果。本发明实施例可以保证每个子句的能量、说话人音调、音色的相对统一,有利于提升语音识别的准确度;并且,本发明实施例进一步还可以按照预设标签对子句进行归并处理,将存在关联关系的子句合并为目标子句,再对目标子句进行语音识别处理,可以进一步提升语音识别的准确度,提高语音识别性能。CN113707130ACN113707130A权利要求书1/3页1.一种语音识别方法,其特征在于,所述方法包括:根据待处理的语音数据中各个说话人的声学特征,对所述语音数据进行切分处理,得到若干子句,每个子句包含一个说话人的语音片段;按照预设标签对所述子句进行归并处理,得到目标子句;对所述目标子句进行语音识别处理,得到所述语音数据的语音识别结果。2.根据权利要求1所述的方法,其特征在于,所述预设标签包括语音内容标签,所述按照预设标签对所述子句进行归并处理,得到目标子句,包括:基于各个子句的语音内容确定各个子句的语音内容标签;对语音内容标签相匹配的相邻子句进行归并处理,得到目标子句。3.根据权利要求1所述的方法,其特征在于,所述预设标签包括说话人标签,所述按照预设标签对所述子句进行归并处理,得到目标子句,包括:基于各个子句的声学特征确定各个子句的说话人标签;按照各个子句的起止时间,对说话人标签相同的至少两个子句进行归并处理,得到目标子句。4.根据权利要求1所述的方法,其特征在于,所述预设标签包括时长标签,所述按照预设标签对所述子句进行归并处理,得到目标子句,包括:若存在至少一个时长标签满足预设时长的子句,则将所述子句与其相邻的子句进行归并处理,得到目标子句。5.根据权利要求1所述的方法,其特征在于,所述根据待处理的语音数据中各个说话人的声学特征,对所述语音数据进行切分处理,得到若干子句,包括:对待处理的语音数据进行语音端点检测,确定所述语音数据的有效语音片段;对所述有效语音片段进行特征分析处理,确定所述有效语音片段包含的各个说话人对应的声学特征;根据所述有效语音片段包含的各个说话人对应的声学特征,对所述有效语音片段进行切分处理,得到若干子句。6.根据权利要求5所述的方法,其特征在于,所述根据所述有效语音片段包含的各个说话人对应的声学特征,对所述有效语音片段进行切分处理,得到若干子句,包括:对所述有效语音片段进行分帧处理,得到至少两个有效子帧;计算两两相邻的有效子帧之间的声学特征相似度;根据所述声学特征相似度确定所述有效语音帧对应的说话人切换点;基于所述说话人切换点对所述有效语音片段进行切分处理,得到若干子句。7.根据权利要求5所述的方法,其特征在于,所述对待处理的语音数据进行语音端点检测,确定所述语音数据的有效语音片段,包括:对待处理的语音数据进行分帧处理,得到至少两个语音帧;对每个语音帧进行特征提取处理,得到每个语音帧对应的特征参数;根据所述特征参数对每个语音帧进行分类处理,确定各个语音帧中的有效语音帧,并对所述有效语音帧进行合并处理,得到所述语音数据对应的有效语音片段。8.根据权利要求7所述的方法,其特征在于,所述特征参数包括短时能量和过零率,所述根据所述特征参数对每个语音帧进行分类处理,确定各个语音帧中的有效语音帧,包括:2CN113707130A权利要求书2/3页分别将每个语音帧的短时能量与第一预设门限进行比对,以及分别将每个语音帧的过零率与第二预设门限进行比对;确定短时能量大于或者等于第一预设门限,且过零率小于第二预设门限的语音帧为有效语音帧。9.根据权利要求1所述的方法,其特征在于,所述根据待处理的语