预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共19页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN108630193A(43)申请公布日2018.10.09(21)申请号201710170345.5(22)申请日2017.03.21(71)申请人北京嘀嘀无限科技发展有限公司地址100193北京市海淀区东北旺西路8号院34号楼(72)发明人贺利强李晓辉万广鲁(74)专利代理机构北京友联知识产权代理事务所(普通合伙)11343代理人尚志峰汪海屏(51)Int.Cl.G10L15/02(2006.01)G10L15/26(2006.01)权利要求书2页说明书11页附图5页(54)发明名称语音识别方法及装置(57)摘要本申请实施例提供一种语音识别方法及装置,涉及信息处理技术领域,该方法包括:获取多通道语音文件;将多通道语音文件分离为每个对话人的独立语音子文件;获得每个独立语音子文件的起始时间信息、终止时间信息及对话人标识信息;将每个独立语音子文件识别为文本;生成多通道语音文件的特征信息,该特征信息包括多通道语音文件对应的每个独立语音子文件的文本信息、每个独立语音子文件的起始时间信息和终止时间信息、每个独立语音子文件的排序信息及每个独立语音子文件的对话人标识信息。因此可以从多通道语音文件中分离出每个对话人的文本信息、各文本信息对应的时序信息和角色信息,将这些信息作为机器学习的训练数据,从而提高机器学习的性能。CN108630193ACN108630193A权利要求书1/2页1.一种语音识别方法,其特征在于,所述方法包括:获取多通道语音文件,其中,所述多通道语音文件包含多个对话人进行对话的语音数据;将所述多通道语音文件分离为每个对话人的独立语音子文件;获得每个独立语音子文件的起始时间信息、终止时间信息及对话人标识信息;将所述每个独立语音子文件识别为文本;生成所述多通道语音文件的特征信息,其中,所述特征信息包括:所述多通道语音文件对应的所述每个独立语音子文件的文本信息、所述每个独立语音子文件的起始时间信息、所述每个独立语音子文件的终止时间信息、所述每个独立语音子文件的排序信息及所述每个独立语音子文件的对话人标识信息。2.根据权利要求1所述的方法,其特征在于,所述排序信息通过以下方式得到:根据所述每个独立语音子文件的起始时间信息对所述每个独立语音子文件的文本进行排序后得到所述文本排序信息。3.根据权利要求1所述的方法,其特征在于,所述多通道语音文件的特征信息用于机器学习。4.根据权利要求1所述的方法,其特征在于,所述将所述多通道语音文件分离为每个对话人的独立语音子文件,包括:使用语音端点检测算法,除去所述多通道语音文件中的静音和噪声部分,得到语音除噪结果{S1,S2,…Sn},其中,Si包括第i个有效语音文件及所述第i个有效语音文件的起始时间信息及终止时间信息,i≤n;使用语音通道分离算法,对所述语音除噪结果{S1,S2,…Sn}进行处理,得到语音通道分离结果{A1,A2,…,Am},其中,Aj包括所述多个对话人中的第j个对话人的独立语音子文件及所述第j个对话人的独立语音子文件的起始时间信息和终止时间信息,j≤m。5.根据权利要求1所述的方法,其特征在于,所述将所述多通道语音文件分离为每个对话人的独立语音子文件,包括:使用语音通道分离算法,对所述多通道语音文件进行处理,得到语音通道分离结果{T1,T2,…Tq},其中,Ti包括所述多个对话人中的第i个对话人的独立语音子文件及所述第i个对话人的独立语音子文件的起始时间信息和终止时间信息,i≤q;使用语音端点检测算法,对所述语音通道分离结果{T1,T2,…Tp}进行处理,得到语音除噪结果{B1,B2,…,Bq},其中,Bq包括所述多个对话人中的第j个对话人的经过除噪处理后的独立语音子文件及所述第j个对话人的经过除噪处理后的独立语音子文件的起始时间信息和终止时间信息,j≤q。6.一种语音识别装置,其特征在于,所述装置包括:语音文件获取模块,用于获取多通道语音文件,其中,所述多通道语音文件包含多个对话人进行对话的语音数据;语音文件分离模块,用于将所述语音文件获取模块获取到的多通道语音文件分离为每个对话人的独立语音子文件;信息获得模块,用于获得每个独立语音子文件的起始时间信息、终止时间信息及对话人标识信息;2CN108630193A权利要求书2/2页语音识别模块,用于将所述语音文件分离模块分离出的每个独立语音子文件识别为文本;特征信息生成模块,用于生成所述多通道语音文件的特征信息,其中,所述特征信息包括:所述多通道语音文件对应的所述每个独立语音子文件的文本信息、所述每个独立语音子文件的起始时间信息、所述每个独立语音子文件的终止时间信息、所述每个独立语音子文件的排序信息及所述每个独立语音子文件的对话人标识信息。7.根据权利要