预览加载中,请您耐心等待几秒...
1/9
2/9
3/9
4/9
5/9
6/9
7/9
8/9
9/9

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN112614492A(43)申请公布日2021.04.06(21)申请号202011453736.6(22)申请日2020.12.09(71)申请人通号智慧城市研究设计院有限公司地址100070北京市丰台区汽车博物馆南路1号院中国通号大厦A座17层(72)发明人郭宇鹏毛少将王晓周昌锋石雷(74)专利代理机构北京纪凯知识产权代理有限公司11245代理人刘美丽(51)Int.Cl.G10L17/02(2013.01)G10L17/18(2013.01)G10L17/00(2013.01)G10L25/24(2013.01)权利要求书2页说明书5页附图1页(54)发明名称基于时空信息融合的声纹识别方法、系统及存储介质(57)摘要本发明涉及一种基于时空信息融合的声纹识别方法、系统及存储介质,方法包括:S1、将原始声音数据通过梅尔频率倒谱系数方法进行处理得到声音特征向量;S2、对声音特征向量进行阈值判定;S3、将符合阈值条件的声音特征向量通过ResNet50模型进行处理,获取声音全局特征;S4、采用LSTM对声音全局特征进行上下文信息分析,得到具有时序关系的声音特征;S5、将具有时序关系的声音特征输入全连接网络层进行分类,实现声纹的识别。本发明提升了声纹识别和分类的准确率,使得准确率达到了90%以上。CN112614492ACN112614492A权利要求书1/2页1.一种基于时空信息融合的声纹识别方法,其特征在于包括以下内容:S1、将原始声音数据通过梅尔频率倒谱系数方法进行处理得到声音特征向量;S2、对声音特征向量进行阈值判定;S3、将符合阈值条件的声音特征向量通过ResNet50模型进行处理,获取声音全局特征;S4、采用LSTM对声音全局特征进行上下文信息分析,得到具有时序关系的声音特征;S5、将具有时序关系的声音特征输入全连接网络层进行分类,实现声纹的识别。2.根据权利要求1所述的基于时空信息融合的声纹识别方法,其特征在于,步骤S1前还包括原始声音数据采集的步骤。3.根据权利要求2所述的基于时空信息融合的声纹识别方法,其特征在于,原始声音数据采集采用麦克风设备或者直接录入语音文件的方式。4.根据权利要求1所述的基于时空信息融合的声纹识别方法,其特征在于,上述S1的实现过程包括:S11、将原始声音数据根据预设固定的长度进行分帧;S12、将分帧后的数据进行快速傅里叶变换,得到声音数据的频谱图;S13、将频谱图的横纵坐标进行翻转交换,根据数据的大小映射到灰度值;S14、将灰度值经过梅尔滤波器进行滤波得到梅尔频谱,对梅尔频谱取对数并做逆变换,选取变换后的若干系数作为梅尔倒谱系数,得到声音的特征向量。5.根据权利要求4所述的基于时空信息融合的声纹识别方法,其特征在于,灰度值=255*(原数据值‑原数据最小值)/(原数据最大值‑原数据最小值)。6.根据权利要求1所述的基于时空信息融合的声纹识别方法,其特征在于,步骤S4前还包括将声音全局特征进行维度变换的步骤。7.一种基于时空信息融合的声纹识别系统,其特征在于,该系统包括:数据采集单元,用于采集声音数据;声音特征向量提取单元,用于将声音数据通过梅尔频率倒谱系数方法进行处理得到声音特征向量;能量阈值判定单元,用于对声音特征向量进行阈值判定;全局信息提取单元,用于将声音特征向量通过ResNet50模型进行处理,获取声音特征的全局信息;时序语音特征提取单元,用于采用LSTM对声音全局特征进行上下文信息分析,得到具有时序关系的声音特征;分类识别单元,用于将具有时序关系的特征输入全连接网络层进行分类,得到声纹识别的结果。8.根据权利要求7所述的基于时空信息融合的声纹识别系统,其特征在于,该系统还包括维度变换单元,用于对声音特征的全局信息进行维度变换。9.一种处理设备,所述处理设备至少包括处理器和存储器,所述存储器上存储有计算机程序,其特征在于,所述处理器运行所述计算机程序时执行以实现权利要求1到6任一项所述基于时空信息融合的声纹识别方法的步骤。10.一种计算机存储介质,其特征在于,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现根据权利要求1到6任一项所述基于时空信息融合的声纹识别2CN112614492A权利要求书2/2页方法的步骤。3CN112614492A说明书1/5页基于时空信息融合的声纹识别方法、系统及存储介质技术领域[0001]本发明涉及一种基于时空信息融合的声纹识别方法、系统及存储介质,涉及语音识别技术领域。背景技术[0002]保证人民群众生命财产安全,维护国内治安稳定一直是近年来不变的旋律。因此对于治安监控、网络侦察等技术手段提出了更高的要求。灾难发生时往往伴随着人群的慌乱呼救及灾难本身的声音特