基于时空信息融合的声纹识别方法、系统及存储介质-豆柴文库

基于时空信息融合的声纹识别方法、系统及存储介质.pdf

2023-06-25

10金币

333KB

9页

邻家****文章

实名认证

内容提供者

1/9

2/9

3/9

4/9

5/9

6/9

7/9

8/9

9/9

在线预览结束，喜欢就下载吧，查找使用更方便

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN112614492A(43)申请公布日2021.04.06(21)申请号202011453736.6(22)申请日2020.12.09(71)申请人通号智慧城市研究设计院有限公司地址100070北京市丰台区汽车博物馆南路1号院中国通号大厦A座17层(72)发明人郭宇鹏毛少将王晓周昌锋石雷(74)专利代理机构北京纪凯知识产权代理有限公司11245代理人刘美丽(51)Int.Cl.G10L17/02(2013.01)G10L17/18(2013.01)G10L17/00(2013.01)G10L25/24(2013.01)权利要求书2页说明书5页附图1页(54)发明名称基于时空信息融合的声纹识别方法、系统及存储介质(57)摘要本发明涉及一种基于时空信息融合的声纹识别方法、系统及存储介质，方法包括：S1、将原始声音数据通过梅尔频率倒谱系数方法进行处理得到声音特征向量；S2、对声音特征向量进行阈值判定；S3、将符合阈值条件的声音特征向量通过ResNet50模型进行处理，获取声音全局特征；S4、采用LSTM对声音全局特征进行上下文信息分析，得到具有时序关系的声音特征；S5、将具有时序关系的声音特征输入全连接网络层进行分类，实现声纹的识别。本发明提升了声纹识别和分类的准确率，使得准确率达到了90％以上。CN112614492ACN112614492A权利要求书1/2页1.一种基于时空信息融合的声纹识别方法，其特征在于包括以下内容：S1、将原始声音数据通过梅尔频率倒谱系数方法进行处理得到声音特征向量；S2、对声音特征向量进行阈值判定；S3、将符合阈值条件的声音特征向量通过ResNet50模型进行处理，获取声音全局特征；S4、采用LSTM对声音全局特征进行上下文信息分析，得到具有时序关系的声音特征；S5、将具有时序关系的声音特征输入全连接网络层进行分类，实现声纹的识别。2.根据权利要求1所述的基于时空信息融合的声纹识别方法，其特征在于，步骤S1前还包括原始声音数据采集的步骤。3.根据权利要求2所述的基于时空信息融合的声纹识别方法，其特征在于，原始声音数据采集采用麦克风设备或者直接录入语音文件的方式。4.根据权利要求1所述的基于时空信息融合的声纹识别方法，其特征在于，上述S1的实现过程包括：S11、将原始声音数据根据预设固定的长度进行分帧；S12、将分帧后的数据进行快速傅里叶变换，得到声音数据的频谱图；S13、将频谱图的横纵坐标进行翻转交换，根据数据的大小映射到灰度值；S14、将灰度值经过梅尔滤波器进行滤波得到梅尔频谱，对梅尔频谱取对数并做逆变换，选取变换后的若干系数作为梅尔倒谱系数，得到声音的特征向量。5.根据权利要求4所述的基于时空信息融合的声纹识别方法，其特征在于，灰度值＝255*(原数据值‑原数据最小值)/(原数据最大值‑原数据最小值)。6.根据权利要求1所述的基于时空信息融合的声纹识别方法，其特征在于，步骤S4前还包括将声音全局特征进行维度变换的步骤。7.一种基于时空信息融合的声纹识别系统，其特征在于，该系统包括：数据采集单元，用于采集声音数据；声音特征向量提取单元，用于将声音数据通过梅尔频率倒谱系数方法进行处理得到声音特征向量；能量阈值判定单元，用于对声音特征向量进行阈值判定；全局信息提取单元，用于将声音特征向量通过ResNet50模型进行处理，获取声音特征的全局信息；时序语音特征提取单元，用于采用LSTM对声音全局特征进行上下文信息分析，得到具有时序关系的声音特征；分类识别单元，用于将具有时序关系的特征输入全连接网络层进行分类，得到声纹识别的结果。8.根据权利要求7所述的基于时空信息融合的声纹识别系统，其特征在于，该系统还包括维度变换单元，用于对声音特征的全局信息进行维度变换。9.一种处理设备，所述处理设备至少包括处理器和存储器，所述存储器上存储有计算机程序，其特征在于，所述处理器运行所述计算机程序时执行以实现权利要求1到6任一项所述基于时空信息融合的声纹识别方法的步骤。10.一种计算机存储介质，其特征在于，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现根据权利要求1到6任一项所述基于时空信息融合的声纹识别2CN112614492A权利要求书2/2页方法的步骤。3CN112614492A说明书1/5页基于时空信息融合的声纹识别方法、系统及存储介质技术领域[0001]本发明涉及一种基于时空信息融合的声纹识别方法、系统及存储介质，涉及语音识别技术领域。背景技术[0002]保证人民群众生命财产安全，维护国内治安稳定一直是近年来不变的旋律。因此对于治安监控、网络侦察等技术手段提出了更高的要求。灾难发生时往往伴随着人群的慌乱呼救及灾难本身的声音特

相关资料

基于时空信息融合的声纹识别方法、系统及存储介质.pdf

本发明涉及一种基于时空信息融合的声纹识别方法、系统及存储介质，方法包括：S1、将原始声音数据通过梅尔频率倒谱系数方法进行处理得到声音特征向量；S2、对声音特征向量进行阈值判定；S3、将符合阈值条件的声音特征向量通过ResNet50模型进行处理，获取声音全局特征；S4、采用LSTM对声音全局特征进行上下文信息分析，得到具有时序关系的声音特征；S5、将具有时序关系的声音特征输入全连接网络层进行分类，实现声纹的识别。本发明提升了声纹识别和分类的准确率，使得准确率达到了90％以上。

2023-06-25

333KB

基于声纹的目标人物识别方法、系统、装置及存储介质.pdf

本发明公开了基于声纹的目标人物识别方法、系统、装置及存储介质，其中所述方法包括：获取包含目标人物说话的待比对音频，并获取到对应的第一声纹特征，在声纹特征库中查找相似的声纹特征，确定若干条相似音频，并根据相似音频的加密文件名在声纹信息库中进行查找，确定相似音频对应的音频信息，该音频信息包括相似音频中说话人的手机号码。通过本申请实施例的基于声纹的目标人物识别方法，侦查部门可以根据目标人物的音频确定可能是目标人物的人的手机号码，从而达到缩小侦查侦查范围或者是对目标人群进行重点监测的效果。

2023-07-24

591KB

基于特征融合的文本识别方法、装置、设备及存储介质.pdf

本发明涉及人工智能领域，公开了基于特征融合的文本识别方法、装置、设备及存储介质，用于提高文本识别的准确率。调用预置的神经网络组对待识别医疗图像进行特征提取，生成医疗局部特征图像和医疗全局特征图像，并调用预置的加权求和函数对所述医疗局部特征图像和所述医疗全局特征图像进行特征融合，生成目标医疗融合特征图像；调用预置的双向双层循环神经网络对所述目标医疗融合特征图像进行字符集提取，生成医疗分类字符集，并基于医疗分类字符集与预置的时序分类算法进行对齐解码，生成目标医疗文本。此外，本发明还涉及区块链技术，待识别医疗图

2023-07-25

801KB

声纹识别方法、装置、电子设备及存储介质.pdf

本公开提供了一种声纹识别方法、装置、电子设备及存储介质，属于声纹识别技术领域。该方法包括：基于第一声纹信息的设备类型、多个第二声纹信息的设备类型、第一声纹信息与多个第二音频数据的第二声纹信息分别对应的第一相似度，确定第一声纹信息与多个第二声纹信息分别对应的第二相似度，进而确定与第一声纹信息匹配的目标声纹信息。如此，在确定目标声纹信息时，考虑到了各个声纹信息对应的设备类型，减小了因音频采集设备的类型不同而造成的识别误差，提高了声纹识别的准确率。

2023-07-25

705KB

声纹识别方法、装置、电子设备及存储介质.pdf

本发明涉及语音识别技术领域，公开了一种声纹识别方法、装置、电子设备及存储介质，所述方法包括：获取智能设备采集到的输入语音；在输入语音中，确定出预设唤醒词对应的每个状态对应的音频帧；对于预设唤醒词的每个状态，对状态对应的音频帧的声学特征向量取平均，得到状态对应的目标特征向量；将预设唤醒词的各状态对应的目标特征向量作为预先训练好的声纹识别模型的输入，以通过声纹识别模型对输入语音进行声纹识别。本发明实施例提供的技术方案，对用户输入的语音进行降噪处理，使得通过声纹识别模型得到的声纹特征向量能够更好地还原用户的声纹

2024-01-04

668KB