一种基于RNN的声纹识别方法-豆柴文库

一种基于RNN的声纹识别方法.pdf

2023-11-19

10金币

605KB

11页

论文****可爱

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共11页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN107731233A(43)申请公布日2018.02.23(21)申请号201711070510.6G10L25/24(2013.01)(22)申请日2017.11.03G10L25/18(2013.01)G10L21/0208(2013.01)(71)申请人王华锋地址100191北京市海淀区知春路1号学院国际大厦1010(72)发明人冯毅夫王华锋徐雷杜俊逸付明霞马晨南齐一凡潘海侠(74)专利代理机构北京科迪生专利代理有限责任公司11251代理人杨学明顾炜(51)Int.Cl.G10L17/02(2013.01)G10L17/04(2013.01)G10L17/18(2013.01)G10L17/14(2013.01)权利要求书1页说明书6页附图3页(54)发明名称一种基于RNN的声纹识别方法(57)摘要本发明提供了一种基于RNN的声纹识别方法，在获得去噪语音数据的MFCC特征及其一二阶差分后，使用循环神经网络来提取MFCC特征中说话人的高级特征，并将提取到的特征使用softmax分类器进行分类，最后使用朴素贝叶斯方法识别说话人。不同于传统方法的静音消除，本方法保留语音数据中的静音段，基于循环神经网络可以提取出与上下文相关的特征，针对语音数据即可提取出说话人语音的高级特征如说话方式，节奏等，使得特征信息更加完备，更加能够代表说话人。相比较于现有的基于高斯的声纹识别方法，本方法对语音数据要求相对较低，准确率更高，即使面对大数据时准确率依然保持很高水平，并且运行速度没有降低。CN107731233ACN107731233A权利要求书1/1页1.一种基于RNN的声纹识别方法，其特征在于：包括如下步骤：步骤(1)、采用谱相减法对输入语音数据进行去噪处理，此处消除的是信道噪声，信道噪声是由录音设备所导致的噪声；将消除信道噪声后的纯语音数据作为训练数据的输入；步骤(2)、对步骤(1)的得到纯语音数据按照帧长25ms，帧移10ms进行分帧，每一条语音数据能够分为成百上千帧语音信号，分别计算每一帧语音信号的MFCC特征参数，选择前13维MFCC特征参数并继续计算其一阶和二阶差分，分别提取前13维MFCC特征拼接成为一个39维的特征向量，由此作为这一帧语音信号的特征参数；将每64帧语音信号的39维特征合并成为一个64*39的二维语音声学特征参数，不足64帧的语音信号丢弃，由同一个说话人说出的语音数据所产生的所有二维语音声学特征参数的标签为均为同一说话人的身份表示，以此作为神经网络的输入；步骤(3)、把步骤(2)获得二维数据作为输入加入到循环神经网络的训练中；循环神经网络共有64个LSTM单元；每一个LSTM单元有256个隐藏的神经元，在时间序列上展开为64步，每个时间序列都是同一个网络模型；所述循环神经网络采用单向循环神经网络，最后一个LSTM单元会包含前面所有LSTM单元的信息，将最后一个LSTM单元的输出作为最终的语音特征进入到识别阶段；步骤(4)、对步骤(3)得到的语音特征进行识别，使用朴素贝叶斯方法确定该语音数据所属的说话人。2.根据权利要求1所述的声纹识别方法，其特征在于：步骤(1)中所述的采用谱相减法对输入语音数据进行去噪处理，只是消除信道噪声，保留静音片段。3.根据权利要求1所述的声纹识别方法，其特征在于：步骤(2)中的MFCC特征考虑到了人类的听觉特征；先将线性频谱映射到基于听觉感知的Mel非线性频谱中，然后转换到倒谱上。4.根据权利要求1所述的声纹识别方法，其特征在于：步骤(4)中对语音特征进行识别，包括对64帧语音特征拼接而成的语音段进行分类。5.根据权利要求1所述的声纹识别方法，其特征在于：使用softmax作为分类器，对64帧语音特征拼接而成的语音段进行分类。2CN107731233A说明书1/6页一种基于RNN的声纹识别方法技术领域[0001]本发明提供了一种基于RNN的声纹识别方法，涉及深度学习、模式识别、语音信号处理领域。背景技术[0002]信息技术的快速发展，如何准确认证一个人的身份、保护个人隐私和保障信息安全，成为当前亟需解决的问题。与传统身份认证方式相比，生物特征识别身份认证技术在使用过程中具有不会丢失、被盗或遗忘的特性；其不但快捷、方便，而且准确、可靠。声纹识别作为当前最热门的生物特征识别技术之一，在远程认证等应用领域中具有独特优势，受到了越来越多的关注，微信已经启用了声音锁验证登录方式，全球首款采用声纹识别技术进行解锁的联想乐phoneA586开创了声纹识别技术应用的先河，巴克莱银行旗下私人银行部门巴巴克莱财富(BarclaysWealth)的用户通过自己的声音完成身份验证。相较于人脸与指纹，声纹识别一直比较低调，公众认知度并不

相关资料

一种基于RNN的声纹识别方法.pdf

本发明提供了一种基于RNN的声纹识别方法，在获得去噪语音数据的MFCC特征及其一二阶差分后，使用循环神经网络来提取MFCC特征中说话人的高级特征，并将提取到的特征使用softmax分类器进行分类，最后使用朴素贝叶斯方法识别说话人。不同于传统方法的静音消除，本方法保留语音数据中的静音段，基于循环神经网络可以提取出与上下文相关的特征，针对语音数据即可提取出说话人语音的高级特征如说话方式，节奏等，使得特征信息更加完备，更加能够代表说话人。相比较于现有的基于高斯的声纹识别方法，本方法对语音数据要求相对较低，准确率

2023-11-19

605KB

一种基于声纹的用户识别方法、装置及设备.pdf

本发明实施例提供了一种基于声纹的用户识别方法、装置及设备，该方法包括：获取待识别用户的语音信号，作为待识别语音信号；利用预先训练得到的唤醒模型，识别待识别语音信号中的唤醒词；获取包含所述唤醒词的语音片段；利用预先训练得到的声纹模型，对所述语音片段进行声纹识别，根据识别结果，确定所述待识别用户的身份信息。可见，本方案中，智能设备在接收到唤醒词后识别用户身份，进而也就可以根据用户身份，为不同的用户提供个性化服务。

2024-01-04

723KB

基于LSTM型RNN的CAPTCHA识别方法.docx

基于LSTM型RNN的CAPTCHA识别方法Abstract:CAPTCHA(CompletelyAutomatedPublicTuringtesttotellComputersandHumansApart)isintroducedtopreventautomatedtoolsfromperformingunauthorizedactionsonawebpage.Inthispaper,weproposeanewmethodforCAPTCHArecognitionbasedonLongShort-Ter

2024-11-12

11KB

一种基于多特征的声纹识别方法.pdf

本发明公开了一种基于多特征的声纹识别方法，包括步骤：数据预处理，将语音语料进行处理；特征提取，将梅尔频率倒谱系数MFCC和感知线性预测PLP进行动态线性融合；特征处理，利用PCA主成分分析法将动态特征进行降维处理；模型训练，利用I‑Vector说话人识别模型对动态特征进行训练；打分判决，利用概率线性判决分析算法PLDA进行似然对数比打分，并根据得分的大小判断出两个集合是否为同一个说话人。本发明动态融合MFCC和PLP两种说话人特征，能更好地包含说话人信息，并通过主成分分析法PCA降低融合特征的维度，计算效

2023-06-25

461KB

基于CTC-RNN的语音情感识别方法.docx

基于CTC-RNN的语音情感识别方法摘要：语音情感识别是自然语言处理中的一个重要研究方向。传统的语音情感识别方法主要是基于声学特征提取和模型分类，但这些方法存在着识别准确率低、受噪声干扰影响等缺点。近年来，随着深度学习技术的不断发展，基于深度学习的语音情感识别方法受到了广泛关注。本文提出了一种基于CTC-RNN的语音情感识别方法。该方法采用CTC损失函数来训练RNN网络进行情感分类，实验结果表明，在IEMOCAP数据集上，该方法的准确率明显优于传统的声学特征提取和模型分类方法。1.引言语音情感识别是一项重

2024-11-01

11KB