语音识别方法、装置及计算机可读存储介质-豆柴文库

语音识别方法、装置及计算机可读存储介质.pdf

2024-01-10

10金币

580KB

12页

绮兰****文章

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共12页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN109545196A(43)申请公布日2019.03.29(21)申请号201811644306.5(22)申请日2018.12.29(71)申请人深圳市科迈爱康科技有限公司地址518000广东省深圳市南山区粤海街道科技中三路深圳软件园一期8栋302室(72)发明人袁晖(74)专利代理机构深圳市华勤知识产权代理事务所(普通合伙)44426代理人隆毅(51)Int.Cl.G10L15/06(2013.01)G10L15/22(2006.01)G10L15/26(2006.01)G10L21/0208(2013.01)权利要求书2页说明书6页附图3页(54)发明名称语音识别方法、装置及计算机可读存储介质(57)摘要本发明公开了一种语音识别方法，所述方法包括：侦听用户发出的语音信息；对所述语音信息进行去噪处理并根据预存的语音模型识别用户的语音指令；采集用户周围环境的背景音；根据预存的背景音模型对所述背景音进行识别，并根据识别结果确定用户所处位置；将所述语音指令和位置信息结合，形成最终识别结果并输出。本发明还同时公开了一种语音识别装置及计算机可读存储介质。本发明可提升智能终端设备的语音识别准确率。CN109545196ACN109545196A权利要求书1/2页1.一种语音识别方法，其特征在于，所述方法包括：侦听用户发出的语音信息；对所述语音信息进行去噪处理并根据预存的语音模型识别用户的语音指令；采集用户周围环境的背景音；根据预存的背景音模型对所述背景音进行识别，并根据识别结果确定用户所处位置；将所述语音指令和位置信息结合，形成最终识别结果并输出。2.根据权利要求1所述的方法，其特征在于，所述对语音信息进行去噪处理并根据预存的语音模型识别用户的语音指令包括：获取用户语音信息中的爆破音、摩擦音和鼻音特征参数并将其与相应的预设模型进行比较；在所述爆破音、摩擦音或鼻音的震幅小于预设范围时，对其进行增强处理。3.根据权利要求1或2所述的方法，其特征在于，还包括：根据采集到的多个预定时刻的语音信息线性分析用户的语音变化，将分析结果形成新的语音模型并存储。4.根据权利要求3所述的方法，其特征在于，所述根据预存的背景音模型对所述背景音进行识别，并根据识别结果确定用户所处位置包括：将采集到的预置音源发出的声音及环境中的背景音分别与背景音模型进行比对，根据比对结果确定用户所处位置。5.根据权利要求4所述的方法，其特征在于，还包括：通过图文形式显示所述识别结果供用户选择或确认，并在用户选择或确认后将所述识别结果输出至外部设备，和/或，通过语音向用户广播所述识别结果并接收用户的反馈信息。6.一种语音识别装置，其特征在于，包括：语音采集模块，用于侦听用户发出的语音信息；第一处理模块，用于对所述语音信息进行去噪处理并根据预存的语音模型识别用户的语音指令；背景音侦听模块，用于采集用户周围环境的背景音；第二处理模块，用于根据预存的背景音模型对所述背景音进行识别，并根据识别结果确定用户所处位置；输出模块，用于将所述语音指令和位置信息结合，形成最终识别结果并输出。7.根据权利要求6所述的语音识别装置，其特征在于，所述语音采集模块用于：获取用户语音信息中的爆破音、摩擦音和鼻音特征参数并将其与相应的预设模型进行比较；在所述爆破音、摩擦音或鼻音的震幅小于预设范围时，对其进行增强处理。8.根据权利要求6或7所述的语音识别装置，其特征在于，还包括：更新模块，用于根据采集到的多个预定时刻的语音信息线性分析用户的语音变化，将分析结果形成新的语音模型并存储。9.根据权利要求6所述的语音识别装置，其特征在于，所述第一处理模块包括：将采集到的预置音源发出的声音及环境中的背景音分别与背景音模型进行比对，根据比对结果确定用户所处位置。2CN109545196A权利要求书2/2页10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机可执行指令，所述计算机可执行指令的计算机程序被处理器执行时实现权利要求1至5任一项所述的语音识别方法。3CN109545196A说明书1/6页语音识别方法、装置及计算机可读存储介质技术领域[0001]本发明涉及语音识别领域，尤其涉及一种语音识别方法、装置及计算机可读存储介质。背景技术[0002]随着科技的发展和计算机技术的进步，语音识别技术已然运用到生活和工业等各大领域，现有技术存在多种用来实现人机交互的语音识别方法或装置，为人类社会的经济发展做出了巨大贡献。然而，现有的语音识别技术一般仅能识别正常人的发音，当用户的发音不准确或者存在语言障碍时，现有的语音识别技术很难识别或者识别不准确。以老人为例：随着年龄的增长，一些语言方面的疾病在老人人群中处于高发状态，例如失语

相关资料

语音识别方法、装置及计算机可读存储介质.pdf

本发明公开了一种语音识别方法，所述方法包括：侦听用户发出的语音信息；对所述语音信息进行去噪处理并根据预存的语音模型识别用户的语音指令；采集用户周围环境的背景音；根据预存的背景音模型对所述背景音进行识别，并根据识别结果确定用户所处位置；将所述语音指令和位置信息结合，形成最终识别结果并输出。本发明还同时公开了一种语音识别装置及计算机可读存储介质。本发明可提升智能终端设备的语音识别准确率。

2024-01-10

580KB

语音识别方法、装置、设备及计算机可读存储介质.pdf

本发明公开了一种语音识别方法、装置、设备及计算机可读存储介质，所述方法包括：将待识别语音数据从时域数据转换为第一时频图；将第一时频图输入目标卷积神经网络进行识别，得到待识别语音数据的第一分类结果；其中，目标卷积神经网络通过预先采用语音训练样本集训练得到。本发明中将待识别语音数据从一维的时域数据转换为二维的时频图，再采用卷积神经网络进行处理，提高了语音识别的准确率。

2023-07-22

439KB

语音识别方法、装置、设备、可读存储介质及计算机程序.pdf

本申请公开了一种语音识别方法、装置、设备、可读存储介质及计算机程序，属于计算机技术领域。通过本申请实施例提供的技术方案，获取语音数据；调用声纹识别模型，对该语音数据和语音特征集进行处理，以确定与该语音数据匹配的目标用户，语音特征集中存储有多个用户的历史语音特征；在对该语音数据进行解码的过程中，调用与目标用户匹配的目标语言模型对该语音数据进行处理，以得到该语音数据对应的目标文本，其中，目标语言模型基于目标用户的历史文本数据训练得到；输出该语音数据对应的目标文本。该技术方案能够提高语音识别的准确率。

2023-07-24

689KB

语音识别方法、装置、设备、系统及计算机可读存储介质.pdf

本申请公开了一种语音方法、设备、系统及计算机可读存储介质，其中，该方法包括：首先，获取反射语音信号，其中，反射语音信号为声源发出的原始语音信号经过声音反射装置反射的声音信号。然后，根据反射语音信号，判断声源是否来自于所述目标用户。利用该方法能够提高语音识别的准确性，从而进一步提高声纹解锁的安全性。

2023-07-24

1.2MB

复合语音识别方法、装置、设备及计算机可读存储介质.pdf

本发明涉及人工智能领域，使用了深度学习实现了通过胶囊网络模型识别出复合语音信号的语音类型。具体共公开了一种复合语音识别方法、装置、计算机设备及计算机可读存储介质，该方法包括：实时或定时检测预置范围内的复合语音；当检测到所述复合语音时，获取所述复合语音的声音信号；对所述声音信号进行短时傅里叶变换，生成所述复合语音信号的时频图；基于预置胶囊网络模型，提取所述时频图的多个频谱，获取各个所述频谱的梅尔频率倒谱系数；通过所述预置胶囊网络模型，计算出各个所述梅尔频率倒谱系数的向量模，并根据各个所述梅尔频率倒谱系数的向

2023-06-25

1.3MB