语音识别系统、相关方法、装置及设备-豆柴文库

语音识别系统、相关方法、装置及设备.pdf

2023-07-24

10金币

801KB

40页

邻家****mk

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共40页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN114023309A(43)申请公布日2022.02.08(21)申请号202010701047.6(22)申请日2020.07.15(71)申请人阿里巴巴集团控股有限公司地址英属开曼群岛大开曼资本大厦一座四层847号邮箱(72)发明人高志付张仕良(74)专利代理机构北京润泽恒知识产权代理有限公司11319代理人钱秀茹(51)Int.Cl.G10L15/06(2013.01)G10L15/26(2006.01)G10L15/30(2013.01)G10L25/12(2013.01)G10L25/30(2013.01)权利要求书4页说明书31页附图4页(54)发明名称语音识别系统、相关方法、装置及设备(57)摘要本申请公开了语音识别系统、相关方法、装置及设备。其中，所述系统通过多个客户端采集不同应用的语音数据，将语音数据发送至服务端；服务端从训练样本集中学习得到模型参数动态可变的语音识别模型，并确定各个应用使用该模型的模型参数；针对客户端发送的语音数据，确定目标应用的模型参数；将目标应用的模型参数作为语音识别模型的模型参数，通过基于目标应用的模型参数的语音识别模型，将语音数据转换为文本序列。采用这种处理方式，使得通过一个通用模型即可满足不同应用对计算量与时延的不同需求；因此，可以有效节省系统资源，降低模型维护成本，提升模型在应用场景上的可扩展性，提升新应用场景下的模型部署效率。CN114023309ACN114023309A权利要求书1/4页1.一种语音识别系统，其特征在于，包括：客户端，用于采集目标应用的语音数据，将所述语音数据发送至服务端；服务端，用于从训练样本集中学习得到模型参数动态可变的语音识别模型；针对终端设备发送的所述语音数据，确定与所述目标应用对应的目标模型参数；通过基于所述目标模型参数的所述语音识别模型，将所述语音数据转换为文本序列。2.一种语音识别方法，其特征在于，包括：从训练样本集中学习得到模型参数动态可变的语音识别模型；确定与目标应用对应的目标模型参数；通过基于所述目标模型参数的所述语音识别模型，将目标应用的语音数据转换为文本序列。3.根据权利要求2所述的方法，其特征在于，所述模型参数包括：模型大小；所述模型大小包括：神经网络的层数和/或神经元数量；所述从训练样本集中学习得到模型参数动态可变的语音识别模型，包括：根据动态确定的模型大小，对所述模型执行迭代训练。4.根据权利要求3所述的方法，其特征在于，所述动态确定的模型大小，采用如下方式确定：从多个预设模型大小中，任意选取模型大小。5.根据权利要求3所述的方法，其特征在于，所述模型包括：流式端到端语音识别模型；所述模型包括：音频编码器，解码器；所述模型大小包括：音频编码器的大小。6.根据权利要求2或3所述的方法，其特征在于，所述模型参数包括：时延值；所述从训练样本集中学习得到模型参数动态可变的语音识别模型，包括：根据动态确定的时延值，对所述模型执行迭代训练。7.根据权利要求6所述的方法，其特征在于，所述动态确定的时延值，采用如下方式确定：从多个预设时延值中，任意选取时延值；所述目标应用的时延值包括：所述预设时延值以外的时延值。8.根据权利要求6所述的方法，其特征在于，所述模型包括：流式端到端语音识别模型；所述模型包括：音频编码器，特征数据确定模块，解码器；所述通过基于所述目标模型参数的所述语音识别模型，将所述语音数据转换为文本序列，包括：通过音频编码器，确定所述语音数据的音频特征数据，并根据目标应用的时延值，将所述音频特征数据存入分块内存；通过特征数据确定模块，根据分块内存中的音频特征数据，确定与所述语音数据中的字对应的特征数据；2CN114023309A权利要求书2/4页通过解码器，根据字的特征数据，确定所述语音数据中的字，形成所述文本序列。9.根据权利要求8所述的方法，其特征在于，所述通过特征数据确定模块，根据分块内存中的音频特征数据，确定与所述语音数据中的字对应的音频特征数据，包括：确定字与块内存间的对应关系；根据所述对应关系，确定与字对应的特征数据。10.根据权利要求9所述的方法，其特征在于，所述特征数据确定模块包括：预测器；所述通过特征数据确定模块，根据分块内存中的音频特征数据，确定与所述语音数据中的字对应的特征数据，还包括：通过所述预测器，确定各个块包括的文本长度；根据所述文本长度，确定字与块间的对应关系。11.根据权利要求2所述的方法，其特征在于，所述确定与所述目标应用对应的目标模型参数，包括：确定目标应用的语音识别性能需求信息；根据所述性能需求信息，确定所述目标模型参数。12.根据权利要求2所述的方法，其特征在于，若与目标应用相关的第一用户将与所述目标模型参数对应的

相关资料

语音识别系统、相关方法、装置及设备.pdf

本申请公开了语音识别系统、相关方法、装置及设备。其中，所述系统通过多个客户端采集不同应用的语音数据，将语音数据发送至服务端；服务端从训练样本集中学习得到模型参数动态可变的语音识别模型，并确定各个应用使用该模型的模型参数；针对客户端发送的语音数据，确定目标应用的模型参数；将目标应用的模型参数作为语音识别模型的模型参数，通过基于目标应用的模型参数的语音识别模型，将语音数据转换为文本序列。采用这种处理方式，使得通过一个通用模型即可满足不同应用对计算量与时延的不同需求；因此，可以有效节省系统资源，降低模型维护成本

2023-07-24

801KB

语音识别装置、语音识别系统.pdf

语音识别装置具备：语音检测部，检测从用户输入的语音；信息提供部，使用基于第一语音识别部对所述语音的识别结果的第一语音识别信息、或基于与所述第一语音识别部不同的第二语音识别部对所述语音的识别结果的第二语音识别信息中的某一方的语音识别信息，进行向所述用户的信息提供；以及选择部，基于从所述语音被输入起的经过时间，选择所述第一语音识别信息或所述第二语音识别信息中的某一方作为所述信息提供部所使用的语音识别信息，并且使由所述信息提供部进行的所述信息提供的方法变化。

2023-12-04

1.7MB

语音授权及语音相关业务的处理方法、装置和设备.pdf

本说明书实施例提供了一种语音授权及语音相关业务的处理方法、装置和设备，其中语音授权方法包括：接收第一用户发送的授权请求，该授权请求用于请求为待授权的第二用户授予通过第一联系方式与第一用户进行语音通话的通话权限；根据授权请求包括的授权信息，通过区块链系统创建第一用户的可验证声明；将创建的可验证声明发送给第二用户，以使第二用户根据可验证声明通过第一联系方式与第一用户进行语音通话处理；其中，可验证声明用于证明第一用户对第二用户授权了通过第一联系方式与第一用户进行语音通话的通话权限。

2023-05-25

964KB

语音授权及语音相关业务的处理方法、装置和设备.pdf

2023-05-25

872KB

一种语音识别系统的测试方法、装置、设备及存储介质.pdf

本申请提供了一种语音识别系统的测试方法、装置、设备及存储介质，其中，测试方法包括：将被测系统的测试项对应的测试数据集中的测试语音输入被测系统，获取被测系统在测试项上的运行数据，根据被测系统在测试项上的运行数据确定被测系统在测试项上的测试结果。由于被测系统的测试数据总集是在考虑被测系统的真实应用场景的基础上，以获得能够较为准确地反映被测系统能力的测试结果为目标构建，因此，基于构建的测试数据总集中的测试数据，采用本申请提供的测试流程对被测系统进行测试，能够获得较好的测试效果。本申请适用于智能语音服务提供商、用

2023-07-20

1.1MB