用于识别语音的方法、装置、设备、介质和产品-豆柴文库

用于识别语音的方法、装置、设备、介质和产品.pdf

2023-07-25

10金币

691KB

18页

静芙****可爱

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共18页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113763968A(43)申请公布日2021.12.07(21)申请号202111049667.7G10L21/0208(2013.01)(22)申请日2021.09.08G10L21/043(2013.01)(71)申请人北京百度网讯科技有限公司地址100085北京市海淀区上地十街10号百度大厦2层(72)发明人赵情恩(74)专利代理机构北京英赛嘉华知识产权代理有限责任公司11204代理人王达佐马晓亚(51)Int.Cl.G10L17/26(2013.01)G10L17/04(2013.01)G10L17/02(2013.01)G10L17/18(2013.01)G10L17/20(2013.01)权利要求书3页说明书10页附图4页(54)发明名称用于识别语音的方法、装置、设备、介质和产品(57)摘要本公开提供了用于识别语音的方法、装置、设备、介质和产品，涉及人工智能技术领域，尤其涉及语音技术领域。具体实现方案为：获取目标语音；基于目标语音和预设的语音识别模型，确定目标语音对应的用户特征向量集合；将用户特征向量集合中的各个用户特征向量拼接，得到目标特征向量；基于目标特征向量，确定目标语音对应的用户特征信息。本实现方式可以提高对用户特征的识别准确度。CN113763968ACN113763968A权利要求书1/3页1.一种用于识别语音的方法，包括：获取目标语音；基于所述目标语音和预设的语音识别模型，确定所述目标语音对应的用户特征向量集合；将所述用户特征向量集合中的各个用户特征向量拼接，得到目标特征向量；基于所述目标特征向量，确定所述目标语音对应的用户特征信息。2.根据权利要求1所述的方法，其中，所述用户特征向量集合至少包括年龄特征向量和性别特征向量；以及所述基于所述目标特征向量，确定所述目标语音对应的用户特征信息，包括：基于所述目标特征向量，确定所述目标语音对应的年龄性别联合特征信息。3.根据权利要求1所述的方法，其中，所述预设的语音识别模型至少包括编码器集合；以及所述基于所述目标语音和预设的语音识别模型，确定所述目标语音对应的用户特征向量集合，包括：对于所述编码器集合中的每个编码器，基于所述目标语音和该编码器，确定该编码器对应的用户特征向量；基于所述编码器集合中各个编码器对应的用户特征向量，确定所述用户特征向量集合。4.根据权利要求1所述的方法，其中，所述预设的语音识别模型至少包括解码器；以及所述基于所述目标特征向量，确定所述目标语音对应的用户特征信息，包括：基于所述目标特征向量和所述解码器，确定所述目标语音对应的所述用户特征信息。5.根据权利要求1所述的方法，其中，所述预设的语音识别模型基于以下步骤训练得到：获取语音样本和样本标注数据；对于编码器集合中的每个编码器，基于所述语音样本和所述样本标注数据，对该编码器进行训练，得到训练完成的编码器；基于各个所述训练完成的编码器，对解码器进行训练，得到训练完成的解码器；基于各个所述训练完成的编码器和所述训练完成的解码器，确定所述预设的语音识别模型。6.根据权利要求5所述的方法，其中，所述训练完成的编码器至少包括年龄编码器和性别编码器；以及所述基于各个所述训练完成的编码器，对解码器进行训练，得到训练完成的解码器，包括：基于所述语音样本和所述年龄编码器，确定样本年龄特征向量；基于所述语音样本和所述性别编码器，确定样本性别特征向量；将所述样本年龄特征向量和所述样本性别特征向量进行拼接，得到样本特征向量；基于所述样本特征向量和所述样本标注数据，对解码器进行训练，得到所述训练完成的解码器。7.一种用于识别语音的装置，包括：2CN113763968A权利要求书2/3页语音获取单元，被配置成获取目标语音；特征确定单元，被配置成基于所述目标语音和预设的语音识别模型，确定所述目标语音对应的用户特征向量集合；特征拼接单元，被配置成将所述用户特征向量集合中的各个用户特征向量拼接，得到目标特征向量；语音识别单元，被配置成基于所述目标特征向量，确定所述目标语音对应的用户特征信息。8.根据权利要求7所述的装置，其中，所述用户特征向量集合至少包括年龄特征向量和性别特征向量；以及所述语音识别单元进一步被配置成：基于所述目标特征向量，确定所述目标语音对应的年龄性别联合特征信息。9.根据权利要求7所述的装置，其中，所述预设的语音识别模型至少包括编码器集合；以及所述特征确定单元进一步被配置成：对于所述编码器集合中的每个编码器，基于所述目标语音和该编码器，确定该编码器对应的用户特征向量；基于所述编码器集合中各个编码器对应的用户特征向量，确定所述用户特征向量集合。10.根据权利要求7所述的装置，其中，所述预设的语音识别模型至少包括解码器；以及所

相关资料

用于识别语音的方法、装置、设备、介质和产品.pdf

本公开提供了用于识别语音的方法、装置、设备、介质和产品，涉及人工智能技术领域，尤其涉及语音技术领域。具体实现方案为：获取目标语音；基于目标语音和预设的语音识别模型，确定目标语音对应的用户特征向量集合；将用户特征向量集合中的各个用户特征向量拼接，得到目标特征向量；基于目标特征向量，确定目标语音对应的用户特征信息。本实现方式可以提高对用户特征的识别准确度。

2023-07-25

691KB

用于识别车道线的方法、装置、设备、介质和产品.pdf

本公开提供了用于识别车道线的方法及装置，涉及人工智能技术领域，具体为计算机视觉、深度学习技术领域。具体实现方案为：获取道路图像；基于道路图像和预设的车道线分割模型，确定道路图像中的初始双车道线；基于初始双车道线中未黏连的车道线坐标，确定拟合双车道线；利用拟合双车道线对初始双车道线中的黏连区域进行处理，得到目标双车道线。本实现方式可以提高双线类别的车道线识别精准度。

2023-07-24

688KB

视听语音识别方法、装置、设备、介质及产品.pdf

本申请提供一种视听语音识别方法、装置、设备、介质及产品，该方法包括：获取待识别的视频特征和对应的含噪语谱图；所述视频特征为基于用户的唇部图像提取的特征；所述含噪语谱图为基于用户的音频数据提取生成的；将所述视频特征和所述含噪语谱图输入预设视听语音增强模型进行降噪处理，输出对应的增强语谱图；将所述增强语谱图和所述视频特征输入预设视听语音识别模型进行语音识别，输出对应的最终字符序列。本申请的视听语音识别方法，通过预设视听语音识别模型对增强语谱图和视频特征两种模态进行识别，以两种模态互补的方式，提高最终字符序列的

2023-06-28

845KB

语音识别支付方法、装置、设备、介质和程序产品.pdf

本公开提供了一种语音识别支付方法，可以应用于支付技术领域，具体可用于金融领域及银行移动支付数据处理领域。该语音识别支付方法包括：接收动态验证汉字，其中，所述动态验证汉字为响应于语音支付请求而产生；采集语音输入，所述语音输入包括动态验证汉字及用户信息对应的语音信息；根据语音输入包括动态验证汉字及用户信息对应的语音信息进行身份验证及声纹验证；当身份验证及声纹验证通过时，采集商户信息及交易金额；输入密码进行支付验证，当支付验证通过后将所述交易金额支付至所述商户信息对应的商户。本公开还提供了一种语音识别支付装置、

2023-05-26

860KB

语音识别方法、介质、装置和计算设备.pdf

本公开的实施方式提供了一种语音识别方法、介质、装置和计算设备。该语音识别方法包括：获取待识别语音信号的声学特征；基于语音识别模型和声学特征，确定待识别语音信号包含的各语音片段为目标语音片段的置信度；根据各语音片段的置信度，识别待识别语音信号中的目标语音片段。一方面，通过语音识别模型对音频数据进行识别，可以大大提升语音识别的效率和准确率。另一方面，通过识别音频数据中特定人员的语音片段，可以排除非特定人员的语音片段的影响，进一步提升语音识别效率。

2023-07-25

1MB