语音控制方法、装置、电子设备以及存储介质-豆柴文库

语音控制方法、装置、电子设备以及存储介质.pdf

2023-07-24

10金币

1.5MB

35页

是你****松呀

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共35页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113923295A(43)申请公布日2022.01.11(21)申请号202111363115.3(22)申请日2021.11.17(71)申请人OPPO广东移动通信有限公司地址523860广东省东莞市长安镇乌沙海滨路18号(72)发明人陈明张晓帆(74)专利代理机构深圳市智圈知识产权代理事务所(普通合伙)44351代理人吕静(51)Int.Cl.H04M1/72433(2021.01)H04M1/72469(2021.01)G06F9/451(2018.01)权利要求书3页说明书19页附图12页(54)发明名称语音控制方法、装置、电子设备以及存储介质(57)摘要本申请公开了一种语音控制方法、装置、电子设备以及存储介质，显示图形界面，响应语音交互指令，获取图形界面对应的图形界面截图，对图形界面截图进行处理，获得图形界面中包括的多个目标元素，当通过多个目标元素组成多个满足预设排列规则的元素集合时，按对应的集合尺寸从大到小的顺序从多个元素集合中筛选出目标元素集合，对至少两个目标元素进行索引编号，获得至少两个目标元素各自对应的目标索引编号，基于至少两个目标元素各自对应的目标索引编号，从至少两个元素中确定语音交互指令对应的目标元素，从而可以无需被控制应用对语音控制进行适配，就能实现用户通过语音对界面进行交互控制，节省语音识别的时长，并提升语音交互的准确率。CN113923295ACN113923295A权利要求书1/3页1.一种语音控制方法，其特征在于，所述方法包括：显示图形界面；响应语音交互指令，获取所述图形界面对应的图形界面截图；对所述图形界面截图进行处理，获得所述图形界面中包括的多个目标元素；当通过所述多个目标元素组成多个满足预设排列规则的元素集合时，按对应的集合尺寸从大到小的顺序从多个元素集合中筛选出目标元素集合，其中，所述目标元素集合由所述多个目标元素中的至少两个目标元素组成；对所述至少两个目标元素进行索引编号，获得所述至少两个目标元素各自对应的目标索引编号；基于所述至少两个目标元素各自对应的目标索引编号，从所述至少两个目标元素中确定所述语音交互指令对应的目标元素。2.根据权利要求1所述的方法，其特征在于，所述对所述图形界面截图进行处理，获得所述图形界面中包括的多个目标元素，包括：对所述图形界面截图进行检测，获取所述图形界面中包括的多个元素；对所述多个元素进行去重，获得所述图形界面中包括的多个目标元素。3.根据权利要求2所述的方法，其特征在于，所述对所述图形界面截图进行检测，获取所述图形界面中包括的多个元素，包括：通过第一方式对所述图形界面截图进行检测，获取所述图形界面中包括的多个第一元素，其中，所述多个第一元素在所述图形界面中显示；通过第二方式对所述图形界面截图进行检测，获取所述图形界面中包括的多个第二元素，其中，所述多个第二元素在所述图形界面中隐藏；所述对所述多个元素进行去重，获得所述图形界面中包括的多个目标元素，包括：对所述多个第一元素和所述多个第二元素进行去重处理，获得所述图形界面中包括的多个目标元素。4.根据权利要求3所述的方法，其特征在于，所述对所述多个第一元素和所述多个第二元素进行去重处理，获得所述图形界面中包括的多个目标元素，包括：获取所述多个第一元素和所述多个第二元素中，重叠的元素之间的重叠区域比例；当所述重叠区域比例大于或等于比例阈值时，从所述重叠的元素中保留尺寸最大的元素；当所述重叠区域比例小于所述比例阈值时，保留所述重叠的元素。5.根据权利要求3所述的方法，其特征在于，所述通过第二方式对所述图形界面截图进行检测，获取所述图形界面中包括的多个第二元素，其中，所述多个第二元素在所述图形界面中隐藏，包括：基于元素检测模型对所述图形界面截图进行检测，获取所述图形界面中包括的所述多个第二元素，其中，所述元素检测模型基于对图形界面的布局规则进行学习获得。6.根据权利要求1‑5任一项所述的方法，其特征在于，所述对所述至少两个目标元素进行索引编号，获得所述至少两个目标元素各自对应的目标索引编号，包括：获取所述目标元素集合对应的元素尺寸在所述图形界面的占比；当所述占比大于或等于占比阈值时，获得所述至少两个目标元素各自对应的目标索引2CN113923295A权利要求书2/3页编号。7.根据权利要求6所述的方法，其特征在于，在所述当所述占比大于或等于占比阈值时，获得所述至少两个目标元素各自对应的目标索引编号之前，还包括：对所述语音交互指令进行解析，获得所述语音交互指令所包含的语音信息；基于所述语音信息，确定所述占比阈值。8.根据权利要求7所述的方法，其特征在于，所述基于所述语音信息，确定所述占比阈值，包括：当所述语音信息同时包括文本描述和索引编

相关资料

语音控制方法、装置、电子设备以及存储介质.pdf

本申请公开了一种语音控制方法、装置、电子设备以及存储介质，显示图形界面，响应语音交互指令，获取图形界面对应的图形界面截图，对图形界面截图进行处理，获得图形界面中包括的多个目标元素，当通过多个目标元素组成多个满足预设排列规则的元素集合时，按对应的集合尺寸从大到小的顺序从多个元素集合中筛选出目标元素集合，对至少两个目标元素进行索引编号，获得至少两个目标元素各自对应的目标索引编号，基于至少两个目标元素各自对应的目标索引编号，从至少两个元素中确定语音交互指令对应的目标元素，从而可以无需被控制应用对语音控制进行适配

2023-07-24

1.5MB

语音处理方法、装置、电子设备以及存储介质.pdf

本申请公开了一种语音处理方法、装置、电子设备以及存储介质，包括：获取已标注的第一语音样本、未标注的第二语音样本、预训练的基础语音模型、流式语音处理模型和语言模型；根据第一语音样本对流式语音处理模型进行调整，得到调整后流式语音处理模型；基于第一语音样本、第二语音样本以及流式语音处理模型对应的教师模型，对流式语音处理模型进行训练，得到训练后流式语音处理模型；根据第一语音样本、基础语音模型以及语言模型对第二语音样本进行标注，得到标注后第二语音样本；基于第一语音样本和标注后第二语音样本对训练后流式语音处理模型进行

2023-07-25

845KB

语音处理方法、装置、电子设备以及存储介质.pdf

本公开提供了语音处理方法、装置、电子设备、存储介质以及程序产品，涉及人工智能技术领域，尤其涉及车联网和智能座舱等技术领域。具体实现方案为：响应于语音交互功能被唤醒，获取被用于唤醒语音交互功能的唤醒语音的唤醒声纹特征；从接收到的交互语音中提取至少一个交互声纹特征，交互语音中包括至少一个单声源交互语音，至少一个单声源交互语音与至少一个交互声纹特征一一对应；从至少一个交互声纹特征中确定与唤醒声纹特征相匹配的目标交互声纹特征；从与目标交互声纹特征相对应的目标单声源交互语音中提取目标语音特征；以及发送目标语音特征，

2023-07-24

817KB

语音唤醒方法、装置、电子设备以及存储介质.pdf

本公开提供了语音唤醒方法、装置、电子设备、存储介质以及程序产品，涉及人工智能技术领域，尤其涉及语音交互、云计算、智能座舱和车联网等技术领域。具体实现方案为：响应于确定唤醒语音来自目标用户，获取与目标用户相对应的目标唤醒阈值；对唤醒语音进行唤醒识别，得到唤醒识别结果；以及基于唤醒识别结果和目标唤醒阈值，确定唤醒结果，唤醒结果指示了语音交互功能是否被唤醒语音唤醒。

2023-07-24

655KB

语音识别方法、装置、电子设备以及存储介质.pdf

本申请实施例提供一种语音识别方法、装置、电子设备以及存储介质。本申请实施例提供的语音识别方法，包括：获取第一语音片段的频谱信息，第一语音片段包含有目标语音块和辅助语音块，辅助语音块为目标语音块相邻的语音块；根据第一语音片段的频谱信息，以及辅助语音块的有效区间和权重，对目标语音块进行识别。本申请实施例提供的语音识别方法，可以提高流式语音识别的时识别精度。

2023-07-24

635KB