显示设备及语音交互方法-豆柴文库

显示设备及语音交互方法.pdf

2023-07-24

10金币

1.1MB

27页

雨巷****莺莺

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共27页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN114299940A(43)申请公布日2022.04.08(21)申请号202110577525.1(22)申请日2021.05.26(71)申请人海信视像科技股份有限公司地址266555山东省青岛市经济技术开发区前湾港路218号(72)发明人王峰(74)专利代理机构北京弘权知识产权代理有限公司11363代理人郭放许伟群(51)Int.Cl.G10L15/22(2006.01)G10L15/25(2013.01)H04N5/232(2006.01)G01S5/20(2006.01)权利要求书2页说明书15页附图9页(54)发明名称显示设备及语音交互方法(57)摘要本申请实施例提供了一种显示设备及语音交互方法，显示设备包括显示器，用于呈现用户界面；控制器，与显示器连接，控制器被配置为：获取目标人的用户身份信息，并采集语音实时指令，所述目标人包括发出所述唤醒指令的人或注册用户；在摄像头采集的图像中检测人脸信息；若人脸信息为目标人的人脸信息，对目标人进行人脸追踪和唇动检测，若目标人的人脸发生了唇动，且语音实时指令包括目标人的语音，对语音实时指令进行响应；若目标人的人脸没有发生唇动，或语音实时指令不包括目标人的语音，不对语音实时指令进行响应。本申请解决了语音交互体验不佳的技术问题。CN114299940ACN114299940A权利要求书1/2页1.一种显示设备，其特征在于，包括：显示器，用于呈现用户界面；摄像头，用于采集图像；控制器，与所述显示器连接，所述控制器被配置为：采集语音唤醒指令；响应于所述语音唤醒指令，获取目标人的用户身份信息，并采集语音实时指令，所述目标人包括发出所述唤醒指令的人或注册用户；在所述摄像头采集的图像中检测人脸信息；若检测到所述目标人的人脸信息，对所述目标人进行人脸追踪和唇动检测，若所述目标人的人脸发生了唇动，且所述语音实时指令包括所述目标人的语音，对所述语音实时指令进行响应；若所述目标人的人脸没有发生唇动，或所述语音实时指令不包括所述目标人的语音，不对所述语音实时指令进行响应。2.根据权利要求1所述的显示设备，其特征在于，在所述摄像头采集的图像中检测人脸信息，包括：对所述语音唤醒指令进行声源定位，得到唤醒声源位置；朝向所述唤醒声源位置转动摄像头，在转动过程中，在所述摄像头采集的图像中检测人脸信息，若检测到所述目标人的人脸信息，则控制所述摄像头停止转动。3.根据权利要求1所述的显示设备，其特征在于，对所述目标人进行人脸追踪和唇动检测，包括：获取所述摄像头拍摄的图像中目标人脸部的实时坐标范围；对所述实时坐标范围内的图像进行唇动检测。4.根据权利要求1所述的显示设备，其特征在于，对所述目标人进行人脸追踪和唇动检测，包括：获取所述摄像头拍摄的图像中目标人脸部的实时坐标范围；根据所述实时坐标范围的变化趋势控制所述摄像头进行转动，使所述目标人的人脸位于所述摄像头采集的图像中的预设区域内；对所述目标人脸部的图像进行唇动检测。5.根据权利要求1所述的显示设备，其特征在于，所述控制器还被配置为：若检测不到所述目标人的人脸，对所述语音实时指令进行声源定位，得到实时声源位置；朝向所述实时声源位置转动摄像头，在所述摄像头采集的图像中检测所述用户身份信息对应的目标人的人脸。6.根据权利要求1所述的显示设备，其特征在于，获取所述语音唤醒指令对应的用户身份信息，包括：对所述语音唤醒指令进行声纹识别，得到用户身份信息，所述用户身份信息包括目标人的声纹信息。7.根据权利要求1所述的显示设备，其特征在于，对所述语音实时指令进行响应，包括：若所述摄像头拍摄的图像中只包括了所述目标人的单人人脸，将所述唤醒声源位置对2CN114299940A权利要求书2/2页应的语音进行定向语音增强；对定向语音增强后的语音实时指令进行响应。8.根据权利要求1所述的显示设备，其特征在于，对所述语音实时指令进行响应，包括：若所述语音实时指令包含了多路语音，从所述语音实时指令中分离出所述目标人的单路语音；根据所述目标人的单路语音进行响应。9.根据权利要求1所述的显示设备，其特征在于，所述控制器还被配置为：在采集到所述语音实时指令后，向服务器发送所述语音实时指令，使所述服务器对所述语音实时指令进行声纹识别、语音识别和语义识别，得到识别结果；接收所述服务器对所述语音实时指令的识别结果。10.一种语音交互方法，其特征在于，包括：采集语音唤醒指令；响应于所述语音唤醒指令，获取目标人的用户身份信息，并采集语音实时指令，所述目标人包括发出所述唤醒指令的人或注册用户；在摄像头采集的图像中检测人脸信息；若检测到所述目标人的人脸信息，对所述目标人进行人脸追踪和唇动检测，若所述目标人的人脸发生了唇动，且所述语音实

相关资料

显示设备及语音交互方法.pdf

本申请实施例提供了一种显示设备及语音交互方法，显示设备包括显示器，用于呈现用户界面；控制器，与显示器连接，控制器被配置为：获取目标人的用户身份信息，并采集语音实时指令，所述目标人包括发出所述唤醒指令的人或注册用户；在摄像头采集的图像中检测人脸信息；若人脸信息为目标人的人脸信息，对目标人进行人脸追踪和唇动检测，若目标人的人脸发生了唇动，且语音实时指令包括目标人的语音，对语音实时指令进行响应；若目标人的人脸没有发生唇动，或语音实时指令不包括目标人的语音，不对语音实时指令进行响应。本申请解决了语音交互体验不佳的

2023-07-24

1.1MB

显示设备、服务器及语音交互方法.pdf

本申请实施例提供了一种显示设备、服务器及语音交互方法。显示设备包括显示器、音频采集装置和控制器，控制器被配置为：响应于接收到用户输入的第一语音控制信号，启动本轮决策，向服务器发送第一语音控制信号；接收并输出来自服务器的第一决策结果，其中，第一决策结果设置有动作类型；根据第一决策结果的动作类型为选择，接收用户输入的第二语音控制信号，向服务器发送第二语音控制信号；接收并输出来自服务器的第二决策结果，结束本轮决策。本申请通过在难以准确判断出用户的意图时，与用户进行交互，使用户输入第二语音控制信号，根据第二语音控

2023-08-25

1.2MB

一种多轮语音交互方法及显示设备.pdf

本申请公开了一种多轮语音交互方法及显示设备，获取用户产生的第一轮交互语音，经过业务意图分析，若存在多业务意图则筛选出第一轮目标业务意图，并基于非目标业务意图的主指令词生成第一轮提示文本。用户在第二轮语音交互时，如果第二轮交互语音与第一轮提示文本中携带的主指令词匹配，则确定第二轮语音交互与第一轮语音交互构成多轮语音交互过程，此时，基于匹配的主指令词对应的业务意图进行查询，基于得到的第二轮查询信息生成第二轮提示文本。可见，该方法及显示设备，在语音交互存在多业务意图时，可通过多轮语音交互提供给用户自行选择的机会

2023-08-25

1.8MB

语音交互方法、语音交互设备和电子设备.pdf

本申请公开了一种语音交互方法、语音交互设备和电子设备，涉及语音交互技术领域。其中方法包括：响应于接收到包含第一词语的第一语音指令，判断第二语音指令是否包含唤醒特征词；其中，所述第一词语与所述语音交互设备的唤醒词相匹配，所述第二语音指令为所述第一语音指令的上一轮语音指令，所述唤醒特征词为与所述语音交互设备的名称相关联的词语；在所述第二语音指令包含所述唤醒特征词的情况下，将所述唤醒特征词添加至第一词库。本申请丰富了语音交互设备的唤醒方式，使语音交互设备的唤醒更加自然、多样。

2023-08-26

554KB

语音交互显示系统及智能显示终端.pdf

本发明公开了一种语音交互显示系统及智能显示终端，该系统包括主机、有源光缆模块、服务器、第一显示屏以及第二显示屏；主机分别连接有源光缆模块和服务器，用于获取节目信号和外部声音信号，根据节目信号向有源光缆模块输出节目视频图像信号，且根据外部声音信号向服务器输出语音信号；服务器用于根据语音信号向主机返回响应信息，主机根据响应信息向有源光缆模块输出文字信息和交互信息；有源光线模块分别连接第一显示屏和第二显示屏，用于将节目视频图像信号进行处理并驱动第一显示屏显示视频图像，以及将文字信息和交互信息进行处理并驱动第二显

2023-07-24

517KB