预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共11页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115019766A(43)申请公布日2022.09.06(21)申请号202210565146.5G10L21/0208(2013.01)(22)申请日2022.05.23G06F16/33(2019.01)G06F16/332(2019.01)(71)申请人浙江鼎帅科技有限公司G06F40/253(2020.01)地址311100浙江省杭州市余杭区良渚街G06F40/30(2020.01)道好运街152号1幢2层201室G06V10/62(2022.01)(72)发明人陈日清G06V10/94(2022.01)(74)专利代理机构北京知果之信知识产权代理G06V20/40(2022.01)有限公司11541G06V40/10(2022.01)专利代理师高科(51)Int.Cl.G10L13/02(2013.01)G10L13/08(2013.01)G10L13/10(2013.01)G10L15/22(2006.01)G10L15/26(2006.01)权利要求书2页说明书6页附图2页(54)发明名称基于语音的智能视觉交互方法及系统(57)摘要本发明公开了基于语音的智能视觉交互方法及系统。本发明中,系统用到的人机对话模块基于开发接口,设计了语音识别模块、语音合成模块及人机对话模块,最后对目标检测跟踪模块进行了设计,并使用目标跟踪运动策略使机器人能达到实时跟随的目的,从而提高了该智能视觉交互系统在使用时的跟随性,可以跟随着使用者实时进行目标跟踪检测,提高了该系统打准确性与智能型,同时通过训练暗光、遮挡情况下目标数据集及对除行人之外的其它物体检测框的去除,使目标检测模块能更好地服务于使用者。最后基于相关技术,对人机交互系统进行了实现,从而使得该系统具有更强的可靠性和实用性。CN115019766ACN115019766A权利要求书1/2页1.基于语音的智能视觉交互方法及系统,包括启动模块(1)、语音识别模块(2)、人机交互模块(3)、信息处理模块(4)、人机对话模块(5)、音频输出模块(6)、扬声器模块(7)、视觉检测模块(8)、识别接口模块(9)、语音去噪模块(10)、语音合成模块(11)、视觉采集模块(12)、初始化模块(13)、预处理模块(14),其特征在于:所述启动模块(1)的输出端连接有所述语音识别模块(2)的输入端,所述语音识别模块(2)的输出端连接有所述人机交互模块(3)的输入端,所述人机交互模块(3)的输出端连接有所述信息处理模块(4)的输入端,所述信息处理模块(4)的输出端连接有所述人机对话模块(5)的输入端,所述人机对话模块(5)的输出端连接有所述音频输出模块(6)的输入端,所述音频输出模块(6)的输出端连接有所述扬声器模块(7)的输入端,所述人机交互模块(3)的外部固定连接有视觉检测模块(8)。2.如权利要求1所述的基于语音的智能视觉交互方法及系统,其特征在于:所述语音识别模块(2)的内部固定安装有识别接口模块(9)、语音去噪模块(10)和语音合成模块(11),所述识别接口模块(9)、语音去噪模块(10)和语音合成模块(11)的输出端连接有所述语音识别模块(2)的输入端。3.如权利要求1所述的基于语音的智能视觉交互方法及系统,其特征在于:所述视觉检测模块(8)的内部固定安装有视觉采集模块(12)、初始化模块(13)和预处理模块(14),所述视觉采集模块(12)、初始化模块(13)和预处理模块(14)的输出端连接有所述视觉检测模块(8)的输入端。4.如权利要求1所述的基于语音的智能视觉交互方法及系统,其特征在于:所述识别接口模块(9)的内部设置有waveIn模块,该模块提供了语音应用程序和语音识别引擎之间的高层接口,完成了对语音引擎的实时操控;使用该接口时一般的函数调用顺序如下:启动模块(1)create_recorder创建录音对象;语音识别模块(2)open_recorder打开录音机,配置录音格式;人机交互模块(3)start_record开始录音,录音数据在注册的回调函数中获取;信息处理模块(4)stop_record停止录音;人机对话模块(5)close_recorder关闭录音机,对应open_recorder;音频输出模块(6)destroy_recorder销毁录音对象,对应create_recorder;waveIn提供了IflyIatSession、start、stop、writeAudio、cancel等语音识别接口;IflyIatSession可以初始化“语音听写会话”对象,用于调用其它听写接口;本接口应当在应用程序中仅调用一次,多次调用本函数时只有第一次调用此函数会进行实际的登录操作;start函数是“开始语音识别”接