预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共13页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN107688856A(43)申请公布日2018.02.13(21)申请号201710605336.4(22)申请日2017.07.24(71)申请人清华大学地址100084北京市海淀区清华园1号(72)发明人刘华平柳杨王博文孙富春(74)专利代理机构北京清亦华知识产权代理事务所(普通合伙)11201代理人廖元秋(51)Int.Cl.G06N3/08(2006.01)权利要求书4页说明书6页附图2页(54)发明名称基于深度强化学习的室内机器人场景主动识别方法(57)摘要本发明提供了一种基于深度强化学习的室内机器人场景主动识别方法,属于机器学习领域和机器人技术领域。该方法包括:训练一个能够识别声呐信息二值化轮廓图环投影向量的分类神经网络NL;进入强化学习训练阶段:对机器人在场景中进行多次场景识别试验,在试验过程中训练强化学习神经网络NQ使其拟合为一个函数逼近器;强化学习神经网络NQ训练完成后,进入执行阶段:根据声呐传感器采集的场景轮廓信息,对机器人室内场景主动识别功能进行测试。该发明的方法,基于极限学习机算法,提高了计算效率;基于强化学习算法,提高了场景识别的准确率。能够适应不同的场景识别任务,无需人为参与,是一个机器人主动学习,自主提高场景识别正确率的方法。CN107688856ACN107688856A权利要求书1/4页1.一种基于深度强化学习的室内机器人场景主动识别方法,其特征在于,该方法包括:强化学习神经网络NQ训练阶段和室内场景主动识别执行阶段:训练一个能够识别声呐信息二值化轮廓图环投影向量的分类神经网络NL;进入强化学习训练阶段:对机器人在场景中进行多次场景识别试验,在试验过程中训练强化学习神经网络NQ,使其拟合为一个函数逼近器;强化学习神经网络NQ训练完成后,进入执行阶段:根据声呐传感器采集的场景轮廓信息,对机器人室内场景主动识别功能进行测试。2.如权利要求1所述方法,其特征在于,该强化学习神经网络NQ训练阶段,包括以下步骤:(1)采集声呐测距信息并处理成二值化轮廓图,构建分类神经网络训练样本集,具体实施步骤如下:(1-1)构建不同的类型的室内场景,本实施例是采用的是普通家居场景,共构建5户不同家庭的室内场景,每个家庭构建M类,3≤M≤6,室内场景;(1-2)每类场景内设定3—5个数据采集点;(1-3)采用移动机器人搭载前端的多个声呐传感器阵列采集数据:(1-4)将步骤(1-3)采集得到的声呐测距信息和对应的分类标签建立样本集D;(1-5)将样本集D中每组声呐测距信息转换为二值化轮廓图;(1-6)将所有调整后的二值图像信息存入一个新建的样本集,该样本集作为分类神经网络训练样本集;(2)训练分类神经网络NL,具体步骤如下:(2-1)构建分类神经网络中的图像特征提取网络,该网络包括卷积层、降采样层,设定图像特征提取网络各层参数;(2-2)利用步骤(2-1)构建的图像特征提取网络提取训练样本图像特征矩阵;(2-3)利用步骤(2-2)得到的样本图像特征矩阵与样本集标签求输出权重β的闭式解:式中H为步骤(2-2)中提取的图像特征矩阵,N为该矩阵的行大小,W为该矩阵的列大小;T为样本集标签矩阵;C为常数;(3)训练强化学习神经网络NQ,具体步骤如下:(3-1)搭建强化学习神经网络NQ,共三层,包含输入层、隐藏层、输出层;设定神经元激活函数为g(x);(3-2)设定各类室内场景训练点数目,并设定每个训练点最大训练次数e,构建由强化学习样本集M;(3-3)从第一训练点开始对强化学习网络NQ训练,声呐传感器采集一次测距信息,记为si,依据步骤(1-5)作二值化轮廓图,将二值化轮廓图进行环投影转化为测距信息si对应的环投影向量输入到强化学习神经网络NQ,获得机器人左右两种转动动作对应的动作价值(Q1,Q2);2CN107688856A权利要求书2/4页(3-4)采用ε-greedy方式进行动作选择:以概率ε随机选择机器人两种转动动作并执行,概率随机选择动作进行以概率1-ε概率选择(Q1,Q2)中的较大值所对应的动作ai并执行,其中ε值随着训练的进行线性减小,n为总训练次数,i为当前训练次数;(3-5)执行完动作ai,采集动作ai后声呐传感器测距信息阵列,记为si+1,依据步骤(1-5)作二值化轮廓图,输入到分类神经网络NL中,获得二值化轮廓图的识别结果向量Ti+1(t1,t2,t3,t4);(3-6)将Ti+1(t1,t2,t3,t4)输入softmax函数转换为概率向量形式(3-7)定义回报函数其中r1、r2为即时回报,Yi为机器人当前所处房间分类标签,room为Ti中最大的t值所对应的下标,K为反比例系数,H(Ti)为信息熵函数设定r1=1,r2=-1,K