预览加载中,请您耐心等待几秒...
1/9
2/9
3/9
4/9
5/9
6/9
7/9
8/9
9/9

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115965193A(43)申请公布日2023.04.14(21)申请号202211558689.0G06N3/092(2023.01)(22)申请日2022.12.06(71)申请人太原理工大学地址030024山西省太原市迎泽西大街79号申请人星源数动(山西转型综合改革示范区)科技有限责任公司(72)发明人贾鹏江天成贾奇伟贺田(74)专利代理机构太原晋科知识产权代理事务所(特殊普通合伙)14110专利代理师任林芳(51)Int.Cl.G06Q10/0631(2023.01)G06Q10/04(2023.01)G06N3/045(2023.01)权利要求书2页说明书5页附图1页(54)发明名称基于深度强化学习的巡天望远镜实时路径规划方法(57)摘要本发明涉及巡天望远镜智能控制,使用望远镜进行天文观测,潜在观测的质量随着时间而变化,时域调查需要复杂的观测序列,使未来的观测取决于过去的观测发生的时间,而云层和天光背景的实时变化则变得更加复杂,本发明提供一种基于深度强化学习的巡天望远镜实时路径规划方法,在构建的恒星观测的环境模型中,控制望远镜的智能体,根据云层、天光背景测控信息、需要规避的目标和观测计划确定望远镜的观测动作,本发明利用全天相机捕捉望远镜所在位置的全天实时图片,降低天空中的云层和天光背景对观测效果的影响,本发明能够实时地根据观测恒星的顺序、实时的云层和天光背景动态变化来作出自动化观测,实现了快速规划所要观测星空的顺序。CN115965193ACN115965193A权利要求书1/2页1.一种基于深度强化学习的巡天望远镜实时路径规划方法,其特征在于,在构建的恒星观测的环境模型中,控制望远镜的智能体,根据云层、天光背景测控信息、需要规避的目标和观测计划确定望远镜的观测动作,包括以下步骤:步骤1.构建观测目标,恒星观测的环境模型:对太阳高度角的计算判定来确定观测的开始时间和结束时间,利用全天相机捕捉望远镜所在位置的全天实时图片,利用机器学习方法获取全天图像中云层和天光的分布位置指标图像,根据全天相机光学设计结构和安装位置,将云层及天光分布位置指标图像投影到地平坐标系上;根据观测者的经纬度、恒星轨道和观测时间来确定望远镜观测时所要规避的大行星、月亮、空间目标;步骤2.构建智能体的强化学习的训练环境:将步骤1中获取的标记云层和天光分布位置的全天实时图片作为语义分割网络模型的测试集和训练集,语义分割网络模型利用训练集和测试集进行训练和测试,直至语义分割网络模型的测试集准确率达到设定的阈值;将矫正后的云层及天光分布位置指标图像投影到地平坐标系上,得到云层和天光背景在地平坐标系下的高度角和方位角;步骤3.由步骤1和步骤2构建强化学习所需要的环境和智能体模型,通过训练使控制望远镜的智能体根据云层、天光背景测控信息、需要规避的目标和观测计划确定望远镜的观测动作,在有限时间内完成目标观测任务。2.根据权利要求1所述的基于深度强化学习的巡天望远镜实时路径规划方法,其特征在于:所述步骤2中,准确率的设定的阈值不低于97%。3.根据权利要求1所述的基于深度强化学习的巡天望远镜实时路径规划方法,其特征在于:所述控制望远镜的智能体包括观测系统、控制系统,利用基于强化学习标准的应用程序接口gym建立观测系统,观测系统根据信噪比确定曝光时间,控制系统根据当前环境、观测计划及望远镜的机械转动结构,确定望远镜旋转到指定位置。4.根据权利要求1所述的基于深度强化学习的巡天望远镜实时路径规划方法,其特征在于:所述的步骤3中,控制望远镜的智能体的训练过程如下:望远镜在训练环境中的当前状态s经过动作a移动至下一状态s’,当前状态所获得的奖励作为及时奖励r,通过r的值衡量动作a;使用四层神经网络作为目标网络Q’和实际网络Q,根据目标网络的更新速率更新目标网络的权值,智能体根据当前状态s选择不同的动作移动至下一状态,以实现观测顺序的调整。5.根据权利要求4所述的基于深度强化学习的巡天望远镜实时路径规划方法,其特征在于:所述及时奖励r包括时间奖励和恒星的价值的设定值。6.根据权利要求4或5所述的基于深度强化学习的巡天望远镜实时路径规划方法,其特征在于:训练优化智能体的路径规划系统的具体步骤如下:步骤3.1:在步骤1和步骤2所构建的环境模型和训练模型中,将待观测的恒星的价值设定为M,在环境模型中引入观测结束的时间,时间奖励值为观测结束时间与开始观测时间的时间间隔;步骤3.2:初始化经验池,当前状态s输入实际网络,实际网络返回当前状态s中所有可能的评估动作的价值的Q值,利用贪心策略选取一个动作,确定所选动作a后,智能体执行所2CN115965193A权利要求书2/2页选定的动作a,进入下一状态s’,得到及时奖励r