预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共18页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115814428A(43)申请公布日2023.03.21(21)申请号202211427391.6G06N3/09(2023.01)(22)申请日2022.11.15G06N3/092(2023.01)(71)申请人重庆六花网络科技有限公司地址401120重庆市渝北区玉峰山镇玉龙大道188号(72)发明人魏新宇张攀陈伦广陈伟健罗勇刚(74)专利代理机构深圳市恒程创新知识产权代理有限公司44542专利代理师张小容(51)Int.Cl.A63F13/67(2014.01)G06F18/214(2023.01)G06F18/241(2023.01)G06N3/0464(2023.01)权利要求书2页说明书10页附图5页(54)发明名称基于模型融合的牌型预测方法、装置、设备及存储介质(57)摘要本发明属于棋牌游戏技术领域,公开了一种基于模型融合的牌型预测方法、装置、设备及存储介质。该方法包括:构建游戏环境;根据所述游戏规则与预设需求,确定奖励策略;获取当前牌局信息,根据所述当前牌局信息、奖励策略与强化学习模型,建立样本数据库;根据样本数据库对强化学习模型进行训练,建立对局模型;根据对局模型,得到对局数据;根据对局数据,对监督学习模型进行训练,得到牌型预测模型;根据目标牌局信息与牌型预测模型,得到预测数据,根据预测数据进行出牌。通过上述方式,利用强化学习从无到有的特性,结合监督学习的高效性,训练出最终的机器人模型,有效解决棋牌游戏机器人在新玩法中的冷启动问题,大幅降低项目运营成本。CN115814428ACN115814428A权利要求书1/2页1.一种基于模型融合的牌型预测方法,其特征在于,所述基于模型融合的牌型预测方法包括:构建游戏环境,所述游戏环境至少包括游戏规则和游戏流程;根据所述游戏规则与预设需求,确定奖励策略;获取当前牌局信息,根据所述当前牌局信息、奖励策略与强化学习模型,建立样本数据库;根据所述样本数据库对强化学习模型进行训练,建立对局模型;根据所述对局模型与游戏环境,得到对局数据;根据所述对局数据,对监督学习模型进行训练,得到牌型预测模型;根据目标牌局信息与所述牌型预测模型,得到预测数据,根据所述预测数据进行出牌。2.如权利要求1所述的方法,其特征在于,所述获取当前牌局信息,根据所述当前牌局信息、奖励策略与强化学习模型,建立样本数据库,包括:根据预设神经网络结构,建立强化学习模型;根据所述游戏流程与游戏规则初始化当前牌局,得到当前牌局信息;根据所述当前牌局信息、奖励策略与强化学习模型,确定当前出牌数据,并将所述当前出牌数据存储至自对弈数据库中;更新所述当前牌局信息,根据所述更新后的当前牌局信息,确定当前牌局是否结束;在所述当前牌局结束时,获取牌局结果数据,根据所述牌局结果数据与自对弈数据库确定当前样本数据;将所述当前样本数据存储至样本数据库中。3.如权利要求2所述的方法,其特征在于,所述根据所述当前牌局信息、奖励策略与强化学习模型,确定当前出牌数据,包括:根据预设数据格式对所述当前牌局信息进行转换,得到当前牌局数据;将所述当前牌局数据输入所述强化学习模型,得到初始出牌数据;根据所述奖励策略对所述初始出牌数据进行评分,得到出牌评分数据;根据所述出牌评分数据与初始出牌数据,确定当前出牌数据。4.如权利要求2所述的方法,其特征在于,所述更新所述当前牌局信息,根据所述更新后的当前牌局信息,确定当前牌局是否结束之后,还包括:在所述当前牌局未结束时,根据所述更新后的当前牌局信息,返回执行将当前牌局信息输入所述强化学习模型,得到初始出牌数据的步骤。5.如权利要求2所述的方法,其特征在于,所述根据所述样本数据库对所述强化学习模型进行训练,建立对局模型,包括:根据所述样本数据库,确定样本数量;在所述样本数量满足预设累积数量时,根据所述样本数据库中的样本数据对所述强化学习模型进行训练,得到新的强化学习模型,并记录迭代次数;在所述迭代次数大于等于预设迭代阈值时,根据所述新的强化学习模型,确定对局模型。6.如权利要求5所述的方法,其特征在于,所述根据所述样本数据库,确定样本数量之后,还包括:2CN115814428A权利要求书2/2页在所述样本数量不满足预设累积数量时,初始化所述自对弈数据库,返回执行根据所述游戏流程与游戏规则初始化牌局信息,得到当前牌局信息的步骤;所述在所述样本数量满足预设累积数量时,根据所述样本数据库中的样本数据对所述强化学习模型进行训练,得到新的强化学习模型,并记录迭代次数之后,还包括:在所述迭代次数小于预设迭代阈值时,初始化所述自对弈数据库,根据所述新的强化学习模型,返回执行根据所述游戏流程与游戏规则初始化牌局信息,得到当前牌局信息的步骤。7.如权利要求1