预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共22页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN110838024A(43)申请公布日2020.02.25(21)申请号201910983946.7(22)申请日2019.10.16(71)申请人支付宝(杭州)信息技术有限公司地址310000浙江省杭州市西湖区西溪路556号8层B段801-11(72)发明人张超朱通孙传亮赵华(74)专利代理机构北京风雅颂专利代理有限公司11403代理人李莎(51)Int.Cl.G06Q30/02(2012.01)G06F16/9535(2019.01)G06N3/08(2006.01)权利要求书3页说明书14页附图4页(54)发明名称基于深度强化学习的信息推送方法及装置、设备(57)摘要本发明公开了一种基于深度强化学习的信息推送方法,包括:采集第一方信息、第一方状态数据和第二方行为数据;根据所述第一方信息,计算第二方反馈数据;利用深度强化学习模型,根据所述第一方状态数据、第二方行为数据和第二方反馈数据,生成推送信息;输出所述推送信息。本发明还公开了一种基于深度强化学习的信息推送方法装置、电子设备和存储介质。CN110838024ACN110838024A权利要求书1/3页1.一种基于深度强化学习的信息推送方法,其特征在于,包括:采集第一方信息、第一方状态数据和第二方行为数据;根据所述第一方信息,计算第二方反馈数据;利用深度强化学习模型,根据所述第一方状态数据、第二方行为数据和第二方反馈数据,生成推送信息;输出所述推送信息。2.根据权利要求1所述的方法,其特征在于,所述第一方信息包括第一方数量、第一方认证率、第一方绑卡率、第一方活跃占比、第一方风险账户比例中的至少一种;所述第一方状态数据包括第一方认证状态数据、第一方绑卡状态数据、第一方消费数据、第一方资产数据、第一方转账数据中的至少一种;所述第二方行为数据包括第二方针对渠道的行为数据和第二方针对用户的行为数据中的至少一种。3.根据权利要求2所述的方法,其特征在于,根据所述第一方信息,计算第二方反馈数据,包括:采用以下公式计算第二方反馈数据:总反馈值=单个第一方反馈值×第一方数量×第一方认证率×第一方绑卡率×第一方活跃占比×(1-第一方风险账户比例)×固定系数;其中,单个第一方反馈值是指一个第一方完成注册的反馈数值,第一方数量是指第一方完成注册的数量,第一方认证率是指第一方中进行了身份认证的比例,第一方绑卡率是指第一方中绑定了银行卡的比例,第一方活跃占比是指第一方中进行了预设互动操作的比例,第一方风险账户比例是指第一方中存在风险账户的比例,固定系数是指根据不同行业分别预设的系数。4.根据权利要求1所述的方法,其特征在于,还包括:建立初始深度强化学习模型;获取历史第一方状态数据、历史第二方行为数据和历史第二方反馈数据;利用所述历史第一方状态数据、历史第二方行为数据和历史第二方反馈数据,训练所述初始深度强化学习模型;经过训练得到所述深度强化学习模型。5.根据权利要求1所述的方法,其特征在于,所述推送信息至少包括以下其中一项:所述第二方反馈数据、所述反馈数据与预期反馈值的差异、第二方行为数据的优化方案。6.根据权利要求5所述的方法,其特征在于,利用深度强化学习模型,根据所述第一方状态数据、第二方行为数据和第二方反馈数据,生成推送信息,包括:利用深度强化学习模型,根据所述第一方状态数据、第二方行为数据和第二方反馈数据,对下一步实施各行为的优先级进行排序;根据排名处于排名阈值范围内的行为,生成所述第二方行为数据的优化方案。7.根据权利要求1所述的方法,其特征在于,输出所述推送信息之后,还包括:根据所述第一方状态数据、第二方行为数据和第二方反馈数据,优化所述深度强化学习模型。2CN110838024A权利要求书2/3页8.根据权利要求1所述的方法,其特征在于,所述深度强化学习模型,采用以下任意一种方法建立:基于值函数的深度强化学习方法、基于策略梯度的深度强化学习方法、基于演员-评论家模型的深度强化学习方法、基于搜索与监督的深度强化学习方法。9.一种基于深度强化学习的信息推送装置,其特征在于,包括:采集模块,用于采集第一方信息、第一方状态数据和第二方行为数据;反馈生成模块,用于根据所述第一方信息,计算第二方反馈数据;推送信息生成模块,用于利用深度强化学习模型,根据所述第一方状态数据、第二方行为数据和第二方反馈数据,生成推送信息;推送信息输出模块,用于输出所述推送信息。10.根据权利要求9所述的装置,其特征在于,所述第一方信息包括第一方数量、第一方认证率、第一方绑卡率、第一方活跃占比、第一方风险账户比例中的至少一种;所述第一方状态数据包括第一方认证状态数据、第一方绑卡状态数据、第一方消费数据、第一方资产数据、第一方转账数据中的至少一