基于深度强化学习的信息推送方法及装置、设备-豆柴文库

基于深度强化学习的信息推送方法及装置、设备.pdf

2023-05-25

10金币

698KB

22页

英哲****公主

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共22页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN110838024A(43)申请公布日2020.02.25(21)申请号201910983946.7(22)申请日2019.10.16(71)申请人支付宝（杭州）信息技术有限公司地址310000浙江省杭州市西湖区西溪路556号8层B段801-11(72)发明人张超朱通孙传亮赵华(74)专利代理机构北京风雅颂专利代理有限公司11403代理人李莎(51)Int.Cl.G06Q30/02(2012.01)G06F16/9535(2019.01)G06N3/08(2006.01)权利要求书3页说明书14页附图4页(54)发明名称基于深度强化学习的信息推送方法及装置、设备(57)摘要本发明公开了一种基于深度强化学习的信息推送方法，包括：采集第一方信息、第一方状态数据和第二方行为数据；根据所述第一方信息，计算第二方反馈数据；利用深度强化学习模型，根据所述第一方状态数据、第二方行为数据和第二方反馈数据，生成推送信息；输出所述推送信息。本发明还公开了一种基于深度强化学习的信息推送方法装置、电子设备和存储介质。CN110838024ACN110838024A权利要求书1/3页1.一种基于深度强化学习的信息推送方法，其特征在于，包括：采集第一方信息、第一方状态数据和第二方行为数据；根据所述第一方信息，计算第二方反馈数据；利用深度强化学习模型，根据所述第一方状态数据、第二方行为数据和第二方反馈数据，生成推送信息；输出所述推送信息。2.根据权利要求1所述的方法，其特征在于，所述第一方信息包括第一方数量、第一方认证率、第一方绑卡率、第一方活跃占比、第一方风险账户比例中的至少一种；所述第一方状态数据包括第一方认证状态数据、第一方绑卡状态数据、第一方消费数据、第一方资产数据、第一方转账数据中的至少一种；所述第二方行为数据包括第二方针对渠道的行为数据和第二方针对用户的行为数据中的至少一种。3.根据权利要求2所述的方法，其特征在于，根据所述第一方信息，计算第二方反馈数据，包括：采用以下公式计算第二方反馈数据：总反馈值＝单个第一方反馈值×第一方数量×第一方认证率×第一方绑卡率×第一方活跃占比×(1-第一方风险账户比例)×固定系数；其中，单个第一方反馈值是指一个第一方完成注册的反馈数值，第一方数量是指第一方完成注册的数量，第一方认证率是指第一方中进行了身份认证的比例，第一方绑卡率是指第一方中绑定了银行卡的比例，第一方活跃占比是指第一方中进行了预设互动操作的比例，第一方风险账户比例是指第一方中存在风险账户的比例，固定系数是指根据不同行业分别预设的系数。4.根据权利要求1所述的方法，其特征在于，还包括：建立初始深度强化学习模型；获取历史第一方状态数据、历史第二方行为数据和历史第二方反馈数据；利用所述历史第一方状态数据、历史第二方行为数据和历史第二方反馈数据，训练所述初始深度强化学习模型；经过训练得到所述深度强化学习模型。5.根据权利要求1所述的方法，其特征在于，所述推送信息至少包括以下其中一项：所述第二方反馈数据、所述反馈数据与预期反馈值的差异、第二方行为数据的优化方案。6.根据权利要求5所述的方法，其特征在于，利用深度强化学习模型，根据所述第一方状态数据、第二方行为数据和第二方反馈数据，生成推送信息，包括：利用深度强化学习模型，根据所述第一方状态数据、第二方行为数据和第二方反馈数据，对下一步实施各行为的优先级进行排序；根据排名处于排名阈值范围内的行为，生成所述第二方行为数据的优化方案。7.根据权利要求1所述的方法，其特征在于，输出所述推送信息之后，还包括：根据所述第一方状态数据、第二方行为数据和第二方反馈数据，优化所述深度强化学习模型。2CN110838024A权利要求书2/3页8.根据权利要求1所述的方法，其特征在于，所述深度强化学习模型，采用以下任意一种方法建立：基于值函数的深度强化学习方法、基于策略梯度的深度强化学习方法、基于演员-评论家模型的深度强化学习方法、基于搜索与监督的深度强化学习方法。9.一种基于深度强化学习的信息推送装置，其特征在于，包括：采集模块，用于采集第一方信息、第一方状态数据和第二方行为数据；反馈生成模块，用于根据所述第一方信息，计算第二方反馈数据；推送信息生成模块，用于利用深度强化学习模型，根据所述第一方状态数据、第二方行为数据和第二方反馈数据，生成推送信息；推送信息输出模块，用于输出所述推送信息。10.根据权利要求9所述的装置，其特征在于，所述第一方信息包括第一方数量、第一方认证率、第一方绑卡率、第一方活跃占比、第一方风险账户比例中的至少一种；所述第一方状态数据包括第一方认证状态数据、第一方绑卡状态数据、第一方消费数据、第一方资产数据、第一方转账数据中的至少一

相关资料

基于深度强化学习的信息推送方法及装置、设备.pdf

本发明公开了一种基于深度强化学习的信息推送方法，包括：采集第一方信息、第一方状态数据和第二方行为数据；根据所述第一方信息，计算第二方反馈数据；利用深度强化学习模型，根据所述第一方状态数据、第二方行为数据和第二方反馈数据，生成推送信息；输出所述推送信息。本发明还公开了一种基于深度强化学习的信息推送方法装置、电子设备和存储介质。

2023-05-25

698KB

基于深度学习的信息推送方法、装置、电子设备及介质.pdf

本申请实施例公开了一种基于深度学习的信息推送方法、装置、电子设备及介质，方法包括：获取指定时间内脱保且脱保后未购买保险产品的第一用户的涉保信息后，根据涉保信息得到投保指标对应的投保特征信息，再将投保特征信息导入训练好的目标网络模型，得到第一用户的目标投保等级，若目标投保等级大于预设投保等级，则根据涉保信息确定第一用户的有效浏览的次数超过预设次数的目标保险产品信息，获取第一用户的用户信息，最后将用户信息和目标保险产品信息发送到目标用户的用户设备。本发明通过从脱保客户中筛选出的投保等级较高的潜在投保客户及潜在

2023-07-24

575KB

基于深度学习的信息推送方法、装置、电子设备及介质.pdf

本申请实施例公开了一种基于深度学习的信息推送方法、装置、电子设备及介质，其中，该方法包括：获取在产品页面上访问保险产品信息但未购买保险产品的第一用户的触网信息后，根据触网信息得到投保指标对应的投保特征信息，之后将投保特征信息导入利用第一用户和第二用户的投保特征信息为样本构建并训练得到网络模型，得到第一用户的目标投保等级，第二用户为在产品页面上访问保险产品信息且购买保险产品的用户，若目标投保等级大于预设投保等级，则获取第一用户的用户信息，再将用户信息发送到目标用户的用户设备。本发明通过从触网客户中筛选出的投

2023-07-24

528KB

基于多模态深度学习模型的信息推送方法及装置.pdf

本申请涉及人工智能及数字医疗领域，提供了一种基于多模态深度学习模型的信息推送方法及装置，主要目的在于改善现有单模态的图像数据处理方式，导致识别结果精度低下，从而影响信息推送的精准性及有效性的技术问题。包括：获取目标对象的流体数据、以及图像数据；基于已完成模型训练的多模态深度学习模型对流体数据、图像数据进行分类标记处理，得到不同标签标记识别区域的图像信息；从医学知识图谱中查找与图像信息中各识别区域的区域大小、区域位置以及标签匹配的区域描述信息、医疗信息，并进行输出；当检测到存在区域描述信息和/或医疗信息的操

2023-07-25

531KB

基于机器学习模型的信息推送方法、装置、设备及介质.pdf

本申请涉及人工智能领域，公开了一种基于机器学习模型的信息推送方法、装置、设备及介质，该方法包括：获取包括推送信息和推送对象信息的推送请求；获取推送对象对应的候选推送通道集合；获取推送对象的对象特征以及推送对象在各个候选推送通道上针对历史推送信息的历史点击信息，基于通道推荐模型对对象特征和历史点击信息进行概率预测，得到各个候选推送通道的推送概率；根据各个候选推送通道的推送概率从候选推送通道集合中确定目标推送通道，利用目标推送通道将推送信息推送至推送对象。可以为对象匹配较优的推送通道，以提高信息点击率，从而提

2023-07-24

747KB