预览加载中,请您耐心等待几秒...
1/9
2/9
3/9
4/9
5/9
6/9
7/9
8/9
9/9

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN109741113A(43)申请公布日2019.05.10(21)申请号201910021419.8(22)申请日2019.01.10(71)申请人博拉网络股份有限公司地址401121重庆市渝北区金开大道西段106号17幢(72)发明人童毅周波依(74)专利代理机构重庆辉腾律师事务所50215代理人卢胜斌(51)Int.Cl.G06Q30/02(2012.01)G06K9/62(2006.01)权利要求书2页说明书4页附图2页(54)发明名称一种基于大数据的用户购买意向预测方法(57)摘要本发明涉及机器学习、大数据技术领域,特别涉及一种基于大数据的用户购买意向预测方法,包括对数据集进行预处理操作;根据数据集划分训练集、验证集和测试集操作;构建特征工程操作;对构建的特征工程进行特征选择操作;根据选择的特征建立机器学习模型并进行模型融合操作;通过构建的模型,预测用户未来一天是否购买指定商品操作;本发明通过对用户基本信息数据、商品基本信息数据、商品评价数据和用户行为数据进行数据预处理和分析提取特征,建立机器学习模型并进行模型融合操作,从而准确的预测用户未来的购买需求,输出高潜用户和目标商品的匹配结果,为精准营销提供高质量的目标群体,同时也为电商用户提供更简单、快捷、省心的购物体验。CN109741113ACN109741113A权利要求书1/2页1.一种基于大数据的用户购买意向预测方法,其特征在于,包括以下步骤:S1、对数据集进行预处理操作;S2、根据数据集划分训练集、验证集和测试集操作;S3、构建特征工程操作;S4、对构建的特征工程进行特征选择操作;S5、根据选择的特征建立机器学习模型并进行模型融合操作;S6、通过构建的模型,预测用户未来一天是否购买指定商品操作。2.根据权利要求1所述的一种基于大数据的用户购买意向预测方法,其特征在于,所述对数据集进行预处理操作包括删除只有购买记录的用户,删除无收藏或无购物车或无购买行为的用户,删除最后10天没有交互的商品和用户。3.根据权利要求1所述的一种基于大数据的用户购买意向预测方法,其特征在于,根据数据集划分训练集、验证集和测试集操作包括采用滑窗法,以7天为一个周期,窗口长度为10天进行滑窗,从而构建多个训练窗口,扩大数据集数量;其中,验证集的构建采取5折交叉验证的方式,其中4份作为训练数据,1份作为验证数据,测试集的构建选取预测日前10天的数据作为测试数据。4.根据权利要求1所述的一种基于大数据的用户购买意向预测方法,其特征在于,构建特征工程操作包括包括基础统计特征群、时序特征群、组合特征群、业务特征群共四组特征群,基础特征群包括用户浏览数、用户收藏数、用户加购数、用户购买数、商品浏览数、商品收藏数、商品加购数、商品购买数、用户购买转化率、商品购买转化率,时序特征群包括用户在最后第2、3、4、5、7、10天对商品浏览数、收藏数、加购数和购买数的最大值、最小值、均值、中位数、方差、求和,组合特征群包括用户-商品浏览数、用户-商品收藏数、用户-商品加购数、用户-商品购买数、用户-商品类别浏览数、用户-商品类别收藏数、用户-商品类别加购数、用户-商品类别购买数、用户-商品品牌浏览数、用户-商品品牌收藏数、用户-商品品牌加购数、用户-商品品牌购买数,业务特征群包括用户第一次发生商品行为距离预测日天数、用户最后次发生商品行为距离预测日天数、用户第一次行为和最后次行为距离天数、用户连续行为的天数最大值、用户最后一天一小时内行为数最大值。5.根据权利要求1所述的一种基于大数据的用户购买意向预测方法,其特征在于,对构建的特征进行特征选择操作包括在XGBoost模型训练完后输出特征重要性,根据特征重要性对特征进行排序,选取特征重要性最大的300个特征;再用皮尔逊相关系数计算300个特征之间的相似度,若两个特征相似度达到了95%及以上,则过滤掉这两个特征中特征重要度低的特征。6.根据权利要求1所述的一种基于大数据的用户购买意向预测方法,其特征在于,根据选择的特征建立机器学习模型包括利用选择的特征,构建logisticregression模型、catboost模型、GBDT模型和XGBoost模型共四个模型,再计算四个模型的F1分数值,再通过F1分数值计算每个模型的线性加权融合的权重。7.根据权利要求6所述的一种基于大数据的用户购买意向预测方法,其特征在于,F1分数值表示为:2CN109741113A权利要求书2/2页其中,P表示精确率,R表示召回率。8.根据权利要求7所述的一种基于大数据的用户购买意向预测方法,其特征在于,每个模型的线性加权融合的权重表示为:其中,wi表示第i个模型的线性加权融合的权重,当i=1时表示logisti