预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共13页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN112085525A(43)申请公布日2020.12.15(21)申请号202010918871.7(22)申请日2020.09.04(71)申请人长沙理工大学地址410114湖南省长沙市雨花区万家丽南路二段960号(72)发明人陈曦丁石丑(74)专利代理机构长沙智路知识产权代理事务所(普通合伙)43244代理人张毅(51)Int.Cl.G06Q30/02(2012.01)G06K9/62(2006.01)G06N20/00(2019.01)权利要求书2页说明书8页附图2页(54)发明名称一种基于混合模型的用户网络购买行为预测研究方法(57)摘要本发明公开了一种基于混合模型的用户网络购买行为预测研究方法:从网购平台提取行为数据以及商品信息的数据,构建特征样本集,并进行数据处理;提取权重大的特征为类别特征,将类别特征转换成数值特征;将数值特征导入xgboost模型进行训练并交叉验证,得到最优的xgboost模型的每一个叶子结点的预测值作为新的数值特征,新的数值特征为具有相关性的重新组合的未提取的特征对应的数值特征;将新的数值特征进行one‑hot编码后和原始的类别特征进行拼接得到重构特征;将重构特征导入LR模型训练,得到最优的LR模型;使用最优的LR模型进行预测用户在未来一天是否购买指定商品。本发明提高对用户购买行为预测的准确性。CN112085525ACN112085525A权利要求书1/2页1.一种基于混合模型的用户网络购买行为预测研究方法,其特征在于,包括以下步骤:S1、从网购平台提取行为数据以及商品信息的数据,构建特征样本集,并进行数据处理,所述特征样本集的特征包括用户ID、日期、行为、天数、行为类型、行为计数、位置空间标识、商品位置信息;S2、提取权重大的所述特征为类别特征,剔除剩余特征,所述类别特征包括用户ID、行为类型、日期、行为数量总计,剔除的所述剩余特征包括商品的位置空间标识、商品位置信息,将所述类别特征转换成数值特征;S3、将所述数值特征导入xgboost模型进行训练并交叉验证,得到最优的xgboost模型,所述最优的xgboost模型的每一个叶子结点的预测值作为新的数值特征,所述新的数值特征为具有相关性的重新组合的未提取的特征对应的数值特征,包括用户-商品对的行为在用户-类别对中的排序、用户-商品对的行为在用户所有商品中的排序对应的数值特征;S4、将所述新的数值特征进行one-hot编码后和原始的所述类别特征进行拼接得到重构特征;S5、将所述重构特征导入LR模型训练,得到最优的LR模型;S6、使用所述最优的LR模型进行预测用户在未来一天是否购买指定商品。2.根据权利要求1所述的一种基于混合模型的用户网络购买行为预测研究方法,其特征在于,步骤S1中所述的特征从用户,商品和商品类别三大基本维度及其组合进行构建,所述联合特征包括u_b_count_in_n和u_bi_count_in_n,分别表示用户在考察日前n天的行为总数计数、用户在考察日前n天的各项行为计数,u表示所述类别,b表示行为,bi表示各项行为,n表示考察日前的天数。3.根据权利要求1所述的一种基于混合模型的用户网络购买行为预测研究方法,其特征在于,步骤S1中所述的数据为网购平台20000用户以七天为一个周期,窗口长度为七天的行为数据以及商品信息。4.根据权利要求1所述的一种基于混合模型的用户网络购买行为预测研究方法,其特征在于,步骤S1中所述的数据处理包括归一化处理,所述归一化处理为依照特征矩阵的行处理数据。5.根据权利要求4所述的一种基于混合模型的用户网络购买行为预测研究方法,其特征在于,步骤S1中所述的数据处理还包括特征数据的均衡处理,即对特征数据的负样本通过K-means进行聚类,然后通过下采样,与正样本合并得到相对均衡的特征数据。6.根据权利要求1所述的一种基于混合模型的用户网络购买行为预测研究方法,其特征在于,所述行为包括商品浏览、商品收藏、商品购买、商品加购。7.根据权利要求1所述的一种基于混合模型的用户网络购买行为预测研究方法,其特征在于,步骤S3中所述的xgboost模型把缺失值当做稀疏矩阵来看待,在节点分裂时不考虑缺失值的数值。8.根据权利要求1所述的一种基于混合模型的用户网络购买行为预测研究方法,其特征在于,所述步骤S3包括以下步骤:S3.1、将所述数值特征分为训练集和验证集;S3.2、将所述训练集导入xgboost模型进行训练;S3.3、自定义xgboost参数搜索函数,使得切分后的损失函数的值最大,得到最优的2CN112085525A权利要求书2/2页xgboost模型;S3.4、将所述验证集代入所述最优的xgboost模型进行交叉验证,返回最优迭