预览加载中,请您耐心等待几秒...
1/7
2/7
3/7
4/7
5/7
6/7
7/7

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113722587A(43)申请公布日2021.11.30(21)申请号202110921385.5(22)申请日2021.08.11(71)申请人中电科大数据研究院有限公司地址550081贵州省贵阳市国家高新区长岭南路160号高科一号C栋(72)发明人舒珏淋曹扬胡建周维(74)专利代理机构北京精翰专利代理有限公司11921代理人卓邦荣(51)Int.Cl.G06F16/9535(2019.01)G06F16/9536(2019.01)G06F16/906(2019.01)G06F17/16(2006.01)权利要求书1页说明书3页附图2页(54)发明名称一种改进矩阵分解和谱聚类的协同过滤算法(57)摘要本发明公开了一种改进矩阵分解和谱聚类的协同过滤算法。该算法首先通过抑制物品流行度和用户活跃度优化的相似度计算融合入最小二乘法(ALS),以减少矩阵分解时因子信息的丢失,然后结合流行学习的谱聚类算法弥补ALS算法后期的协同过滤阶段产生大计算量问题,同时获得全局最优解以提高聚类所得目标用户最近邻居的准确率,进而提高协同过滤推荐精度,最后利用Movielens数据集进行实验。实验结果表明,改进的算法可以有效降低协同过滤算法的平均绝对误差和均方根误差,提高准确率,拥有更优的性能。CN113722587ACN113722587A权利要求书1/1页1.一种改进矩阵分解和谱聚类的协同过滤算法,其特征在于,首先通过抑制物品流行度和用户活跃度优化的相似度计算融合入最小二乘法(ALS),以减少矩阵分解时因子信息的丢失,然后结合流行学习的谱聚类算法弥补ALS算法后期的协同过滤阶段产生大计算量问题,同时获得全局最优解以提高聚类所得目标用户最近邻居的准确率,进而提高协同过滤推荐精度,最后利用Movielens数据集进行实验。实验结果表明,改进的算法可以有效降低协同过滤算法的平均绝对误差和均方根误差,提高准确率,拥有更优的性能。算法过程描述:采用的实验数据:本发明使用的数据集来自美国GroupLens研究小组提供的MovieLens数据集。Movielens数据集包含943个用户对1682个项目的共100000条评分数据,评分范围1‑5分,数据稀疏度为93.7%。从数据集中随机抽取60%作为训练集,20%作为校验集得出模型的最优参数,20%的测试集检测算法的效果。算法设计思路:本发明是一种基于改进矩阵分解和谱聚类的协同过滤算法(Collaborativefilteringalgorithmbasedonimprovedmatrixfactorizationandspectralclustering,ASCF+)。该算法主要思想是通过抑制物品流行度和用户活跃度改进相似度计算融合入ALS矩阵分解的损失函数中,以弥补迭代计算时因子信息的丢失,同时通过谱聚类算法缓解传统协同过滤算法中应用K‑means聚类算法,由于主观选择聚类中心造成推荐算法准确率低的问题。谱聚类算法使得聚类收敛于全局最优,通过对聚类结果精度的提高进而提高推荐准确率。具体步骤如下:第一步:利用改进的ALS矩阵分解对高维稀疏的用户‑项目评分矩阵R=[ri,j]m×n进行数据的填充得到稠密矩阵R′。第二步:对稠密的用户‑项目评分矩阵R′,根据用户修正余弦相似度计算,得到用户间n×n的相似矩阵A∈R,其中Ai,j=sim(ui,uj)。第三步:将每个用户对应谱图中的一个顶点,利用谱聚类,通过构建拉普拉斯矩阵、求取特征向量进而重组矩阵进行聚类,将所有用户分成k类,分别记为U1,U2,…,Uk,其中,U1∪U2∪…∪Uk=U。第四步:设目标用户ui∈Uj,该集合内用户和评分项目间的信息矩阵记作目标用户ui已评分项目集合为G,未评分项目集合为S,其中,ni为Uj集合中用户个数。计算矩阵m×mHi中各项目间相似度,获得相似度矩阵W∈R。第五步:将项目相似度矩阵W的每一行降序排列,得到降序后的相似度矩阵第六步:计算用户ui对每一个项目j∈S的评分,其中K(j)为项目ij的K个最相似项目的集合。第七步:选取集合S中对目标用户ui评分最高的前N个项目作为推荐集合。2CN113722587A说明书1/3页一种改进矩阵分解和谱聚类的协同过滤算法技术领域[0001]本发明提出了一种改进矩阵分解和谱聚类的协同过滤算法,通过改进相似度计算融合ALS矩阵分解的损失函数以弥补矩阵分解时的信息丢失,同时提高推荐准确率和解决稀疏性问题,再运用流形学习的谱聚类算法根据相似度对用户求解最近邻,最后求得推荐结果。本方法领域属于基于云计算平台下的数据挖掘领域背景技术[0002]互联网迅速发展的当下,其所含信息的增长情况表现为指数爆炸型增长趋势。如今,互联网研究领域