预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共13页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN110297714A(43)申请公布日2019.10.01(21)申请号201910529197.0(22)申请日2019.06.19(71)申请人上海冰鉴信息科技有限公司地址200120上海市上海自由贸易试验区商城路618号四层B207室(72)发明人顾凌云谢旻旗段湾张涛安飞飞潘峻王存伟王震宇周轩(74)专利代理机构常州佰业腾飞专利代理事务所(普通合伙)32231代理人滕诣迪(51)Int.Cl.G06F9/50(2006.01)权利要求书1页说明书6页附图5页(54)发明名称基于大规模图数据集获取PageRank的方法及装置(57)摘要本发明提供了一种基于大规模图数据集获取PageRank的方法及装置,其中方法包括:S1初始化graph;S2基于上一轮计算得到的graph进行各节点的PageRank值的计算,得到newgraph;S3判断迭代是否完成,如果迭代完成,则执行S8,如果迭代未完成,则执行S4;S4释放上一轮graph缓存;S5判断总迭代次数是否能够被可配置参数整除,其中,可配置参数为迭代写入轮数,如果总迭代次数不能被可配置参数整除,则执行S6;如果总迭代次数能被可配置参数整除,则执行S7;S6将当前newgraph进行缓存,返回执行S2;S7将当前newgraph写入磁盘,返回执行S2;S8保存计算结果。CN110297714ACN110297714A权利要求书1/1页1.一种基于大规模图数据集获取PageRank的方法,其特征在于,包括:S1,初始化graph;S2,基于上一轮计算得到的graph进行各节点的PageRank值的计算,得到newgraph;S3,判断迭代是否完成,如果迭代完成,则执行S8,如果迭代未完成,则执行S4;S4,释放上一轮graph缓存;S5,判断总迭代次数是否能够被可配置参数整除,其中,所述可配置参数为迭代写入轮数,如果所述总迭代次数不能被所述可配置参数整除,则执行S6;如果所述总迭代次数能被所述可配置参数整除,则执行S7;S6,将当前newgraph进行缓存,返回执行S2;S7,将当前newgraph写入磁盘,返回执行S2;S8,保存计算结果。2.根据权利要求1所述的方法,其特征在于,所述初始化graph包括:初始化新的graph;或者加载旧的graph。3.根据权利要求1所述的方法,其特征在于,所述n满足t=n+1/n,且整除N,其中,t为总计算时间。4.根据权利要求3所述的方法,其特征在于,所述n设置为奇数或者所述n设置为偶数。5.根据权利要求4所述的方法,其特征在于,所述n为5。6.一种基于大规模图数据集获取PageRank的装置,其特征在于,包括:初始化模块,用于初始化graph;计算模块,用于基于上一轮计算得到的graph进行各节点的PageRank值的计算,得到newgraph;第一判断模块,用于判断迭代是否完成,如果迭代完成,则通知存储模块,如果迭代未完成,则通知释放模块;所述释放模块,用于释放上一轮graph缓存;第二判断模块,用于判断总迭代次数是否能够被可配置参数整除,其中,所述可配置参数为迭代写入轮数,如果所述总迭代次数不能被所述可配置参数整除,则通知缓存模块;如果所述总迭代次数能被所述可配置参数整除,则通知写入模块;所述缓存模块,用于将当前newgraph进行缓存,通知所述计算模块;所述写入模块,用于将当前newgraph写入磁盘,通知所述计算模块;所述存储模块,用于保存计算结果。7.根据权利要求6所述的装置,其特征在于,所述初始化模块通过如下方式初始化graph:所述初始化模块,具体用于初始化新的graph;或者加载旧的graph。8.根据权利要求6所述的装置,其特征在于,所述n满足t=n+1/n,且整除N,其中,t为总计算时间。9.根据权利要求8所述的装置,其特征在于,所述n设置为奇数或者所述n设置为偶数。10.根据权利要求9所述的装置,其特征在于,所述n为5。2CN110297714A说明书1/6页基于大规模图数据集获取PageRank的方法及装置技术领域[0001]本发明涉及数据计算技术领域,尤其涉及一种基于大规模图数据集获取PageRank的方法及装置。背景技术[0002]在数据量与日俱增的今天,大规模数据计算(Spark、Hadoop)已经是不得不面对的问题,特别是计算复杂度最高的图计算(SparkGraphX),会消耗企业大量的计算资源。[0003]目前在做上亿节点、十几亿边Graph的PageRank(网页级别,是Google排名运算法则(排名公式)的一部分,是Google用于用来标识网页的等级/重要性的一种方法,是Google用来衡量一个网站的好坏的唯一标准。)的