预览加载中,请您耐心等待几秒...
1/3
2/3
3/3

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

大规模图计算系统研究进展 摘要: 随着大数据时代的到来,图数据作为一种重要的数据类型,受到了越来越多的关注。因此,图计算系统的研究也变得越来越重要。本文介绍了大规模图计算系统在过去几年中的发展历程,阐述了当前主流的图计算系统架构及其优缺点,并讨论了未来图计算系统的发展趋势。 关键词:大规模图计算、分布式计算、图分析算法、系统架构。 1.引言 图数据是一种非常重要的数据类型,被广泛应用于社交网络、生物学、金融等领域。为了高效地处理大规模图数据,图计算系统应运而生。过去几年中,图计算系统在分布式计算领域得到了快速发展,并已经成为了大规模图分析的主要手段。 2.大规模图计算系统的发展历程 在2012年之前,全局图计算框架如Pregel[1]、GPS[2]已经被提出,但很快被证明其只适用于一些简单的图算法,并且不能扩展到大规模图数据。 2012年,Google公司推出了Pregel的开源版本——ApacheGiraph。该系统采用了一种基于Hadoop的MapReduce模式,通过Master-Slave架构,解决了Pregel系统存在的扩展性问题。 之后,又出现了一系列的图计算系统,例如GraphLab[3]和PowerGraph[4],这些系统通过图分区、异步计算等技术,进一步提高了系统的扩展性和计算效率。在2014年,GraphX[5]作为Spark生态圈的一部分,推出了基于RDD的图计算系统,被广泛应用于互联网和金融领域。 2015年,阿里巴巴推出了其自主研发的图计算系统——GAE。该系统相对于其他图计算系统的优势在于支持动态图,且异常容忍,能够在数据规模和计算能力方面得到提高。 3.当前主流的图计算系统架构及其优缺点 当前主流的图计算系统架构包括Pregel模型和GraphLab模型。Pregel模型采用了BulkSynchronousParallel(BSP)模型,将图分为多个超级节点,每个超级节点维护一个子图。在计算过程中,节点跟着Master进度进行计算,直到结束。该模型在图分析算法中的应用比较广泛,其优点在于易于实现,能够支持异步计算以提高计算效率。但缺点在于无法充分利用节点资源,导致计算效率较低。 GraphLab模型采用了数据并行模型,将图分成多个数据块,放到不同的节点上计算。在计算过程中,节点可以异步交互,每个节点负责自己的数据块的计算。该模型的优点在于充分利用节点资源,提高计算效率,但缺点在于数据之间的协作需要更多的计算资源。 4.未来图计算系统的发展趋势 未来图计算系统的研究主要围绕着以下几个方面: (1)大规模图计算系统的可拓展性问题。当前大多数系统在处理超大规模图数据时,仍存在着存储和计算能力的问题。研究者需要进一步探索更高效、更可拓展的计算架构。 (2)深度学习与图计算的结合。随着深度学习的发展,研究者们开始探索将深度学习与图计算相结合的方式,提高模型的性能和数据的表示能力。 (3)动态图计算的应用。目前大多数图计算系统仅仅支持静态图数据的计算,但在实际场景中,动态图数据更为常见。因此,研究者需要探究支持动态图计算的方法。 (4)跨平台图计算的应用。目前大多数图计算系统都是基于分布式计算模型的,但在实际应用中,越来越多的图数据需要跨平台处理。因此,跨平台图计算系统的研究也将变得更为重要。 5.结论 大规模图计算系统的研究已经走过了一段漫长的历程,当前主流的图计算系统架构包括Pregel模型和GraphLab模型。未来,图计算系统的研究将主要围绕着大规模图计算系统可拓展性的问题、深度学习与图计算的结合、动态图计算的应用以及跨平台图计算的应用等方面进行研究。