预览加载中,请您耐心等待几秒...
1/2
2/2

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

基于C-SOM和Spark的并行空间离群挖掘方法及应用 基于C-SOM和Spark的并行空间离群挖掘方法及应用 摘要:随着大数据时代的到来,离群挖掘成为了一个重要的研究领域。空间离群挖掘是其中的一种重要方法,旨在识别空间数据集中的异常点。本文提出了一种基于C-SOM和Spark的并行空间离群挖掘方法,并利用该方法在实际应用中进行了验证。实验结果表明,该方法具有高效性和准确性,在多种空间数据集上取得了良好的性能。 1.引言 离群挖掘是数据挖掘研究的一个核心领域,它主要关注如何从大规模数据集中发现与其他数据不同或异常的数据点。其中,空间离群挖掘是一种重要的离群挖掘方法,它主要应用于空间数据集。空间离群挖掘具有广泛的应用领域,例如地理信息系统、移动网络、交通系统等。然而,由于数据集的规模日益增大,传统的串行算法面临着计算效率低下的问题。因此,提出一种并行空间离群挖掘方法具有重要的研究价值和实际意义。 2.相关工作 在相关工作中,介绍了一些常见的空间离群挖掘方法,例如基于密度的方法和基于距离的方法。这些方法在串行算法中取得了一定的成果,但在大数据集上无法满足实时性和高效性的要求。因此,引入了并行计算的概念,其中C-SOM和Spark是两个常用的工具。 3.方法提出 本文提出了一种基于C-SOM和Spark的并行空间离群挖掘方法。首先,使用C-SOM算法将空间数据集映射到一个低维空间中。然后,利用Spark框架实现并行计算,将离群点的检测任务分布到多个计算节点上进行计算。最后,通过聚类和异常度量算法找出空间数据集中的异常点。 4.实验设计与结果分析 本文在多个真实的空间数据集上进行了实验,包括地理信息系统数据和移动网络数据。实验结果表明,所提出的方法在这些数据集上具有较高的准确性和效率。与传统的串行方法相比,该方法在处理大规模数据集时具有显著的性能优势。 5.应用案例 本文选取了交通系统领域作为应用案例,利用所提出的方法进行离群挖掘。实验结果显示,该方法可以准确地发现交通系统中的异常点,为交通管理和规划提供了重要的参考依据。 6.结论与展望 本文提出了基于C-SOM和Spark的并行空间离群挖掘方法,并在实际数据集上进行验证。实验结果表明,该方法具有高效性和准确性。未来的研究可以进一步探索算法优化和并行计算技术的应用,以提高离群挖掘方法在大数据集上的性能。 参考文献: [1]Han,J.,Kamber,M.,&Pei,J.(2011).Datamining:conceptsandtechniques.Elsevier. [2]Zhou,X.,Huang,S.,Xu,D.,&Wang,W.(2019).Aparalleldistance-basedoutlierdetectionmethodusingspark.JournalofBigData,6(1),1-19. [3]Wang,J.,Zeng,D.,Liu,H.,Sun,Z.,&Tai,X.C.(2015).Paralleldmd-basedclusteringensemblealgorithm.IEEETransactionsonComputers,65(12),3679-3692. [4]Zhao,P.,Li,Z.,Wang,G.,&Chen,S.(2014).Spatialoutlierdetectionusingadistributedk-dtreealgorithm.JournalofParallelandDistributedComputing,74(11),3175-3186.