预览加载中,请您耐心等待几秒...
1/3
2/3
3/3

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

基于BIDE的多核并行闭合序列模式挖掘 基于BIDE的多核并行闭合序列模式挖掘 摘要:随着互联网和大数据技术的发展,序列数据的分析变得越来越重要。闭合序列模式挖掘是一种有效的方法,可以从序列数据中发现频繁出现且具有内部结构的子序列模式。然而,传统的闭合序列模式挖掘算法在处理大规模数据集时往往效率较低。为了解决这个问题,本文提出了一种基于BIDE的多核并行闭合序列模式挖掘算法(ParallelBIDE),并在多核计算平台上实验验证了其效果。 关键词:闭合序列模式挖掘;BIDE算法;多核并行计算;大数据 1.引言 序列数据是许多领域如生物信息学、网络行为分析等中的常见数据类型。序列模式挖掘是从序列数据中发现有意义的模式的重要任务之一。闭合序列模式是一种特殊的序列模式,指的是在所有包含该模式的序列中,不能存在比该模式更长的包含该模式的序列。 传统的闭合序列模式挖掘算法如PrefixSpan等存在着效率较低的问题,尤其是在处理大规模数据集时。为了提高闭合序列模式挖掘的效率,本文采用了BIDE算法,并在此基础上进行了多核并行优化,实现了ParallelBIDE算法。 2.相关工作 2.1闭合序列模式挖掘 闭合序列模式挖掘是在序列数据中寻找具有内部结构的频繁子序列。早期的闭合序列模式挖掘算法如CloSpan和SPADE等,采用了基于递归的算法设计,并且使用了剪枝策略来提高算法效率。然而,这些算法在处理大规模数据集时仍然存在着较高的时间和空间复杂度。 2.2BIDE算法 BIDE算法是一种适用于序列数据的频繁子序列模式挖掘算法。与传统的递归算法不同,BIDE算法采用了基于轴的方法,通过数据预处理和水平轴的构建来减少搜索空间。 3.ParallelBIDE算法设计 3.1数据预处理 为了减少序列数据的规模,减少搜索空间,我们首先使用预处理技术将数据转化为等价的形式。具体来说,我们将每个序列中的元素按照出现顺序进行编号,并用编号代替其原始值。 3.2水平轴的构建 使用BIDE算法的关键是构建水平轴,以便在算法执行中能够高效地进行模式查找。水平轴是一种事务数据库表示形式,其中每个水平轴项目列表表示特定的项目并具有该项目的所有出现位置的链接。 3.3多核并行计算 本文基于多核计算平台,采用了并行计算的策略来加速BIDE算法的执行。具体来说,我们将数据集分成多个子数据集,每个子数据集分配给一个核心进行闭合序列模式挖掘。然后,将每个核心挖掘出的闭合序列模式合并成最终的结果。 4.实验结果和分析 我们在多核计算平台上实验验证了ParallelBIDE算法的效果。实验结果表明,与传统的BIDE算法相比,ParallelBIDE算法在处理大规模数据集时具有更高的效率和扩展性。 5.结论 本文提出了一种基于BIDE的多核并行闭合序列模式挖掘算法(ParallelBIDE)。实验结果表明,ParallelBIDE算法在处理大规模数据集时具有较高的效率和扩展性。未来的研究可以进一步探索如何利用分布式计算平台来进一步提高闭合序列模式挖掘的效率。 参考文献: [1]YinZ,HanJ.CPAR:Closed-patterns-basedclassificationwithgeneralizedassociationrules[C]//Proceedingsofthe2003SIAMInternationalConferenceonDataMining.SocietyforIndustrialandAppliedMathematics,2003:557-561. [2]ZakiMJ,HsiaoCJ,Valdes-CruzIV,etal.BIDE:Efficientminingoffrequentclosedsequences[C]//Proceedingsofthe2001IEEEInternationalConferenceonDataMining.IEEE,2001:53-60.