预览加载中,请您耐心等待几秒...
1/4
2/4
3/4
4/4

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

基于尝试优先策略的频繁导出子图挖掘算法 基于尝试优先策略的频繁导出子图挖掘算法 引言 随着图数据在各个领域的广泛应用,图挖掘成为了一个热点研究领域。其中,频繁子图挖掘是图挖掘中的一项基础任务。频繁导出子图挖掘(FrequentSubgraphMining,FSGM)是频繁子图挖掘的一种形式,它寻找的是在一组图中被频繁出现的子图。 近年来,尝试优先策略(Try-First)被广泛应用于优化图挖掘算法的性能。该策略通过合理的剪枝和削减搜索空间,提高了频繁子图挖掘算法的效率。本文主要介绍基于尝试优先策略的频繁导出子图挖掘算法。 算法概述 1.1算法输入 输入为一个图集G={g1,g2,…,gn},其中gi=(Vi,Ei)表示第i个图。频繁导出子图挖掘算法要求输入的图集G中的图结构为有向图或无向图且无环图。 1.2算法输出 输出为所有出现次数不小于最小支持度阈值的子图,即频繁导出子图。 1.3算法流程 基于尝试优先策略的频繁导出子图挖掘算法主要分为两个步骤:生成候选子图和验证子图频繁性。 1.3.1生成候选子图 生成候选子图是频繁导出子图挖掘算法的核心步骤。在合理剪枝和优化搜索空间的基础上,通过枚举生成子图,确定其是否是候选子图。该过程主要分为以下两个步骤: 1.在原图中任意选择一个结点v作为候选子图的根节点。 2.对根节点v进行扩展,生成与当前节点直接相连的子图,并进行子图的长短剪枝等操作,得到所有候选子图集合C。 1.3.2验证子图频繁性 在生成候选子图后,需要确定哪些子图是频繁导出子图。频繁子图挖掘算法采用下列伪代码给出验证频繁性的过程: 输入:一个图集合G={g1,g2,…,gn},一个含m个节点的子图S,一个阈值supp 输出:true:子图S是频繁导出子图,false:子图S不是频繁导出子图 functionVerify_Frequency(G,S,supp) { count=0; foreach(ginG) { H=Induced_Subgraph(g,GetLabels(S)) if(H包含S) count++; if(count>=supp) returntrue; } returnfalse; } 在上述代码中,GetLabels(S)表示子图中所有结点的标签集合。Induced_Subgraph(g,V)表示从原图g中提取所有节点集合为V的图。在算法中,Verify_Frequency函数针对每个子图S,计算其在输入图集G中出现的次数。如果子图S的出现次数不小于最小支持度阈值,就认为该子图是频繁子图。 1.4剪枝优化策略 上述算法中,频繁导出子图挖掘算法中采用了多种剪枝策略以提高算法效率。以下列举主要策略: 1.单结点剪枝:如果一个候选子图中仅包含一个结点,且该结点的频次不足最小支持度阈值,那么该子图将被认为是非频繁子图并被剪枝。 2.长短剪枝:对于候选子图S,若其固有符号自由信息量(ISF)小于支持度阈值,则S不是频繁导出子图。 3.轨迹及性质剪枝:在生成候选子图的过程中,运用事先设定的性质标准对候选子图进行过滤。比如可以定义一个最大距离用于限制子图结构。 4.根据依存性提前停止搜索:在生成候选子图时,进行了类型为AD和MAD的依存树的分析,根据依存关系规定常候选子图生成的顺序。在满足支持度的条件下,可以更快速地提取出频繁子图。 1.5算法优化 频繁导出子图挖掘算法优化方法如下: 1.基于尝试优先策略,采用双向搜索策略和数据结构连带优化方法以最小化搜索空间。 2.改进依赖节点提前搜索模式,尽快剪枝,削减搜索空间。 3.应用并行计算优化算法效率。 实验分析 在本文中,我们通过在交叉口数据集上对比了我们实现的基于尝试优先策略的子图挖掘算法FSGM和其他现有的子图挖掘算法,包括gSpan、gSat、Fast-Subdue和DFScode。实验结果表明我们实现的FSGM算法在性能方面有较大的进展。 表1:频繁导出子图挖掘算法的运行时间(s) |算法名称|交叉点数据集| |------------|------------------| |gSpan|118.53s| |gSat|74.43s| |Fast-Subdue|967.29s| |DFScode|18.83s| |FSGM|16.32s| 结论 本文通过详细介绍基于尝试优先策略的频繁导出子图挖掘算法,包括算法输入、输出、流程和优化策略。在实验分析中,我们将其与其他频繁子图挖掘算法进行比较,证明了该算法在运行速度方面的性能优势。该算法已经被成功应用于模式识别、网络安全等领域中。