关联规则基础上数据挖掘最新算法-豆柴文库

关联规则基础上数据挖掘最新算法.docx

2024-08-16

10金币

24KB

9页

kp****93

实名认证

内容提供者

1/9

2/9

3/9

4/9

5/9

6/9

7/9

8/9

9/9

在线预览结束，喜欢就下载吧，查找使用更方便

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

PAGE\*MERGEFORMAT9 课程设计报告名称：数据仓库与数据挖掘题目：数据挖掘中关联规则的发展趋势院系：经济管理系班级：信管1201 学号：201206040109 学生姓名：韩智强指导教师：温磊成绩：日期：2015年5月目录一、引言3 二、基于复杂数据组织形式的关联规则算法3 (一)并行数据库3 (二)数据仓库3 (三)时间连续数据库4 (四)增量式更新数据库4 三、新研究方法的引入5 (一)模糊集5 (二)概念格5 (三)其他研究方法5 四、前沿研究5 (一)时间-空间数据库5 (二)Web挖掘6 (三)多媒体数据库6 (四)可视化挖掘6 五、总结与展望7 数据挖掘中关联规则的发展趋势一、引言目前,越来越多的行业都存在巨量数据处理的问题,结构简明的关联规则凭借简单易懂的规则表达形式较其他数据挖掘方法更容易被接受,其广泛的应用前景也被学术界所认同。理论体系的逐渐完善和实际应用的巨大成功使关联规则一度成为数据挖掘的重要研究方向。但随着现代数据库技术的发展和应用领域的拓宽,数据存储形式甚至数据格式都发生了巨大变化,关联规则研究也面临着前所未有的挑战。为了明确关联规则研究的现实意义和未来发展趋势,笔者考察了近几年国内外相关的研究成果和最新动态。在对复杂数据组织形式的关联规则挖掘详细描述的基础上,探讨了其他学科领域对关联规则的理解及相应的研究方法,最后提出了关联规则的前沿研究问题和未来的发展趋势。二、基于复杂数据组织形式的关联规则算法随着并行和分布式数据库系统、数据仓库、联机分析处理(OLAP)和数据立方体等数据组织、存储、分析和处理技术的出现和成熟,使关联规则挖掘在并行数据库、数据仓库、时间连续数据库和增量更新数据库等复杂数据组织形式中的应用成为可能,相应地产生了一系列新的关联规则算法。 (一)并行数据库对于并行数据库而言,一般具有多个可以同时独立运行的处理器(结点),并通过网络交换信息。由于并行体系结构计算能力强,数据处理量大,因而基于并行体系结构的关联规则算法明显优于基于单处理器的顺序算法。并行数据库可以分为无共享体系(share-nothing)结构和内存共享体系(shared-memory)结构。关联规则并行算法的设计主要从数据合理分配、减少I/O操作、负载平衡、减少结点间的通信和同步以及减少计算冗余等方面权衡考虑。无共享体系结构中,数据库分布在各个结点(即分布式数据库),各结点间有网络连接,每个结点可独立处理子数据库。主要算法都是将原有的顺序算法并行化,如Agrawal,R.等(1996)的Countdistribu2tion,DataDistribution和CandidateDistribution[1];Park,J.S.等(1995)的PDM[2];Cheung,D.W.等(1996)的FDM[3]和Cheung,D.W.等(1996)的DMA[4],以及Za2ki,M.J.等(1997)的ParEclat[5]等算法。在内存共享体系结构中多个结点共用内存和数据库,各结点通过共享变量通信。这类算法采用了异步候选集生成,比宽度优先算法的扫描次数少。但各结点可独立访问数据库,因此需要解决I/O通道共享和并发访问数据库时I/O占用问题。由于这类并行数据库较少使用,相关的研究也不多,有代表性的算法是APM[6]。 (二)数据仓库目前,数据仓库已经成为标准的数据存储和组织形式。在数据仓库中各种数据以多维形式组织,即数据立方体。而采用OLAP技术驱动的数据仓库具有数据质量高、相关数据环境好和实时分析等优点。因此相应的算法就直接针对数据立方体设计,并由OLAP技术实现。这类算法多是已有的多维关联规则算法的推广和优化。较为简单的算法是建立在频繁谓词集上的,把谓词作为项,谓词的出现次数作为支持度,不考虑谓词出现的强度。如Apriori-Cube算法[7](高学东等(2003))直接在数据立方体上搜索频繁谓词集。而考虑概念层次的算法较复杂,如Adaptive-FP算法[8]和FP-Growth[9]类似,但是先对项加入概念层次编码后再建立FP-tree,采用同一支持度挖掘同一概念层次的维间和维内频繁集,采用可变支持度挖掘不同维或者同维不同概念层次的频繁集,贺琼等(2004)在Adaptive-FP的基础上进一步利用概念层次信息优化了FP-tree的建立过程[10]。 (三)时间连续数据库时间连续数据库包含了随时间延续而变化的事务数据或事件记录。这类数据的特点是具有明显的时间顺序,且呈现一定的规律性或者周期性。这方面的研究主要集中在连续时间的事务数据集和多个时间序列中的关联规则挖掘。连续时间的事务数据集中的关联规则挖掘类似具有时

相关资料

关联规则基础上数据挖掘最新算法.docx

PAGE\*MERGEFORMAT9课程设计报告名称：数据仓库与数据挖掘题目：数据挖掘中关联规则的发展趋势院系：经济管理系班级：信管1201学号：201206040109学生姓名：韩智强指导教师：温磊成绩：日期：2015年5月目录一、引言3二、基于复杂数据组织形式的关联规则算法3(一)并行数据库3(二)数据仓库3(三)时间连续数据库4(四)增量式更新数据库4三、新研究方法的引入5(一)模糊集5(二)概念格5(三)其他研究方法5四、前沿研究5(一)时间-空间数据库5(二)Web挖掘6(三)多媒体数据库

基于关联规则的数据挖掘算法.docx

基于关联规则的数据挖掘算法基于关联规则的数据挖掘算法摘要：数据挖掘是从大规模数据集中提取有用信息的过程。关联规则是一种常用的数据挖掘技术，用于发现项集之间的相关性。本论文将介绍基于关联规则的数据挖掘算法，并讨论其在实际应用中的意义和应用场景。第一部分：介绍数据挖掘是一种从大规模数据集中发现模式和关联性的技术。它可以应用于各种领域，如市场营销、生物信息学、金融服务等。关联规则是一种常用的数据挖掘技术，可以发现项集之间的相关性。第二部分：关联规则的定义和基本概念关联规则是描述数据集中不同项之间关联关系的规则。

数据挖掘技术与关联规则挖掘算法研究.doc

工学博士学位论文数据挖掘技术与关联规则挖掘算法研究毛国君北京工业大学2003年4月分类号：TP311单位代码：10005学号：B200007009密级：北京工业大学工学博士学位论文题目:数据挖掘技术与关联规则挖掘算法研究英文题目:DATAMININGTECHNIQUESANDALGORITHMSFORMININGASSOCIATIONRULES研究生姓名：毛国君专业：计算机应用技术研究方向：人工智能与知识工程导师姓名：刘椿年职称：教授论文报告提交日期：2003.4学位授予日期：授予单位名称和地址：北京工业

数据挖掘技术与关联规则挖掘算法研究.doc

工学博士学位论文数据挖掘技术与关联规则挖掘算法研究毛国君北京工业大学2003年4月分类号：TP311单位代码：10005学号：B200007009密级：北京工业大学工学博士学位论文题目:数据挖掘技术与关联规则挖掘算法研究英文题目:DATAMININGTECHNIQUESANDALGORITHMSFORMININGASSOCIATIONRULES研究生姓名：毛国君

数据挖掘技术与关联规则挖掘算法研究.doc

工学博士学位论文数据挖掘技术与关联规则挖掘算法研究毛国君北京工业大学2003年4月分类号：TP311单位代码：10005学号：B200007009密级：北京工业大学工学博士学位论文题目:数据挖掘技术与关联规则挖掘算法研究英文题目:DATAMININGTECHNIQUESANDALGORITHMSFORMININGASSOCIATIONRULES研究生姓名：毛国君专业：计算机应用技术研究方向：人工智能与知识工程导师姓名：刘椿年职称：教授论文报告提交日期：2003.4学位授予日期：授予单位名称和地址：北京工业

收藏立即下载