预览加载中,请您耐心等待几秒...
1/6
2/6
3/6
4/6
5/6
6/6

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

基于关联规则挖掘的高职院校计算机专业课程设置陈霄曾振东摘要:关联规则挖掘是挖掘研究领域的一项重要技术,高职院校教学管理系统产生海量数据,这些数据中隐藏着大量有价值的信息。文章采用改进的Apriori算法对高职院校计算机专业学生成绩进行关联规则分析,挖掘出课程之间的相关性,为高职院校更科学的制定教学计划提供有力的决策支持,进而提高教育教学质量。关键词:关联规则;高职院校;计算机专业中图分类号:TP393文献标志码:A文章编号:1673-8454(2014)20-0075-03一、引言随着高职院校快速发展,规模不断扩大,造成高职院校在课程设置、教学内容、学生管理、招生就业等方面面临严峻的考验,传统的教学管理理念已经不能够适应高职院校发展的需要,但是,许多高职院校在专业课程设置上都是在以往的专业课程设置基础上结合教学实际情况简单的进行修改,很少高职院校在专业课程设置上听取企业的建议或者遵循市场对人才的需求,导致课程应该在哪个学期开设或者是否继续开设等方面存在不少问题。目前,基本上所有的高职院校都是采用基于WEB的教学管理系统对学生成绩信息进行有效管理,随着时间的推移,教学管理系统将产生海量的数据,大量的数据没有被充分的利用,因此,如何利用关联规则挖掘技术发掘隐藏在海量学生成绩数据背后有价值的信息或者规则,如课程之间的联系,学生成绩与课程之间的联系等等,为教师授课、学生学习、教育管理决策提供有用的理论指导。二、关联规则挖掘和改进的Apriori算法1.基本概念数据挖掘(DataMining),就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又潜在有用的信息和知识的过程。[1]关联规则挖掘是从大量数据中挖掘出有价值的、描述数据项之间相互联系的有关知识。[2]关联规则是数据挖掘研究领域的一项重要技术,其目的是从数据库中挖掘出不低于预先给定min-support阈值和min-confi阈值的关联规则。[3]关联规则描述为:设I={i1,i2,……,im}为M个项目集,D为交易数据集合,其中事务T是I项目子集(T?I),对应的每一个事务交易都有唯一的标识TID。关联规则形如X?Y的逻辑蕴涵式,其中X?I,Y?I,且X∩Y=ф。如果事务数据库D中有s%的事务包含X∪Y,则称关联规则X?Y的支持度为s%,若项集X的支持度记为support(X),规则的信任度为support(X∪Y)/support(X)。[4]也就是:support(XY)=P(X∪Y)confidence(XY)=P(Y/X)2.Apriori算法Apriori算法是关联规则挖掘中重要的算法之一,它的核心思想是采用逐层搜索的迭代的方法通过多次扫描数据库D来找出所有的频繁项集。其算法描述如下:L1={频繁1—项集};For(k=2;Lk-1≠ф;k++)dobeginCk=apriori_gen(Lk-1);//新的潜在频繁项集foralltransactionst∈DdobeginCt=subset(Ck,t);//事务t中包含的潜在频繁项集forallcandidatesc∈Ctdoc.count++;end;Lk={c∈Ck|c.count≥minsup}end;Answer=YkLk;Apriori算法虽然简单明了,容易实现,但是存在许多不足之处,一是对数据库D扫描次数过多,二是会产生大量的中间项集。针对这两个问题,笔者对Apriori算法做了相应的改进,将整个数据库进行分段,挖掘过程只需在段内进行,接着各子数据库挖掘结果汇总,最终刷选出关联规则。三、关联规则挖掘在高职院校计算机专业课程设置中的应用高职院校计算机专业课程包括有图像处理、网页设计、动画制作、网站制作与维护、C语言程序设计等。采用改进的Apriori算法对计算机专业课程进行分析,分析流程包括数据选择、数据刷选、数据转换、数据挖掘及结果分析。1.数据准备本研究选取某高职院校计算机专业10级到12级学生成绩表作为数据源,挖掘课程之间的关联性。为了减少冗余数据,将一些对专业课程影响较小的字段删除,删除了思政类、人文类、体育类和公共基础课成绩,最终选取了《图像处理》、《网页设计》、《动画制作》等15门专业基础、专业骨干、专业核心课程学生成绩作为研究对象。2.数据筛选采集的数据往往存在数据冗余、数据不完整性等现象,不能直接进行挖掘,需要对数据进行筛选处理。例如对于学生成绩表中含有学生的电话、地址、出生年月等字段,一一进行删除;对于学生成绩表中的学生退学、转学等记录一一删除;对于学生成绩表中缺考的信息,采用忽略元组的方法删除;对于个别空缺值,采用人工填充的简单方式,其填充值为该字段的中值;对于补考、重修通过的学生成绩,采用替换的方式填充为50分,便于数据转换。经过数