预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共18页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN109002532A(43)申请公布日2018.12.14(21)申请号201810786269.5(22)申请日2018.07.17(71)申请人电子科技大学地址611731四川省成都市高新西区西源大道2006号(72)发明人钱伟中李晓瑜何鑫郑德生(74)专利代理机构成都华风专利事务所(普通合伙)51223代理人徐丰张巨箭(51)Int.Cl.G06F17/30(2006.01)权利要求书4页说明书10页附图3页(54)发明名称基于学生数据的行为趋势挖掘分析方法和系统(57)摘要本发明公开了基于学生数据的行为趋势挖掘分析方法和系统,方法包括基于滑动平均模型的趋势分析步骤和趋势图绘制步骤;所述的基于滑动平均模型的趋势分析步骤用于轮询时间,在一定周期内在指定的时间节点训练数据,训练结果当做求平均的结果;所述的趋势图绘制步骤用于根据训练结果,绘制趋势图。本发明既能够有效的挖掘某个时间段的行为规则,又能够分析行为的趋势变化;另外,本发明提出了一种随机森林权重自拟合算法,在对非均衡数据的分类上能够提高少数类的准确率,同时能够适应随着时间推移数据分布以及行为表现上的变化;同时本发明对行为进行数值型关联规则,能够较为精确的挖掘不同特征树之间细微的关系。CN109002532ACN109002532A权利要求书1/4页1.基于学生数据的行为趋势挖掘分析方法,其特征在于:包括基于滑动平均模型的趋势分析步骤和趋势图绘制步骤;所述的基于滑动平均模型的趋势分析步骤用于轮询时间,在一定周期内在指定的时间节点训练数据,训练结果当做求平均的结果,包括以下子步骤:S11:进行时间判断,当离上次训练开始时间间隔为所述一定周期时,进行本次训练;S12:通过随机森林训练数据,获得各特征重要性;其中,每个特征重要性都存在一个趋势分析,每次训练结果对应的是滑动平均模型的平均值;S13:通过FP-Growth获得特征、特征值以及标签间的支持度、置信度和提升度;其中,每个置信度和提升度都存在一个趋势分析,每次训练结果对应的是滑动平均模型的平均值;所述的趋势图绘制步骤用于根据训练结果,绘制趋势图,包括以下子步骤:S2:绘制各特征重要性趋势图、标签与某种特征构成的频繁二项集随特征值变化的置信度趋势图以及某特征对于标签的最高置信度对应的特征值随时间变化趋势图。2.根据权利要求1所述的基于学生数据的行为趋势挖掘分析方法,其特征在于:所述的步骤S12包括以下子步骤:S121:提取最近一段时间的数据作为本次训练样本;S122:对随机森林各类型权重进行初始化对于数据集D;其中,各类数据集Dc的初始权重Wc0计算方法如下:S123:通过随机森林迭代训练,更新各类型权重值;S124:输出分类预测结果以及各特征重要性值。3.根据权利要求2所述的基于学生数据的行为趋势挖掘分析方法,其特征在于:步骤S123包括以下子步骤:S1231:使用随机森林训练测试集,获得预测结果;S1232:判断各类型预测数量是否都大于零,如果是则进行步骤S1233,反之数量为零的权重乘以M并返回步骤S1231;S1233:按照从多数类到少数类的顺序,依次对权重进行调整;其中,调整好的权重不参与调整,一次只调整一个权重,其他未调整的权重作为一个整体,同时调整前后权重之和不变;S1234:权重调整终止条件,阈值判断,达到阈值则停止随机森林迭代并进入步骤S124,否则进入步骤S1235;其中,如果所有类型的Psk与Osk比值在0.85~1.15之间,则终止调整,其表达式如下:S1235:根据权重计算公式,计算每次调整之后的权重,计算完成后返回步骤S1231;其中,第k次调整的系数分别为ak和bk,随机森林各类数据预测前后数据占总数量的比例分别为Osk和Psk,上次权重向量为Wk,则可得权重方程式如下:2CN109002532A权利要求书2/4页式中,wsk的含义是按照权重大小从小到大排序后的第k个权重,S的含义是权重之和,s是排序的意思,m的含义是权重的总数;最终ak和bk的表达式如下:则第k次,权重向量Wk可以表示为:Wk=(a1ws1,b1a2ws2,b1b2a3ws3,.·.,b1b2...bk-1wsk)。4.根据权利要求1所述的基于学生数据的行为趋势挖掘分析方法,其特征在于:步骤S13包括以下子步骤:S131:提取最近一段时间的数据作为本次训练样本;其中,只保留重要性在前N的特征;并且以‘特征1_特征值1’的格式来构成关联规则中的项;另外,对连续特征值通过凑整来划分区间来提高项的支持度;S132:基于MapReduce进行关联规则,获取特征与特征值间的置信度与提升度。5.根据权利要求4所述的基于学生数据的行为趋势挖掘分析方法,其特征在于