预览加载中,请您耐心等待几秒...
1/6
2/6
3/6
4/6
5/6
6/6

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN105631475A(43)申请公布日2016.06.01(21)申请号201510992669.8(22)申请日2015.12.25(71)申请人石成富地址400055重庆市巴南区花土湾5号附7号(72)发明人李洁孙燕石成富(51)Int.Cl.G06K9/62(2006.01)G06F17/30(2006.01)权利要求书1页说明书3页附图1页(54)发明名称一种基于时间序列的计算机数据挖掘聚类方法(57)摘要本发明公开了一种基于时间序列的计算机数据挖掘聚类方法,该计算机数据挖掘聚类方法通过对输入样本集X、Y进行去噪、归一化处理,并对处理后的时间序列进行极值点求取,得到极值点序列X'、Y';再对X'、Y'进行等长处理,等长处理后得到长度相等的分类序列X”、Y”;然后对处理后的序列X”、Y”进行类距离计算,将距离最大的两类进行合并,合并后类别数减少一个;接着对处理后的分类序列X”、Y”循环执行类距离计算并且合并距离最大的两类,直到聚类数等于预设的数据,即可聚类结束;最后输出聚类结果。该方法能够有效地处理数据量大、维度高的时间序列数据,方法简单易行,不依赖于具体序列,能高效地进行数据挖掘聚类,将海量数据有效压缩并保留其数据的主要特征。CN105631475ACN105631475A权利要求书1/1页1.一种基于时间序列的计算机数据挖掘聚类方法,其特征在于,该方法包括以下步骤:步骤1:输入给定样本集X、Y,其中X={x1,x2,...,xn}、Y={y1,y2,...,yn};步骤2:对输入样本集进行去噪、归一化处理;步骤3:对时间序列X、Y进行极值点求取,得到极值点序列X'、Y';步骤4:对所得到的区域极值点序列X'、Y'进行等长处理,等长处理后得到长度均为k的分类序列X”、Y”;步骤5:对处理后的分类序列X”、Y”进行类距离计算,其中,类距离d(Xi)表示为:d(Xi)=min|Xi-Yj|;其中,Xi是分类序列X”中的任意一个数,Yj是分类序列Y”中的任意一个数;步骤6:将类距离最大的两类进行合并,合并后类别数减少一个;步骤7:返回步骤5、6,继续循环执行,直到聚类数等于预设的数值,即可聚类结束;步骤8:输出聚类结果。2CN105631475A说明书1/3页一种基于时间序列的计算机数据挖掘聚类方法技术领域[0001]本发明涉及计算机数据挖掘技术的领域,尤其是涉及一种基于时间序列的计算机数据挖掘聚类方法。背景技术[0002]随着社会信息化的不断发展,信息技术应用领域的不断拓展,各个应用领域包括经济、医疗、建筑、环境等均积累了越来越多的数据。自上世纪八十年代开始,世界各地的数据总量飞速增长,甚至几个月就会增长一倍,然而如何有效的利用、分析这些数据信息,并从中获取其隐藏的有用信息,则成了一个巨大的挑战。在这些海量的数据中,有一部分数据是按时间顺序有序排列的,这类数据便称之为时间序列(TimeSeries)。各个应用领域中均存在时间序列,通过深入研究这些时间序列,发现序列背后所隐藏的潜在规律以及有价值的信息具有重大的社会意义和经济价值。[0003]近年来,随着数据量的增加,一些数据分析方法无法有效提取出更多有价值的数据信息,因此一种新的数据分析方法——数据挖掘(DataMining)技术便产生了。数据挖掘技术不仅能分析已有的数据,还可从原有数据中预测未来未知的信息,譬如,通过数据挖掘可以预测到下月某商场的销售量等。何为数据挖掘?数据挖掘可以以许多不同的形式被定义,简单来说,数据挖掘就是从海量的数据信息中提取出有价值的信息,原有的数据大部分是有模糊噪声的数据,但在这些数据中又存在着很多潜在价值。挖掘的过程是通过利用各个领域的技术知识对海量数据进行处理分析,挖掘出可以有益于人们进行更高层次的分析决策的内容。[0004]目前,虽然国内外对数据挖掘的研究已取得不少的成果,但对各个应用领域的时间序列的挖掘却没有通用性,譬如对金融领域的数据挖掘的方法在医疗领域应用时所得到的性能效果不是很好。现在大多数的方法可能只是在某一个方面表现出较为良好的性能,而不能在其他各个方面综合起来有一个很好的性能。显然,以往对时间序列的研究还是存在着一些不足的,对于不同领域的时间序列挖掘问题,传统的挖掘方法己不适用,需寻求一些新的技术和方法。发明内容[0005]本发明的目的是克服现有技术中存在的上述缺陷,提供一种基于时间序列的计算机数据挖掘聚类方法,使其能够有效地处理数据量大、维度高的时间序列数据,方法简单易行,不依赖于具体序列,能高效地进行数据挖掘聚类,将适量数据有效压缩并保留其数据的主要特征。[0006]为了实现上述目的,本发明提供了一种基于时间序列的计算机数据挖掘方法,该方法包括如