预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共39页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

OUTLINES一、引言一、引言一、引言二、聚类标准二、聚类标准二、聚类标准三、k-means算法三、k-means算法三、k-means算法三、k-means算法三、k-means算法三、k-means算法三、k-means算法三、k-means算法三、k-means算法三、k-means算法三、k-means算法四、EM算法四、EM算法四、EM算法四、EM算法四、EM算法对某城市年龄范围为25岁~55岁的中青年人群进行调查。各属性的含义如下:27Microsoft聚类分析通过其查看器来解释,SQLServerAnalysisServer提供的聚类分析查看器有4个选项卡。聚类之间是相互联系的,通过单独的某一个视图难以理解挖掘模型,但可以同时使用这些视图。 聚类的目的之一是给每一类贴上标签(1)获得顶层视图 (1)获得顶层视图(2)选择一个聚类并且找出与其它聚类之间的区别,以聚类1为例:分类特征视图,该视图通过以递减概率显示属性来描述聚类事例的特征 点击分类对比选项卡,将分类1与它的补充进行了比较。 (3)确定一个聚类如何区别于相邻的聚类 这个聚类可能非常相似于其它的聚类,并且在这个时候所做的标识适用于所有这些聚类。 与聚类1相似的聚类强度都不大,相对来说,与类8和类10相似性大点。通过比较类1和8,可以看出这两个聚类的重要差异是劳动强度和是否早起;通过比较类1和10,可以看出这两个聚类的重要差异是是否养宠物。(4)验证判断是否正确 通过比较聚类与其相邻的聚类,并且对聚类进行改进的时候,就有可能出现误导的情况: 两个聚类之间的差别可能是由一个属性引起的,该属性在这两个聚类中都不常见,但是在其中一个聚类中更少见。 通过对聚类1进行进一步验证,发现可以用“冠心病”标识“聚类1”,即聚类1的主要特征是有“冠心病”。(5)对聚类进行标识 聚类1为“冠心病” 结论: 冠心病高发人群有如下特点:高血脂,高血压,很少运动,经常熬夜,工作压力大,有家族新血压或心脏病病史,都不养宠物。同时发现男性比例显著高于女性的发病率等。 可以对这些因素进一步进行分析,对冠心病的预防、治疗及其医疗保健等有重要的指导作用。 作业小结