基于划分方法的聚类分析-豆柴文库

基于划分方法的聚类分析.docx

2024-11-06

20金币

194KB

4页

快乐****蜜蜂

实名认证

内容提供者

1/4

2/4

3/4

4/4

在线预览结束，喜欢就下载吧，查找使用更方便

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

南京信息工程大学滨江学院实验（实习）报告实验（实习）名称基于划分方法的聚类分析实验（实习）日期2011.6.10指导教师闫雷鸣专业软工（动画）年级2008班次（1）班姓名王圆媛学号20082358002得分实验目的（1）学习聚类分析的基本概念、各种数据类型、聚类方法的分类。（2）学会典型的划分方法K均值和K中心点算法的基本原理、特点、优缺点。（3）应用Weka软件，学会导入数据文件，并对数据文件进行预处理。（4）学会并应用划分方法中K均值和K中心点算法对数据集进行聚类分析。二、实验准备： Bank-data 三、实验要求：用划分方法中K均值和K中心点算法对数据集进行聚类分析四、实验内容： 4.1 相关知识聚类分析中的“类”（cluster）和前面分类的“类”（class）是不同的，对cluster更加准确的翻译应该是“簇”。聚类的任务是把所有的实例分配到若干的簇，使得同一个簇的实例聚集在一个簇中心的周围，它们之间距离的比较近；而不同簇实例之间的距离比较远。对于由数值型属性刻画的实例来说，这个距离通常指欧氏距离。聚类分析中使用最常见的K均值（K-means）算法。 K均值聚类方法的步骤如下。（1）K均值算法首先随机的指定K个簇中心。（2）将每个实例分配到距它最近的簇中心，得到K个簇；（3）计分别计算各簇中所有实例的均值，把它们作为各簇新的簇中心。重复（2）和（3），直到K个簇中心的位置都固定，簇的分配也固定。上述K均值算法只能处理数值型的属性，遇到分类型的属性时要把它变为若干个取值0和1的属性。WEKA将自动实施这个分类型到数值型的变换，而且Weka会自动对数值型的数据作标准化。 Weka中列出了很多聚类算法。对于EM实现，用户可指定需要产生多少聚类，否则所用的算法可通过交叉验证来决定，在这种情况下，折的数量固定为10（除非训练实例小于10个）。用户可指定循环次数的最大值，并且为正常的密度计算设定可允许的最小标准差。SimpleKMeans使用k均值来聚类数据；聚类的数量通过一个参数设定。Cobweb实现了用于名词属性的Cobweb算法和用于数值性属性的Classit算法。FarthestFirst实现Hochbaum和Shmoys远端优先遍历算法。MakeDensityBaseCluster是一个元聚类器，它包装一个聚类算法，使其返回一个概率分布和密度。它为每个聚类拟合一个离散分布，或一个对称的正态分布。 4.2 实验操作（1）在开始程序（或者桌面图标）中找到WEKA，单击即可启动WEKA，启动WEKA时会发现首先出现的一个命令提示符。接着将出现如下WekaGUIChooser界面。（2）选择GUIChooser中的探索者（Explorer）用户界面。点击预处理（Preprocess）功能按钮的，Openfile，选择其中的“bank-data”数据作关联规则的分析。打开“bank-data.csv”，可以看到“Currentrelation”、“Attributes”“Selectedattribute”三个区域。（3）对于原始数据“bank-data.csv”的预处，删去属性“id”，保存为ARFF格式后，修改属性“children”为分类型。这样得到的数据文件为“bank.arff”，含600条实例。（4）用“Explorer”打开刚才得到的“bank.arff”，并切换到“Cluster”选项卡。点击“Choose”在随后打开的层级式菜单中的选择“SimpleKMeans”，这是WEKA中实现K均值的算法。点击旁边的文本框，修改“numClusters”为6，说明我们希望把这600条实例聚成6类，即K=6。下面的“seed”参数是要设置一个随机种子，依此产生一个随机数，用来得到K均值算法中第一次给出的K个簇中心的位置，先设定为10。（7）选中“ClusterMode”的“Usetrainingset”，点击“Start”按钮，观察右边“Clustereroutput”给出的聚类结果。也可以在左下角“Resultlist”中这次产生的结果上点右键，“Viewinseparatewindow”在新窗口中浏览结果。（8）实验结果：结果中有这么一行字样：这是评价聚类好坏的标准，数值越小说明同一簇实例之间的距离越小。“seed”参数的变化，导致得到的这个数值也发生变化。通过多尝试变化seed值，并取使得数值最小的seed值。接下来“Clustercentroids:”之后列出了各个簇中心的位置。对于数值型的属性，簇中心就是它的均值（Mean）；分类型的就是它的众数（Mode），也就是说这个属性上取值为众数值的实例最多。对于数值型的属性，还给

相关资料

基于划分方法的聚类分析.docx

2024-11-06

194KB

基于聚类分析的舰船冲击环境区域划分方法.docx

基于聚类分析的舰船冲击环境区域划分方法基于聚类分析的舰船冲击环境区域划分方法摘要：随着舰船工程的不断发展，舰船冲击环境的研究变得越来越重要。区域划分是研究舰船冲击环境的关键环节之一。本文提出了一种基于聚类分析的舰船冲击环境区域划分方法。该方法通过收集舰船冲击环境的多种影响因素，并使用聚类分析方法对这些影响因素进行聚类，最终得到舰船冲击环境区域划分的结果。通过实例分析，验证了该方法的准确性和可靠性，为舰船冲击环境研究提供了一种新的途径。关键词：舰船冲击环境、区域划分、聚类分析、影响因素1.引言舰船冲击环境是

2024-10-20

11KB

基于层次聚类分析的乡村旅游特征划分方法研究.docx

基于层次聚类分析的乡村旅游特征划分方法研究摘要：乡村旅游是中国旅游业的重要组成部分，也是促进农村经济发展的重要途径。本研究采用层次聚类分析方法，结合乡村旅游特征指标，对不同类型的乡村旅游进行了特征划分。结果显示，乡村旅游可分为四类，分别是自然景观游、文化探寻游、休闲度假游和体验式生态游。本研究可为乡村旅游资源整合和推广提供决策参考。关键词：层次聚类分析；乡村旅游；特征划分Introduction：乡村旅游是近年来发展迅速的旅游方式，不仅能够满足人们的旅游需求，也能够为农村地区带来经济发展和生态保护。乡村旅

2024-10-18

10KB

基于层次聚类分析的乡村旅游特征划分方法研究.pdf

基于层次聚类分析的乡村旅游特征划分方法研究陈瑞萍摘要：由于传统乡村旅游特征划分方法获取到的景点划分结果比较稀疏为了提高乡村旅游业的经济收益使乡村旅游景点划分的更密集提出了基于层次聚类分析的乡村旅游特征划分方法研究。首先利用层次聚类分析法构建了乡村旅游特征划分指标体系;其次根据层次聚类分析法原理确定特征划分指标权重的计算方法完成特征划分指标权重的计算;最后优化传统特征划分算法实现了基于层次聚类分析的乡村旅游特征划分。结果表明基于层次聚类分析的乡村旅游特征划分方法相比于传统乡

2023-11-01

157KB

基于聚类分析的波浪散布图组块自动划分方法.pdf

本发明公开一种基于聚类分析的波浪散布图组块自动划分方法，以聚类分析方法为基础，通过定义矩距离将每一个波浪工况划分至最合适的组块里，克服目前人为组块划分的随意性和盲目性；并结合组块等效波浪要素的求解分析方法，给出了疲劳损伤评估的误差评估分析策略，在保障疲劳损伤评估精度的同时给出最优的波浪散布图组块划分方法，即满足疲劳损伤评估精度的基础上最大程度地提升时域疲劳评估方法的计算效率，可进一步推动时域疲劳评估方法在工程中的推广应用。

2023-06-27

597KB