预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共63页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

讲授:吴雄华一、引例从这个销售数据中可以得出什么结论?从数据挖掘的角度就是得到了如下的很强的关联规则:二、数据挖掘的定义例5.JohnRoth在联合国世界电信论坛上又提出了一个关于网络科技的一个观点:互联网宽带每9个月会增加一倍的容量,但成本降低一半,比芯片的变革速度还快。----“光纤定律”。数据挖掘技术的另一个产生动力 2.数据过量而知识贫乏四、数据挖掘的支撑技术3、聚类分析:例如对于新闻可以根据他们的主题分组。第二章数据一、理解数据二、数据属性及其类型三、数据集的类型三、数据集的类型三、数据集的类型四、数据对象之间的相异度和相似度1、简单属性的相似度和相异度1、简单属性的相似度和相异度可以计算学生身高的相异度矩阵如下:例2.设两个顾客x和y购买的商品如下,计算它们的相似系数SMC和J。例3.两个文档向量x和y如下,分别计算其余弦相似度cos(x,y)和EJ第三章数据挖掘中的统计方法例如,以毫米为单位,20个人的身高通常不会重复,但如果以分米为单位,则某些人很可能具有相同的身高。此外,如果使用一个唯一的值表示遗漏值,该值通常用众数。样本的p分位数xp可以按如下方法求得:与分位数有关常用术语例1.下表是中国各省(市)国有单位的人均报酬,单位:元/年。分别计算p=0.25,0.5,0.75时的分位数及样本均值。解:n=34,n*0.75=8.5,Q3=32738(江苏),同理,median=22956(湖北或湖南),Q1=21608(贵州),Q3-Q1=11130,样本均值为27501.59 例:设总体的分布率如下:数据:3,3,2,2,1,2,1,2,3,3如上,原数据要考虑8个因素,通过提取主成分后只需要考虑3个因素,设原数据集(未标准化前)为X,三个最大特征值对应的特征向量构成的矩阵为:当第一主成分的系数(最大特征值对应的特征向量)全部同号是,可按第一主成分对数据进行排序。如本例,所给省市的劳动报酬由高到低依次为敬请各位同学提出宝贵意见第四章分类分类(Classification)就是通过学习得到一个目标函数(称为模型函数)f,然后把新的对象x通过f映射到一个预先定义的类别号y。