预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共65页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

大数据分析--埃森哲目录数据分析即从数据、信息到知识的过程,数据分析需要数学理论、行业经验以及计算机工具三者结合随着计算机技术发展和数据分析理论的更新,当前的数据分析逐步成为机器语言、统计知识两个学科的交集(备选)随着计算机科学的进步,数据挖掘、商务智能、大数据等概念的出现,数据分析的手段和方法更加丰富目录1.业务理解(businessunderstanding)确定目标、明确分析需求2.数据理解(dataunderstanding)收集原始数据、描述数据、探索数据、检验数据质量3.数据准备(datapreparation)选择数据、清洗数据、构造数据、整合数据、格式化数据4.建立模型(modeling)选择建模技术、参数调优、生成测试计划、构建模型5.评估模型(evaluation)对模型进行较为全面的评价,评价结果、重审过程6.部署(deployment)分析结果应用数据分析框架目录数据清洗&数据探索给定一个置信概率,并确定一个置信限,凡超过此限的误差,就认为它不属于随机误差范围,将其视为异常值。常用的方法(数据来源于同一分布,且是正态的):拉依达准则、肖维勒准则、格拉布斯准则、狄克逊准则、t检验。判别方法由包含m个插补值的向量代替每一个缺失值,然后对新产生的m个数据集使用相同的方法处理,得到处理结果后,综合结果,最终得到对目标变量的估计数据探索数据概率分布数据分布初步推断相关系数是考察变量之间的相关程度的变量,相关分析是优化数据结构的基础检验动机:样本数据只是总体的一个实现,因此,根据现有数据计算出来的相关系数只是变量相关系数的一个观测值,又称为样本相关系数。欲根据这个样本相关系数来估计总体相关系数,必须进行显著性检验。其原假设:在总体中,两个变量的相关系数(总体相关系数)为零检验意义:计算在原假设成立的情况下(也就是在两个变量相关系数为零的情况下),由于抽样的原因(收集样本数据的原因)得到当前的样本相关系数(可能这个系数并不为零,甚至还比较大)的概率。(p值越小说明越是小概率事件,不可能发生,拒绝原假设)检验方法:T检验(常用):对于近似高斯分布的数据(如两个变量服从双变量正态分布),相关系数的样本分布近似地服从自由度为N−2的t分布;如果样本容量不是特别小(通常大于30),即使观测数据不服从正态分布,依然可使用t检验KarlPearson(1901)探究如何通过少数几个主成分(principalcomponent)来解释多个变量间的内部结构时提出主成分分析法,旨在从原始变量中导出少数几个主分量,使其尽可能多地保留原始变量的信息,且彼此间互不相关内涵:将彼此相关的一组指标变量转化为彼此独立的一组新的指标变量,并用其中较少的几个新指标变量就能综合反映原多个指标变量所包含主要信息的多元统计方法目录分类未知数据分类分类分类分类回归分类:前提:正态性假设:总体误差项需服从正态分布,反之则最小二乘估计不再是最佳无偏估计,不能进行区间估计和假设检验零均值性假设:在自变量取一定值的条件下,其总体各误差项的条件平均值为零,反之无法得到无偏估计等方差性假设:在自变量取一定值的条件下,其总体各误差项的条件方差为一常数,反之无法得到无偏估计独立性假设:误差项之间相互独立(不相关),误差项与自变量之间应相互独立,否则最小二乘估计不再是有效估计检验:回归模型分类模型评估以真正率及敏感性为纵轴,假正率=1-特异性为横轴做图。给定一个二类问题,我们可以对检验集的不同部分,显示模型可以正确识别正样本的比例与模型将负样本错误标识为正样本的比例之间的比较评定。敏感性的增加以错误正例的增加为代价。响应率曲线目录聚类分析——K均值聚类聚类模型评估目录关联规则关联规则关联规则关联规则目录时间序列:是按时间顺序的一组数字序列构成:组合模型:加法模型:假定时间序列是基于4种成份相加而成的。长期趋势并不影响季节变动;Y=T+S+C+I乘法模型:假定时间序列是基于4种成份相乘而成的。假定季节变动与循环变动为长期趋势的函数;建模步骤:505152目录结构优化-遗传算法结构优化—灰色理论目录可选组件数据挖掘工具-SPSSClementine(现已更名为:PASWModeler)数据挖掘工具-R数据挖掘工具-Stata数据挖掘工具-MATLAB数据挖掘工具-其他数据挖掘的工具及软件从数据到信息的进化