预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共11页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

【大数据分析分享系列】之数据挖掘和统计名词汇总目录一、数据挖掘术语....................................1二、统计名词........................................2三、其他...........................................10一、数据挖掘术语【算法】指的是用于实现某一数据挖掘技术-如分类树、辨识分析等等的特定程序。【属性】也被称为“特性”、“变量”、或者从数据库的观点,是一个“域”。【个体】是关于一个单元的测量值的集合――例如一个人的身高、体重、年龄等等;它也被称作“记录”、或者“行”(每一行通常代表一个记录,每一列代表一个变量)。【置信度】在形如“如果买了A和B,就要买C”的关联法则里有特定的含义。置信度是已经买了A和B,还要买C的条件概率。【因变量】在有约束学习里是那个被预测的变量;也被称作“输出变量”、“目标变量”、或者“结果变量”【估计】指的是预测一个连续型输出变量的值;也被称作“预测”。【特征】也被称作“属性”、“变量”,或者从数据库的观点,称为“域”。【输入变量】是在有约束学习里作预测的变量;也被称作“自变量”、“预测变量”。【模型】通常指的是一个数学公式,包括为它设置的参数(许多模型具有用户可以调节的参数)。【结果变量】在有约束学习里是那个被预测的变量;也被称作“因变量”“输出变量”、“目标变量”、或者“输出变量”。【P(A|B)】读作“已知B已经发生,A将发生的概率”【预测】指的是预测一个连续输出变量的值;也被称作“估计”。1【记录】是关于一个单元的测量值的集合-例如一个人的身高、体重、年龄等等;它也被称作“个体”、或者“排”(每一排通常代表一个记录,每一列代表一个变量)。【分数】指的是一个估计的值或者类。【给新数据打分】意思是利用用训练数据得出的模型预测新数据里的输出值。二、统计名词【统计】就是“统而计之”对所考察事物的量的取值在其出现的全部范围内作总体的把握,全局性的认识。【教育统计】对教育领域各种现象量的取值从总体上的把握与认识,它是为教育工作的良好进行,科学管理、革新发展服务的。【教育统计学】社会科学中的一门应用统计,是数理统计跟教育学、心理学交叉结合产物【测量】按一定规则给对象在某种性质的量尺上指定值。【教育测量】就是给所考察研究的教育现象,按一定的规则在某种性质量尺上指定值【心理量表】心理测验工具与常模的结合【数据】用数量或数字形式表示的资料事实称为数据。【计数数据】是以计算个数或次数获得的,多表现为整数。【测量评估数据】借助测量工具或评估方法对事物的某种属性指派给数字后所获数据。人工编码数据以人们按一定规则给不同类别的事物指派适当的数字号码后所形成的数据2【称名变量】只说明某一事物与其他事物在名称、类别或属性上的不同,并不说明事物与事物之间差异的大小、顺序的先后及质的优劣。【顺序变量】是指可以就事物的某一属性的多少或大小按次序将各事物加以排列的变量,具有等级性和次序性的特点。【等距变量】除能表明量的相对大小外,还具有相等的单位。【比率变量】除了具有量的大小、相等单位外,还有绝对零点。比率变量数据可以进行加、减、乘、除运算【次数分布】一批数据中各个不同数值所出现次数多少的情况,或者是这批数据在数轴上各个区间内所出现的次数多少的情况。【简单次数分布表】通常简称为次数分布表,其实质是反映一批数据在各等距区组内的次数分布结构。【相对次数】各组的次数f与总次数N之间的比值【次数分布曲线】从理论上讲,如若总次数无限增大,则随着组距的缩小,这些折线所接近的极限便将成为极光滑而富有规则性的曲线,称为次数分布曲线【散点图】用平面直角坐标系上点的散布图形来表示两种事物之间的相关性及联系模式。散点图适合于描述二元变量的观测数据。【线形图】以起伏的折线来表示某种事物的发展变化及演变趋势的统计图,适用于描述某种事物在时间序列上的变化趋势,也适用于描述一种事物随另一事物发展变化的趋势模式,还可适用于比较不同的人物团体在同一心理或教育现象上的变化特征及相互联系【观测数据不仅具有离散性的特点,而且还具有向某点集中的趋势,反映次数颁分布集中趋势的量数叫集中量数。3【中位数】位于数据分布正中间位置上的那个数。如果一组数据从小到大排列,则中位数通常是将这批数据个数一分为二,居于中间的那个数。【众数】一个次数分布中出现次数最多的那个数,众数不唯一可有一个或多个。用符号Mo表示。【离中趋势】数据具有偏离中心位置的趋势,它反映了一组数据本身的离散程度和变异性程度。【差异量数】反映一组数据离散程度的量【一批数据的算术平均数指的是这批数据总和数除以数据总次数后所得的商数。【平均差】各数据与其平均数的离差绝对值的平均值。【方差】数据的离差平方