预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共43页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

非参数统计分析 第一章引言 §1.1关于非参数统计 在初等统计学中,最基本的概念是总体,样本,随机变量,分布,估计和假设检验等.其很大一部分内容是和正态理论相关的。在那里,总体的分布形式或分布族往往是给定的或者是假定了的,所不知道的仅仅是一些参数的值或他们的范围。于是,人们的任务就是对一些参数,比如均值和方差(或标准差),进行点估计或区间估计,或者是对某些参数值进行各种检验,比如检验正态分布的均值是否相等或等于零等等.最常见的检验为对正态总体的t—检验,F—检验,和最大似然比检验等. 然而,在实际生活中,那种对总体的分布的假定并不是能随便做出的。有时,数据并不是来自所假定分布的总体;或者,数据根本不是来自一个总体;还有可能,数据因为种种原因被严重污染。这样,在假定总体分布的情况下进行推断的做法就可能产生错误的结论。于是,人们希望在不假定总体分布的情况下,尽量从数据本身来获得所需要的信息。这就是非参数统计的宗旨。因为非参数统计方法不利用关于总体分布的知识,所以,就是在对于总体分布的任何知识都没有的情况下,它也能很容易而又很可靠地获得结论.这时,非参数方法往往优于参数方法。然而,在总体的分布族已知的情况下,不需要任何先验知识就成为它的缺点;因为它没有充分利用已知的关于总体分布的信息,所做出的结论就不如参数方法得到的精确. 在不知总体分布的情况下如何利用数据所包含的信息呢?一组数据的最基本的信息就是次序.如果可以把数据点按大小次序排队,每一个具体数目都有它的在整个数据中(从最小的数起)的位置或次序,称为该数据的秩(rank).数据有多少个观察值,就有多少个秩.在一定的假定下,这些秩和它们的统计量的分布是求得出来的,而且和原来的总体分布无关.这样就可以进行所需要的统计推断。 注意,非参数统计的名字中的“非参数(nonparametric)”意味着其方法不涉及描述总体分布的有关参数;它被称为和分布无关(distribution—free),是因为其推断方法和总体分布无关;不应理解为与所有分布(例如有关秩的分布)无关. §1.2顺序统计量,秩和线性秩统计量 一、顺序统计量 因为非参数方法通常并不假定总体分布。因此,观测值的顺序及性质则作为研究的对象。 1、顺序统计量:对于样本X1,X2,X3,…,Xn,如果按照升幂排列,得到 称为第个顺序统计量。 2、基于顺序统计量的统计量 中位数 极差 3、顺序统计量分布函数 设总体的分布函数F(X),则第r个顺序统计量的分布函数为 (4)顺序统计量密度函数 二、秩统计量 1、秩统计量 设X1,X2,X3,…,Xn来自总体的样本,记为样本点的秩,即 = 其中 是固定的。它等于小于或等于的的个数。 例如: 原始观测值 5.6 1.4 2.7 5.2 2.6 4.8 2.3 秩 7 1 4 6 3 5 2 2、秩统计量的分布和数字特征 ●的联合分布为: ●的概率分布为: ●的数学期望: ●的方差: 3、线性符号秩统计量:设为|X1|,|X2|,|X3|,…,|Xn|中的秩,定义为整数1,2,…,n上的非降函数,满足,则称 EMBEDEquation.3 如果X1,X2,X3,…,Xn为独立同分布的连续随机变量,并有关于0的对称分布,则 EMBEDEquation.3= EMBEDEquation.3 4、线性秩统计量: 设X1,X2,X3,…,XN为样本,Ri为Xi在X1,X2,X3,…,XN中的秩。又定义和为定义在1,2,…,N上的函数,则称 EMBEDEquation.3 为线性秩统计量。称为记分函数。称为回归常数。 定理记和,则 ,。 证因为 所以EMBEDEquation.3 又因为 例设X1,X2,X3,…,XN为样本,对秩和统计量W=,有,0或1,视或否,有 EMBEDEquation.3 故 5、正态记分线性秩统计量 令EMBEDEquation.3中的,是标准正态分布函数的的反函数。则称为正态记分线性秩统计量。 第二章单样本非参数检验 在有了一个样本之后,很自然地想要知道它所代表的总体的“中心”在哪里.例如,在对人们的收入进行了抽样之后,就自然要涉及“人均收入”和“中间收入”等概念.这就与统计中的对总体的均值(mean),中位数(median)和众数(mode)等位置参数的推断有关。例如,在知道总体是正态分布时,要检验其均值是否为;一个传统的基于正态理论的典型方法是t检验.它的检验统计量定义为 这里为样本均值,而为样本标准差。t—检验的统计量在零假设下有n—1个自由度的t—分布。检验统计量是用样本标准差s代替了有标准