预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共16页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

万方数据 直方图理论与最优直方图制作木张建方前言王秀祥§1.直方图,Sturge8公式,S∞tt公式,Cro睁V础dat“阻,Hi8toF锄一Kemel在非参数统计领域,研究样本对应总体的分布,直方图技术一直处于非常重要的地位,扮演着经典角色.和核密度估计相比,虽然直方图不能给出较为精确的样本密度估计,但其以简单、直观、易懂等优点在密度估计、数据分析等过程中为大众所接受.随着样本量的增加.直方图同样也能很好地估计出总体分布特征.直方图是用矩形的宽度和高度来表示频数分布的图形.如在直角坐标系中,以z轴表示所考察的数据变量,可轴表示频数,再以每一体密度曲线的一种近似,Chenal(1990)从理论上证明了直方图估计密度函数的几乎处处收敛性.举例来说(茆诗松,2001),表1是上海市中心气象台发布的1884.1982年这99年来上海市年降水量数据(单位:mm).样本数据中最小值为709.2,最大值为1659.3.若我们设定最小分界点为620,各组组距长度为^=100,组数为七=11,具体分组和各组样本频数、频率列于表2中.图1显示了上海市年降水量的直方图(利用SAS软件制作),以及近似总体密度曲线,从曲线的整体形状可以看出上海市年降水量分布大致服(中国科学院研究生院管理学院,北京,100190)摘要组的区间为底,该区间的频数为高作矩形,即可得到该样本数据的频数直方图.直方图是总ZhauD(1987),Zhao,et从正态分布.蚰d(中国民生银行工商企业金融事业部杭州风险管理部,杭州,310009)直方图是一种最为常见的密度估计和数据分析工具.在直方图理论和制作过程中,组距的选择和边界点的确定尤为重要.然而,许多学者对这两个参数的选择仍然采用经验的方法,甚至现在大多数统计软件在确定直方图分组数时也是默认采用粗略的计算公式.本文主要介绍直方图理论和最优直方图制作的晟新研究成果,强调面向样本的最优直方图制作方法.关键词:E玎or,误差平方和.学科分类号:0212.7.本文2∞7年3月26日收到.应用概率统计第二十五卷第二期2009年4月and’国家自然科学基金项目(70371018,70572074)资助Chin∞eAppliedProbabilityStati8ti∞Vd.25JournalofNo.2Apr.2009‘ 万方数据 (620,720】(1220,1320】(1320,1420】(1520,1620】(1620,1720】表1.1上海市1884—1982年年降水量(单位mm)表1.2上海市年降水量频数、频率分布表(单位mm)(720,820】(820,920】(920,1020】(1020,1120】(1120,1220](1420,1520】图1.1上海市年降水量频数、频率直方图组号区间频数频率应用概率统计第二十五卷l10.0101250.0505360.06064170.1717180.1818220.22227140.141480.07079100.020211 万方数据 St峭(1926)在直方图制作方法上做了开创性的工作,得到了分组数七关于样本量他的矗(z)=轰,§2.最优直方图理论和制作方法edges)口o,01,⋯,口%,其中,吼+1一n{=^,t=0,1,⋯,七一l,z(n1≤n詹<z(n)十九;z∈(吼-1'口i】,i=1,2,⋯,詹.(1。1)由此,关于直方图的制作,我们可以概括为以下几个步骤:(1)给定一组样本观测值z1,z2,⋯,zn,对此进行排序,并设z(1)和z(n)为最小和最大样本观测值.确定最小下界印,满足00≤zfll;(2)估计组距(Binwidth)^(本文主要讨论等组距情况下的直方图制作),可得每组分界点(Bin(3)计算落在每组区间A=(ot,口件1】,z=0,1,⋯,七一1中的样本频数:,y1,⋯,讹;(4)以九为宽,饥,⋯,饥为高作矩形,构建直方图;(5)由直方图估计样本对应总体的密度分布:然而,制作直方图的关键就是确定最小下界口o(或其它某一分界点)和组距^.关于组距的选择,有许多方法并存在很大争议.组距在很大程度上影响直方图的性质和总体分布特方图“失真”.之前,许多文献对确定直方图组距有所讨论:大多数学者(如,茆诗松,2001)采用经验的方法,认为当样本量他较大时,分组数七取10到20之间;当样本量n<50时,七通常取5到6之间,且每组区间中样本频数通常要求不少于5(两端可少一些).谢衷沽(2004)在其著作中推荐使用了Moore(1986)公式:七≈C·n2/5,C=1—3.Montgome眄(1996)给出了直方图制作的三条建议:(1)分组数一般可以近似等于样本量的平方根;(2)各组组距相等;(3)以比最小样本观测值稍小的值作为最小边界点.其中,最后一条也是确