预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共26页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

第十二章回归分析 前面我们讲过曲线拟合问题。曲线拟合问题的特点是,根据得到的若干有关变量的 一组数据,寻找因变量与(一个或几个)自变量之间的一个函数,使这个函数对那组数 据拟合得最好。通常,函数的形式可以由经验、先验知识或对数据的直观观察决定,要 作的工作是由数据用最小二乘法计算函数中的待定系数。从计算的角度看,问题似乎已 经完全解决了,还有进一步研究的必要吗? 从数理统计的观点看,这里涉及的都是随机变量,我们根据一个样本计算出的那些 系数,只是它们的一个(点)估计,应该对它们作区间估计或假设检验,如果置信区间 太大,甚至包含了零点,那么系数的估计值是没有多大意义的。另外也可以用方差分析 方法对模型的误差进行分析,对拟合的优劣给出评价。简单地说,回归分析就是对拟合 问题作的统计分析。 具体地说,回归分析在一组数据的基础上研究这样几个问题: ()建立因变量与自变量之间的回归模型(经验公式); iyx1,x2,L,xm (ii)对回归模型的可信度进行检验; ()判断每个自变量对的影响是否显著; iiixi(i=1,2,L,m)y (iv)诊断回归模型是否适合这组数据; (v)利用回归模型对y进行预报或控制。 §1数据表的基础知识 1.1样本空间 在本章中,我们所涉及的均是样本点×变量类型的数据表。如果有m个变量 ,对它们分别进行了次采样(或观测),得到个样本点 x1,x2,L,xmnn , (xi1,xi2,L,xim)i=1,2,L,n 则所构成的数据表X可以写成一个n×m维的矩阵。 T ⎡e1⎤ ⎢⎥ X=(xij)n×m=⎢M⎥ ⎢T⎥ ⎣en⎦ 式中Tm,,被称为第个样本点。 ei=(xi1,xi2,L,xim)∈Ri=1,2,L,neii 样本的均值为 1n ,, x=(x1,x2,L,xm)xj=∑xijj=1,2,L,m ni=1 样本协方差矩阵及样本相关系数矩阵分别为 n 1T S=(sij)m×m=∑(ek−x)(ek−x) n−1k=1 ⎛s⎞ R=(r)=⎜ij⎟ ijm×m⎜ss⎟ ⎝iijj⎠ 其中 -226- 1n sij=∑(xki−xi)(xkj−xj) n−1k=1 1.2数据的标准化处理 (1)数据的中心化处理 数据的中心化处理是指平移变换,即 *,; xij=xij−xji=1,2,L,nj=1,2,L,m 该变换可以使样本的均值变为0,而这样的变换既不改变样本点间的相互位置,也 不改变变量间的相关性。但变换后,却常常有许多技术上的便利。 (2)数据的无量纲化处理 在实际问题中,不同变量的测量单位往往是不一样的。为了消除变量的量纲效应, 使每个变量都具有同等的表现力,数据分析中常用的消量纲的方法,是对不同的变量进 行所谓的压缩处理,即使每个变量的方差均变成1,即 * xij=xij/sj 1n 其中2。 sj=∑(xij−xj) n−1i=1 还可以有其它消量纲的方法,如 ** xij=xij/max{xij},xij=xij/min{xij} ii ** xij=xij/xj,xij=xij/(max{xij}−min{xij}) ii (3)标准化处理 所谓对数据的标准化处理,是指对数据同时进行中心化-压缩处理,即 x−x *ijj,,。 xij=i=1,2,L,nj=1,2,L,m sj §2一元线性回归 2.1模型 一元线性回归的模型为 y=β0+β1x+ε,(1) 2 式中,β0,β1为回归系数,ε是随机误差项,总是假设ε~N(0,σ),则随机变量 2 y~N(β0+β1x,σ)。 若对y和x分别进行了n次独立观测,得到以下n对观测值 ,() (yi,xi)i=1,2,L,n2 这n对观测值之间的关系符合模型 ,() yi=β0+β1x+εii=1,2,L,n3 这里,xi是自变量在第i次观测时的取值,它是一个非随机变量,并且没有测量误差。 2 对应于xi,yi是一个随机变量,它的随机性是由εi造成的。εi~N(0,σ),对于不同 的观测,当i≠j时,εi与εj是相互独立的。 2.2最小二乘估计方法 -227- 2.2.1最小二乘法 ˆˆ 用最小二乘法估计β0,β1的值,即取β0,β1的一组估计值β0,β1,使yi与 ˆˆ yˆi=β0+β1x的误差平方和达到最小。若记 n 2 Q(β0,β1)=∑(yi−β0−β1xi) i=1 则 n ˆˆˆˆ2 Q(β0,β1)=minQ(β0,β1)=(yi−β0−β1xi) β,β∑ 01i=1 显然Q(β0,β1)≥0,且关于β0,β1可微,则由多元函数存在极值的必要条件得 ∂Qn =−2∑(yi−β0−β1xi)=0 ∂β0i=1 ∂Qn =−2∑xi(yi−β0−β1xi)=0 ∂β1i=1 整理后,得到下面的