预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共16页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

线性回归专题一元线性回归在客观世界中普遍存在着变量之间的关系。变量之间的关系一般来说可分为确定性的与非确定性的两种。确定性关系是指变量之间的关系可以用函数关系来表达。另一种非确定性的关系即所谓相关关系。例如人的身高与体重之间存在着关系,一般来说,人高一些,体重要重一些,但同样高度的人,体重往往不相同。人的血压与年龄之间也存在着关系,但同年龄的人的血压往往不相同。气象中的温度与湿度之间的关系也是这样,这是因为我们涉及的变量(如体重、血压、湿度)是随机变量,上面所说的变量关系是非确定性的。回归分析是研究相关关系的一种数学工具。它能帮助我们从一个变量取得的值去估计另一变量所取的值。(一)一元线性回归设随机变量与之间存在着某种相关关系。这里,是可以控制或可以精确观察的变量,如年龄、试验时的温度、施加的压力、电压与时间等。换句话说我们可以随意指定个值。因此我们干脆不把看成随机变量,而把它当作普通的变量。本章中我们只讨论这种情况。由于是随机变量,对于的每一个确定值,有它的分布。若的数学期望存在,则其取值随的取值而定,即的数学期望是的函数,记为或。称为关于的回归。由于的大小在一定程度上反映在处随机变量的观察值的大小,因此如果能设法通过一组样本来估计,那么,在一定条件下我们就能解决如下的问题:在给定置信度下,估计出当取一定值时,随机变量的取值情况,即所谓预测问题;以及在给定置信度下,控制自变量的取值范围,使在给定的范围内取值,即所谓控制问题。我们对于的、取定的一组不完全相同的值,作独立试验得到对观察结果,其中是处对随机变量观察的结果。这对观察结果就是一个容量为的样本。我们首先要解决的问题是如何利用样本来估计关于的回归。为此,首先需要推测的形式。在一些问题中,我们可以由专业知识知道的形式。否则,我们可将每对观察值在直角坐标系中描述出它的相应的点,这种图称为散点图。散点图可以帮助我们初略地看出的形式。例1为研究某一化学反应过程中,温度对产品得率的影响,测得数据如下。温度100110120130140150160170180190得率45515461667074788589这里自变量是普通变量,是随机变量。画出散点图如图9-2所示。由图大致看出具有线性函数的形式。图9-2设关于的回归为。利用样本来估计的问题称为求关于的回归问题。特别,若为线性函数:,此时估计的问题称为求一元线性回归问题。本节我们只讨论这个问题。我们假定对于(在某个区间内)的每一个值有,其中及都是不依赖于的未知参数。对作这样的正态假设,相当于假设,(3.2)其中未知参数及都不依赖于。(3.2)式称为一元线性回归模型。如果由样本得到(3.2)式中的估计,则对于给定的,我们取做为的估计。方程称为关于的线性回归方程或回归方程,其图形称为回归直线。思考:回归模型与回归方程有何异同?(二)的估计取的个不全相同的值作独立试验,得到样本。由(3.2)式,得,,各相互独立。(3.3)于是,。且由的独立性,知的的联合密度为(3.4)现用极大似然估计法来估计未知参数,。对于任意一组观察值,(3.4)式就是样本的似然函数。显然,要取最大值,只要(3.4)式右端方括弧中的平方和部分为最小,即只需函数(3.5)取最小值。注意:如果不是正态变量,则直接用(3.5)式估计未知参数,,使得的观察值与偏差的平方和为最小。这种方法叫最小二乘法。它是求经验公式的一个常用方法。若是正态变量,则最小二乘法与极大似然估计法给出相同的结果。取分别关于,的偏导数,并令它们等于零:(3.6)得方程组(3.7)(3.7)式称为正规方程组。为了和多元线性回归结合,设样本为则正规方程组也可以表示为:若用矩阵表示,则那么正规方程组可表示为由于不全相同,正规方程组的系数行列式即故(3.7)式有唯一的一组解。解得的极大似然估计为(3.8)于是,所求的线性回归方程为(3.9)若将代入上式,则线性回归方程变为(3.10)(3.10)表明,对于样本观测值,回归直线通过散点图的几何中心。今后我们将视方便而使用(3.9)或(3.10)。为了计算上的方便,我们引入下述记号:这样,的估计可写成(3.12)(三)的估计,称为处的残差,平方和称为残差平方和。残差平方和服从分布:(3.14)于是,