预览加载中,请您耐心等待几秒...
1/4
2/4
3/4
4/4

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

回归模型的残差分析 山东胡大波 判断回归模型的拟合效果是回归分析的重要内容,在回归分析中,通常用残差分析来判断回归模型的拟合效果。下面具体分析残差分析的途径及具体例子。 残差分析的两种方法 1、差分析的基本方法是由回归方程作出残差图,通过观测残差图,以分析和发现观测数据中可能出现的错误以及所选用的回归模型是否恰当;在残差图中,残差点比较均匀地落在水平区域中,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型的拟合精度越高,回归方程的预报精度越高。 2、可以进一步通过相关指数来衡量回归模型的拟合效果,一般规律是越大,残差平方和就越小,从而回归模型的拟合效果越好。 典例分析: 例1、某运动员训练次数与运动成绩之间的数据关系如下: 次数/x3033353739444650成绩/y3034373942464851试预测该运动员训练47次以及55次的成绩。 解答:(1)作出该运动员训练次数x与成绩y之间的散点图,如图1所示,由散点图可 知,它们之间具有线性相关关系。 (2)列表计算: 次数成绩30309009009003334108911561122353712251369129537391369152114433942152117641638444619362116202446482116230422085051250026012550由上表可求得,,, ,所以 ,所以回归直线方程为 (3)计算相关系数 将上述数据代入得,查表可知 ,而,故y与x之间存在显著的相关关系。 (4)残差分析: 作残差图如图2,由图可知,残差点比较均匀地分布在水平带状区域中,说明选用的模型比较合适。 计算残差的方差得,说明预报的精度较高。 (5)计算相关指数 计算相关指数=0.9855.说明该运动员的成绩的差异有98.55%是由训练次数引起的。 (6)做出预报 由上述分析可知,我们可用回归方程作为该运动员成绩的预报值。 将x=47和x=55分别代入该方程可得y=49和y=57, 故预测运动员训练47次和55次的成绩分别为49和57. 点评:一般地,建立回归模型的基本步骤为: (1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量; (2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等); (3)由经验确定回归方程的类型(如我们观察到数据呈线性关系,则选用线性回归方程y=bx+a); (4)按一定规则估计回归方程中的参数(如最小二乘法); (5)得出结果后分析残差图是否有异常(个别数据对应残差过大,或残差呈现不随机的规律性等等),若存在异常,则检查数据是否有误,或模型是否合适等。 例2、某城区为研究城镇居民月家庭人均生活费支出和月人均收入的相关关系,随机抽取10户进行调查,其结果如下: 月人均收入x/元月人均生活费y/元3002553903244203355203605704507005207605808006008506301080750试预测人均月收入为1100元和人均月收入为1200元的两个家庭的月人均生活费。 解答:作出散点分布图如图,由图可知,月人均生活费与人均收入之间具有线性相关关系。 通过计算可知,,, ,所以 ,所以回归直线方程为 计算相关系数得,而查表知,故月人均收入与月人均生活费之间具有显著相关关系。 作残差图如图,由图可知,残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适。 计算相关指数得=0.9863,说明城镇居民的月人均生活费的差异有98.63%是由月人均收入引起的。 由以上分析可知,我们可以利用回归方程来作为月生活费的预报值。 将x=1100代入回归方程得y=784.59元;将x=1200代入回归方程得y=850.58元。 故预测月人均收入分别为1100元和1200元的两家庭的月人均生活费分别为784.59元和850.58元。