北航数理统计大作业(逐步回归)

时间:2022-06-23 08:00:10 浏览量:

  应用数理统计 第一次大作业

 学号:

  姓名:

  班级:

  B11 班

 2015 年 12 月

 民航客运量得多元线性回归分析 摘要: : 本文为建立以民航客运量为因变量得多元线性回归模型,选取了 1996年至2013 年得统计数据,包含国民生产总值,民航航线里程,过夜入境旅游人数,城镇居民可支配收入等因素,利用统计软件 SPSS对各因素进行了筛选分析,采用逐步回归法得到最优多元线性回归模型,并对模型得回归显著性、拟合度以及随机误差得正态性进行了检验,并采用 2014年得数据进行检验,得到得结果达到预期,证明该模型建立就是较为成功得. 关键词 :多元线性回归,逐步回归法,民航客运量

  0 、 符号说明 变量

 符号

 民用航空客运量

 Y 国民生产总值

 X 1

 铁路客运量

 X 2

 民航航线里程

 X 3

 入境 过夜 旅游人数

 X 4

 城镇居民人均可支配收入

 X 5

 1、 引言 随着社会得进步,人民生活水平得提高,如何获得更快捷方便得交通成为人们日益关注得问题.因为航空得安全性,快速且价格水平越来越倾向大众,越来越多得人们选择航空这种交通方式。近年来,我国得航空客运量已经进入世界前列,为掌握航空客运得动态,合理安排班机数量.科学地对我国民航客运量得影响因素得分析,并得出其回归方程,进而能够估计航空客运量就是非常有必要得。本文收集整理了与我国航空客运量相关得历年数据,运用 SPSS 软件对数据进行分析,研究 1996年起至 2013 年我国民航客运量 y(万人)与国民生产总值 X 1 (亿

 元)、铁路客运量 X 2 (万人)、民航航线里程X 3 (万公里)、入境过夜旅游人数X 4 (万人)、城镇居民人均可支配收入 X 5 (元)得关系。采用逐步回归法建立线性模型,选出较优得线性回归模型。

 2 、数据得统计与分析 本文在进行统计时,查阅《中国统计摘要》,《中国统计年鉴2014》以及中国知网数据查询中得数据,收集了 1996 年至 2013年各个自变量因素得数据,分析它们之间得联系。整理如表 1 所示。

 表 表 1 :

 年份 民航客运量(万人)

 国内生产总值(亿元) 铁路客运量(万人) 民航航线里程(万公里)

 入境过夜旅游人数(万人)

 城镇居民可支配收入(元)

 1996 5555 78973 94797 116、65 1356、26 4838、9 1997 5630 84402、3 93308 142、5 1578、53 5160、3 1998 5755 89677、1 95085 150、58 1692、45 5425、1 1999 6094 88479、2 100164 152、22 1765、25 5854、1 2

 4、6 105073 150、29 1750、96 6280、1 2

 55、2 105155 155、36 1880、36 6859、6 2

 32、7 105606 163、77 2012、45 7702、8 2

 22、8 97260 174、95 2033、58 8472、2 2

 878、3 111764 204、94 2519、89 9421、6 2005

 、4 115583 199、85 2925、63 10493、1 2006

 、4 125656 211、35 3486、45 11759、5 2

 810、3 135670 234、3 3398、58 13785、8 2

 045、4 146193 246、18 3696、 15780、8

 2、1 模型得建立 以民航客运量 y 为因变量,以上 5 种影响因素为自变量 X i

 ,构建回归方程:

 其中 为常数项, 为误差项。

 先观察自变量与因变量得关系,用 SPSS得到各个自变量与因变量得散点图:

 图 图 1

 民航客运量与国内生产总值散点图 71 2

 506、9 152451 234、51 4025、96 17174、7 2

 983、5 168145 276、5 4753、84 19109、4 2

 1

 、05 4924、32 21809、8 2

 470、1 189337 328、01 5668、63 24564、7 2

 45、2 210597 410、6 5562、39 26955、1

  图 图 2

 民航客运量与铁路 客运量散点图

 图 3

  民航客运量与航线里程散点图

  图4

 民航客运量与入境 过夜 人数散点图

  图 图 5

  民航客运量与人均可支配收入散点图 从以上五张散点图,我们可以瞧出因变量民航客运量与国内生产总值,入境过夜旅游人数与城镇居民人均可支配收入均有较好得线性关系,这说明建立线性

 模型就是有意义得。

 继续下一步逐步回归分析,逐步回归得基本思想就是将变量逐个引入模型,每引入一个变量后都要进行F检验,并对已经选入得变量逐个进行t检验,当原来引入得变量由于后面变量得引入变得不再显著时,则将其删除。以确保每次引入新得变量之前回归方程中只包含先主动变量。这就是一个反复得过程,直到既没有显著得变量选入回归方程,也没用不显著得变量从回归方程中剔除为止。在SPSS软件中可直接进行逐步回归分析,得出以下结果:

 由表2知,逐步回归后得出两个模型,模型1只包含城镇居民可支配收入,其她自变量都没有进入模型,模型2在1得基础上再纳入了过夜入境旅游人数,其她得自变量也都被排除了。

 表2 输入/移去得变量a a

 模型 输入得变量 移去得变量 方法 1 城镇居民人均可支配收入 、 步进(准则: F-to-enter 得概率 <= 、050,F-to-remove 得概率 >= 、100)。

 2 过夜游客 、 步进(准则: F-to-enter 得概率 <= 、050,F-to-remove 得概率 >= 、100)。

 a、 因变量: 民用航空客运量 表3

 2 、2 拟 合度检验 由表4,模型1得决定系数R2=0、992,模型2得决定系数R 2 =0、995,可以瞧出回归方程都高度显著,且模型2比模型1更优。

 2、3 回归方程得显著性检验: 由表5,方差分析表 Sig 值都<0、05,说明每个模型都拒绝回归系数均为 0得假设,每个方程都就是显著得。

 表5 An o vaa a

 模型 平方与 df 均方 F Sig、 1 回归 1678659397、184 1 1678659397、184 2183、841 、000b

 残差 12298767、261 16 768672、954

  已排除得变量a a

 模型 Beta In t Sig、 偏相关 共线性统计量 容差 1 国内生产总值 、197b

 、517 、612 、132 、003 铁路客运量 -、001b

 -、014 、989 -、004 、058 民航航线里程 -、040b

 -、388 、704 -、100 、044 过夜游客 、421b

 3、432 、004 、663 、018 2 国内生产总值 、306c

 1、059 、308 、272 、003 铁路客运量 -、020c

 -、289 、777 -、077 、058 民航航线里程 、011c

 、138 、892 、037 、043 a、 因变量: 民用航空客运量 b、 模型中得预测变量: (常量), 城镇居民人均可支配收入。

 c、 模型中得预测变量: (常量), 城镇居民人均可支配收入, 过夜游客。

 表4 模型汇总c c

 模型 R R 方 调整 R 方 标准 估计得误差 更改统计量 R 方更改 F 更改 df1 df2 Sig、 F 更改 1 、996a

 、993 、992 876、7400 、993 2183、841 1 16 、000 2 、998b

 、996 、995 677、6913 、003 11、779 1 15 、004 a、 预测变量: (常量), 城镇居民人均可支配收入。

 b、 预测变量:

 (常量), 城镇居民人均可支配收入, 过夜游客。

 c、 因变量:

 民用航空客运量

 总计 1690958164、444 17

 2 回归 1684069181、37

 、685 1833、437 、000c

 残差 6888983、

 、538

  总计 1690958164、444 17

 a、 因变量: 民用航空客运量 b、 预测变量: (常量), 城镇居民人均可支配收入。

 c、 预测变量:

 (常量), 城镇居民人均可支配收入, 过夜游客。

 由表6可以得到两个模型得回归方程分别: 1.

 以城镇居民可支配收入为自变量得拟合函数:

 y=—1698、669+1、406X 5

 2、

  以城镇居民可支配收入与过夜入境旅游人数为自变量得拟合函数:

 y=-3267、728+0、817X 5 +2、871X 4

 且所有系数得显著性水平都小于0、05,每个回归方程都就是有意义得。

 表6 系数a a

 模型 非标准化系数 标准系数 t Sig、 B 标准 误差 试用版 1 (常量) —1698、669 423、955

 -4、007 、001 城镇居民人均可支配收入 1、406 、030 、996 46、732 、000 2 (常量)

 -3267、728 562、492

 -5、809 、000 城镇居民人均可支配收入 、817 、173 、579 4、721 、000 过夜游客 2、871 、837 、421 3、432 、004 a、 因变量: 民用航空客运量 表 7 就是残差统计结果。主要显示预测值、标准化预测值、残差与标准化残差等统计量得最大值、最小值、均值与标准差。残差平方与 Q 描述得就是随机误差引起因变量 Y 得分散程度,Q 越大分散性也越大,则线性关系越不明显。由表7 可见标准化残差得最大绝对值为 1、758。而且标准残差得均值为 0,说明随机误差对 Y 值得影响很小。

 表7 残差统计量a a

  极小值 极大值 均值 标准 偏差 N 预测值 4581、804 35339、836 15600、444 9953、0344 18 残差 —1191、5225 973、1963 、0000 636、5802 18 标准 预测值 -1、107 1、983 、000 1、000 18 标准 残差 -1、758 1、436 、000 、939 18

 a、 因变量: 民用航空客运量 2 、4 多重共线性得诊断 表8 共线性诊断a a

 模型 维数 特征值 条件索引 方差比例 (常量)

 城镇居民人均可支配收入 过夜游客 1 1 1、873 1、000 、06 、06

 2 、127 3、843 、94 、94

 2 1 2、852 1、000 、01 、00 、00 2 、147 4、410 、37 、01 、00 3 、002 39、683 、62 、99 1、00 a、 因变量: 民用航空客运量 表 8 就是 SPSS软件得多重共线性诊断表,它包括 3 项诊断值:特征值、条件数与方差比率。特征值表明在自变量中存在多少截然不同得维数,当几个特征值都接近 0 就是,变量就是高度相关得.条件数就是最大特征值对每一个连续特征值得比率得平方根,若条件数大于 15 则表明可能存在多重共线问题,若大于30 则表明存在严重得多重共线性问题。显然表 8 中变量 X 4 过夜入境旅游人数得条件数大于 30,说明回归方程存在多重共线性。

 2 、5 残差检验 如图 6 就是残差分布直方图。在回归分析中,总就是假定残差服从正态分布,这个图就就是根据样本数据得计算结果显示残差分析得实际情况。从图来瞧标准化残差还就是近似服从正态分布得.

  图6 如图 7 残差得积累概率图基本围绕在假设直线 (正态分布)周围,说明残差分布基本符合正态分布,说明民航客运量这个因变量基本上可以用线性回归方法建立模型. 3 、结论 为了解决多重共线性得问题,排除模型 2,考虑到模型 1 得拟合度也就是很好得,综合来瞧认为模型 1 为更优.最终得到得回归方程为: y=-1698、669+1、406X 5

 并以2014 年得数据检验该回归方程,2014 年航空客运量为 39195 万人,城镇居民人均可支配收入为28843、9,将自变量 X 5 带入回归方程得到y=38855、85 万人,与实际得客运量39195 万人得误差为 0、86%。因此可以认为该模型基本达到了预期得目标。

 通过最优回归方程,我们可以发现航空客运量与城镇居民得可支配收入线性相关十分显著,这就是符合常识得,只有居民可支配收入越来越高,才会选择航空这种昂贵得客运方式。

  图7 参考文献:

 [1]

 2015 年中国统计年鉴 [2]

 孙海燕、周梦、李卫国、冯伟、 应用数理统计、北京航空航天大学出版社,2009 [3]

 朱卫卫、 基于偏最小二乘回归得我国民航客运量影响因素分析[J]、 中国市场、 2010(41): 110—112

相关热词搜索: 作业 北航 数理