《应用统计学》期末复习试题(A)及答案

时间:2022-06-19 09:05:07 浏览量:

 华东理工大学 2005–2006 学年第二学期 《 应用统计学 》课程期末考试试卷

 A

 2006.6

 开课学院:

  商学院

  ,专业:

 考试形式:开卷,所需时间:

 120

 分钟

 考生姓名:

 学号:

  班级:

 任课教师:

 题序 一 二 三 四

 五 总 分 得分

  评卷人

 一、棉结粒数问题(20 分)

 在梳棉机上纺粘棉混纺纱,为提高质量,减少棉结粒数,考察如下因子水平:

 表 1

 棉结粒数问题的因子水平 因

  子 一 水 平 二 水 平 A:金属针布 日本产 青岛产 B:产量水平(kg)

 6 10 C:锡林速度(转/分)

 238 320

  且考虑交互作用 A×C。用 L 8 ( 2 7 )安排试验,将因子 A,B,C 分别置于第 1,2,4 列上,测得 8次试验结果(棉结粒百分数)分别为 0.30,0.35,0.20,0.30,0.15,0.50,0.15,0.40。

 经 SPSS 软件的计算,列表如下,请根据计算结果进行分析。

 表 2

  ANOVA Dependent Variable: 棉结粒百分数

 Source Type III Sum of Squares df Mean Square F Sig. A 0.001 1 0.001 1 0.638 B

 1 0.008 8 0.080 C 0.070 1 0.070

 0.004 A * C 0.025 1

 25 0.018 Error 0.003 3 0.001

  Corrected Total 0.107 7

  a R Squared = 0.968 (Adjusted R Squared = 0.925) 表 3

  Estimated Marginal Means 金属针布 A

 Dependent Variable: 棉结粒百分数

 金属针布 Mean Std. Error 95% Confidence Interval Lower Bound Upper Bound 日本产 0.288 0.017 0.234 0.341 青岛产 0.300 0.017 0.246 0.354

 产量水平

 B Dependent Variable: 棉结粒百分数

 产量水平 Mean Std. Error 95% Confidence Interval Lower Bound Upper Bound 6kg 0.325 0.017 0.271 0.379 10kg 0.262 0.017 0.209 0.316

 锡林速度 C Dependent Variable: 棉结粒百分数

 锡林速度 Mean Std. Error 95% Confidence Interval Lower Bound Upper Bound 238转/分 0.200 0.017 0.146 0.254 320转/分 0.387 0.017 0.334 0.441

 金属针布 * 锡林速度

 A ×C Dependent Variable: 棉结粒百分数

 金属针布 锡林速度 Mean Std. Error 95% Confidence Interval Lower Bound Upper Bound 日本产 238转/分 0.250 0.024 0.174 0.326 320转/分 0.325 0.024 0.249 0.401 青岛产 238转/分 0.150 0.024 0.074 0.226 320转/分 0.450 0.024 0.374 0.526 (1)

 请完成表头设计。

  (2)表2中有些数据没给出,请根据方差分析表的原理将其计算出来,给出计算过程。

  (3)由表2分析哪些因子在什么显著性水平下是显著的,给出理由。

 (4)由表2和表3找出最优生产条件,给出理由。

 二、食品问题(20 分)

 现有六种食品,为了对此六种食品的营养情况进行分类,今对每种食品测出了能量、脂肪和含钙量三类指标数据,如下表:

 表 4

 六种食品的营养指标数据 营养指标 食品种类 能量1x

 脂肪2x

 含钙量3x

 1 5 9 20 2 6 11 2 3 4 5 20 4 6 9 46 5 5 7 1 6 3 1 12

 用系统聚类法对此问题进行了分类,聚类结果见下面图表。

 表5

 Case Processing Summary

 (a,b)

 Cases Valid Missing Total N Percent N Percent N Percent 6 100.0 0 .0 6 100.0 a

  Euclidean Distance used b

  Average Linkage (Between Groups)

 图 1 食品问题聚类 (1)由表 5,请写出此聚类问题分析中样品间采取何种距离以及采取何种系统聚类的方法。

  (2)由图 1,若将此六种食品分成三类,应该如何进行分类,并给出每类的特性。

  三、城镇居民月平均收入问题(20 分)

 1991 年全国各省、直辖市城镇居民月平均收入情况见表 6,1x 表示人均生活费收入(元/人),2x 表示人均各种津贴(元/人),1~11 号省份为第一类1G ;12~22 号省份为第二类2G ;23~28 号省份为第三类3G 。

 表 6

 1991 年全国 29 个省、直辖市城镇居民月平均收入 1G

 2G

 3G

 序号 省市名 1x

 2x

 序号 省市名 1x

 2x

 序号 省市名 1x

 2x

 1 北京 170.03 16.44 12 山西 102.49 7.90 23 辽宁 128.46 12.42 2 天津 141.55 12.36 13 内蒙古 106.14 20.10 24 江苏 135.24 9.661 3 河北 119.40 11.79 14 吉林 104.93 20.61 25 浙江 162.53 10.90 4 上海 194.53 21.01 15 黑龙江 103.34 10.19 26 安徽 111.77 9.698 5 山东 130.46 12.14 16 江西 98.089 16.50 27 福建 139.09 16.47 6 湖北 119.29 16.47 17 河南 104.12 10.43 28 湖南 124.00 20.49 7 广西 134.46 26.12 18 贵州 108.49 16.53

  8 湖南 143.79 29.49 19 陕西 113.99 9.492 待判 广东 211.30 30.77 9 四川 128.05 10.18 20 甘肃 114.06 16.43

  10 云南 127.41 21.20 21 青海 108.80 18.98

  11 新疆 122.96 18.96 22 宁夏 115.96 22.65

 利用 SPSS 软件对此问题进行分析的结果见下表:

  表7

  Eigenvalues Function Eigenvalue % of Variance Cumulative % Canonical Correlation 1 0.847(a) 89.2 89.2 0.677 2 0.102(a) 10.8 100.0 0.304 a

  First 2 canonical discriminant functions were used in the analysis.

 表8

 Group Statistics 类别

 Valid N (listwise) Unweighted Weighted 第一类 人均生活费收入(元/人)

 11 11.000 人均各种津贴(元/人)

 11 11.000 第二类 人均生活费收入(元/人)

 11 11.000 人均各种津贴(元/人)

 11 11.000 第三类 人均生活费收入(元/人)

 6 6.000 人均各种津贴(元/人)

 6 6.000 Total 人均生活费收入(元/人)

 28 28.000 人均各种津贴(元/人)

 28 28.000

 表9

  Canonical Discriminant Function Coefficients

 Function 1 2 人均生活费收入(元/人)

 0.059 -0.008 人均各种津帖(元/人)

 -0.008 0.186 (Constant) -7.298 -2.009 Unstandardized coefficients

  表10

  Classification Function Coefficients

  类别 第一类 第二类 第三类 人均生活费收入(元/人)

 0.462 0.353 0.451 人均各种津贴(元/人)

 0.353 0.331 0.206 (Constant) -36.445 -22.597 -32.544 Fisher"s linear discriminant functions

  表11

 Classification Results (b)

  类别 Predicted Group Membership Total 第一类 第二类 第三类 Original Count 第一类 6 1 4 11 第二类 0 11 0 11 第三类 2 1 3 6 % 第一类 54.5 9.1 36.4 100.0 第二类 .0 100.0 .0 100.0 第三类 33.3 16.7 50.0 100.0 a

  Cross validation is done only for those cases in the analysis. In cross validation, each case is classified by the functions derived from all cases other than that case. b

  71.4% of original grouped cases correctly classified.

 ( 1 )

 请 解 释 “Unstandardized

 Standardized canonical discriminant function” 与 “Fisher"s linear discriminant

 functions”的差异所在。

  (2)请建立此问题的Canonical Discriminant Function(判别函数)。

  (3)请依据表 6 的数据,运用表 10 判别广东的城镇居民月平均收入情况分别属于哪类,并说明理由。

  (4)对此判别问题的误判率进行分析。

  四、中学生体型分析(20 分)

 对 10 名男中学生的身高(1x )、胸围(2x )和体重(3x )进行测量,得数据见表 12 所示。对其做主成分分析。

 表 12

 10 名男中学生的身高、胸围及体重数据 序号 身高1x (cm)

 胸围2x (cm)

 体重3x (kg)

 1 149.5 69.5 38.5 2 162.5 77.0 55.5 3 162.7 78.5 50.8 4 162.2 87.5 65.5 5 156.5 74.5 49.0 6 156.1 74.5 45.5 7 172.0 76.5 51.0 8 173.2 81.5 59.5 9 159.5 74.5 43.5 10 157.7 79.0 53.5

 经 SPSS 软件计算的结果如下:

 表13

 Communalities

 Initial Extraction 身高(cm)

 1.000 1.000 胸围(cm)

 1.000 0.979 体重(cm)

 1.000 0.976 Extraction Method: Principal Component Analysis.

 表14

  Total Variance Explained

 Component Initial Eigenvalues Extraction Sums of Squared Loadings Rotation Sums of Squared Loadings Total % of Variance Cumulative % Total % of Variance Cumulative % Total % of Variance Cumulative % 1 2.421 80.687 80.687 2.421 80.687 80.687 1.857 61.915 61.915 2 0.534 17.809 98.496 0.534 17.809 98.496 1.097 36.582 98.496 3 0.045 1.504 100.000

  Extraction Method: Principal Component Analysis.

  表15

 Component Matrix (a)

 Component 1 2 身高(cm)

 0.775 0.631 胸围(cm)

 0.943 -0.299 体重(cm)

 0.964 -0.215 Extraction Method: Principal Component Analysis. a

 2 components extracted.

  表16

 Rotated Component Matrix (a)

  Component 1 2 身高(cm)

 0.304 0.952 胸围(cm)

 0.953 0.265 体重(cm)

 0.925 0.346 Extraction Method: Principal Component Analysis.

  Rotation Method: Varimax with Kaiser Normalization. a

 Rotation converged in 3 iterations.

 表17

 Component Transformation Matrix Component 1 2 1 0.838 0.546 2 -0.546 0.838 Extraction Method: Principal Component Analysis.

 Rotation Method: Varimax with Kaiser Normalization. 表18

 Component Score Coefficient Matrix

 Component 1 2 身高(cm)

 -0.377 1.165 胸围(cm)

 0.632 -0.255 体重(cm)

 0.554 -0.120 Extraction Method: Principal Component Analysis.

  Rotation Method: Varimax with Kaiser Normalization.

 根据 SPSS 提供的结果,回答下列问题: (1)在主成分分析中,对拟提取的 m 个主成分的两条基本要求是什么。

  (2)请写出前两个特征值及其对应主成分的贡献率。

 (3)能否对未经旋转的主成分与旋转后的因子作比较,对这两个旋转后的因子的意义作一个合理的解释,并给两个因子命名。

  (4)请指出这里的因子分析所采用的方法。

 (5)根据因子得分系数矩阵,请写出所提取的两个因子的数学表达式。

 五、简答题(20 分)

 (1)简要说明“偏差平方和分解”的方法在双因素无交互作用方差分析和回归分析的运用中差异。

  (2)

 系统聚类法与有序样品聚类法的主要不同点。

  (3)

 简要说明距离判别的基本思想。

 华东理工大学 2005–2006 学年第二学期 《 应用统计学 》课程期末考试试卷

 A

 2006.6(评分标准)

 开课学院:

  商学院

  ,专业:

 考试形式:开卷,所需时间:

 120

 分钟

 考生姓名:

 学号:

  班级:

 任课教师:

  一、棉结粒数问题(20 分)

 (4)

 请完成表头设计。(5 分)

 表头设计 A B

 C A×C

  列号 试验号 1 2 3 4 5 6 7

 (2)表2中有些数据没给出,请根据方差分析表的原理将其计算出来,给出计算过程。(5分)

 源于因子B的误差平方和=0.107-0.001-0.070-0.025-0.003=0.008

 均方和V A × C =0.025/1=0.025

 F C =0.070/0.001=70 (3)由表2分析哪些因子在什么显著性水平下是显著的,给出理由。(5分)

 因子B在显著性水平0.1下是显著的,因为其P=0.080<0.1

 因子C在显著性水平0.01下是显著的,因为其P=0.004<0.01

 因子A×C在显著性水平0.05下是显著的,因为其P=0.018<0.05 (4)由表2和表3找出最优生产条件,给出理由。(5分)

 最优生产条件:A

 2

 B

 2 C 1

  因为1 20.325 0.262B B     因为1 20.200 0.387C C     在因子A和C的组合中,2 10.150A C 最小

  二、食品问题(20 分)

 (1)由表 5,请写出此聚类问题分析中样品间采取何种距离以及采取何种系统聚类的方法。(10 分)

  样品间采取欧氏距离;

 系统聚类方法采取类平均法(组间连接法)。

  (2)由图 1,若将此六种食品分成三类,应该如何进行分类,并给出每类的特性。(10 分)

 第 1 类为:{4},此类食品营养最好;

 第 2 类为:{1,3,6},此类食品营养中等;

 第 3 类为:{2,5},此类食品营养最差。

  三、城镇居民月平均收入问题(20 分)

 ( 1 )

 请 解 释 “Unstandardized

 Standardized canonical discriminant function” 与 “Fisher"s linear discriminant

 functions”的差异所在。(5 分)

 ①

 “Unstandardized

 Standardized canonical discriminant function”表示未标准化典型 Fisher 判别函数;

 ②

 “Fisher"s linear discriminant

 functions”表示 Bayes 判别函数。

 (2)请建立此问题的Canonical Discriminant Function判别函数。(5分)

 1 1 2 1 2( , ) 7.298 0.059 0.008 u x x x x   

 2 1 2 1 2( , ) 2.009 0.008 0.186 u x x x x   

  (3)请依据表 6 的数据,运用表 10 判别广东的城镇居民月平均收入情况分别属于哪类,并说明理由。(5 分)

 第一类

  1 1 2 1 2( , ) 36.445 0.462 0.35336.445 0.462 211.30 0.353 30.77 2978.20y x x x x           第二类

  2 1 2 1 2( , ) 22.597 0.353 0.33122.597 0.353 211.30 0.331 30.77 2282.69y x x x x           第三类

  3 1 2 1 2( , ) 32.544 0.451 0.20632.544 0.451 211.30 0.206 30.77 2906.06y x x x x           由于属于第一类的分值最高,则广东属于第一类。

 (4)对此判别问题的误判率进行分析。(5 分)

 由表 11 可知:

 ① 第一类的误判率为 45.5%; ② 第二类的误判率为 0%; ③ 第三类的误判率为 50% ④ 总的误判率为 28.6%。

 四、中学生体型分析(20 分)

 (1)在主成分分析中,对拟提取的 m 个主成分的两条基本要求是什么。(4 分)

 ① 将原来 p 个指标所包含的 n 个个体的不十分明显的差异集中起来,使 n 个个体的主成分指标值差异尽可能大;

 ②

 使主成分指标的数目尽可能少,还要求各主成分指标间互不相关。

 (2)请写出前两个特征值及其对应主成分的贡献率。(4 分)

 第一个特征值12.421   ,其对应主成分的贡献率为80.687% 第二个特征值20.534   ,其对应主成分的贡献率为17.809%

 (3)能否对未经旋转的主成分与旋转后的因子作比较,对这两个旋转后的因子的意义作一个合理的解释,并给两个因子命名。(4 分)

 ① 第一主成分1f 是反映学生身材是否魁梧,可称为“大小因子”;

 ② 第二主成分2f 是反映学生体型特征,可称为“形状”因子。

 (4)请指出这里的因子分析所采用的方法。(4 分)

 ①

 提取因子采用了主成分分析;

 ②

 旋转因子采用了方差最大化正交旋转的方法。

 (5)根据因子得分系数矩阵,请写出所提取的两个因子的数学表达式。(4分)

 1 1 2 32 1 2 30.377 0.632 0.5541.165 0.255 0.120f Zx Zx Zxf Zx Zx Zx            上式中,1 2 3, , Zx Zx Zx 为经过标准化处理的变量。

  五、简答题(20 分)

 (1)简要说明“偏差平方和分解”的方法在双因素无交互作用方差分析和回归分析的运用中差异。(6 分)

 参考答案要点:

 ① “偏差平方和分解”的方法在双因素无交互作用方差分析中主要是将总偏差平方和分解为因子的偏差平方和与误差偏差平方和;

  ② “偏差平方和分解”的方法在回归分析的运用中主要是将总偏差平方和分解为残差平方和与回归平方和。

 (5)

 系统聚类法与有序样品聚类法的主要不同点。(7 分)

 参考答案要点:

 ①

 系统聚类法是先将所有 n 个样品看成不同的 n 类,然后将性质最接近(距离最近)的两类合并为一类;再从这 n-1 类中找到最接近的两类加以合并,依次类推,直到所有的样品被合为一类。

 ②

 有序样品聚类法是先假定所有样品为一类,然后按照使得分类所产生的离差平方和增量达到最小的要求逐一分割。

 (6)

 简要说明距离判别的基本思想。(7 分)

 参考答案要点:

 距离判别的基本思想:根据各类的gn 个样本,求出每类的中心坐标;再根据新样品离开每个类中心的距离远近作出它属于哪一类的判断。

相关热词搜索: 统计学 期末 试题