统计与统计案例

时间:2022-06-30 08:45:06 浏览量:

 统计与统计案例 1.(2019·全国Ⅱ卷)演讲比赛共有 9 位评委分别给出某选手的原始评分,评定该选手的成绩时,从 9 个原始评分中去掉 1 个最高分、1 个最低分,得到 7 个有效评分.7 个有效评分与 9 个原始评分相比,不变的数字特征是(

 ) A.中位数

 B.平均数 C.方差

 D.极差 解析 中位数是将 9 个数据从小到大或从大到小排列后,处于中间位置的数据,因而去掉 1 个最高分和 1 个最低分,中位数是不变的,平均数、方差、极差均受影响. 答案 A 2.(2020·全国Ⅲ卷)在一组样本数据中,1,2,3,4 出现的频率分别为 p 1 ,p 2 ,p 3 ,p 4 ,且∑4i = 1 p i =1,则下面四种情形中,对应样本的标准差最大的一组是(

 ) A.p 1 =p 4 =0.1,p 2 =p 3 =0.4 B.p 1 =p 4 =0.4,p 2 =p 3 =0.1 C.p 1 =p 4 =0.2,p 2 =p 3 =0.3 D.p 1 =p 4 =0.3,p 2 =p 3 =0.2 解析 X 的可能取值为 1,2,3,4,四种情形的数学期望 E(X)=1×p 1 +2×p 2 +3×p 3 +4×p 4 都为 2.5,方差 D(X)=[1-E(X)] 2 ×p 1 +[2-E(X)] 2 ×p 2 +[3-E(X)] 2 ×p 3 +[4-E(X)] 2 ×p 4 ,标准差为 D(X). A 选项的方差 D(X)=0.65;B 选项的方差 D(X)=1.85;C 选项的方差 D(X)=1.05;D 选项的方差 D(X)=1.45. 可知选项 B 的情形对应样本的标准差最大.故选 B. 答案 B 3.(2020·天津卷)从一批零件中抽取 80 个,测量其直径(单位:mm),将所得数据分为 9 组:[5.31,5.33),[5.33,5.35),„,[5.45,5.47),[5.47,5.49],并整理得到如下频率分布直方图,则在被抽取的零件中,直径落在区间[5.43,5.47)内的个数为(

 )

  A.10

  B.18

  C.20

  D.36 解析 因为直径落在区间[5.43,5.47)内的频率为 0.02×(6.25+5.00)=0.225,所以个数为 0.225×80=18.故选 B. 答案 B 4.(2020·全国Ⅱ卷)某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取 20 个作为样区,调查得到样本数据(x i ,y i )(i=1,2,„,20),其中 x i 和 y i 分别表示第 i 个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得∑20i = 1 x i =60,∑20i = 1 y i =1 200,∑20i = 1

 (x i -x-) 2=80,∑20i = 1

 (y i -y-) 2 =9 000,∑20i = 1

 (x i -x-)(y i -y-)=800. (1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数); (2)求样本(x i ,y i )(i=1,2,„,20)的相关系数(精确到 0.01); (3)根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由. 附:相关系数 r=∑ni = 1

 (x i -x-)(y i -y-)∑ni = 1

 (x i -x-)

 2 ∑ni = 1

 (y i -y-)

 2, 2≈1.414. 解 (1)由已知得样本平均数y-=120 ∑20i = 1 y i =60,从而该地区这种野生动物数量的估计值为 60×200=12 000. (2)样本(x i ,y i )(i=1,2,„,20)的相关系数

 r=∑20i = 1

 (x i -x-)(y i -y-)∑20i = 1

 (x i -x-)

 2 ∑20i = 1

 (y i -y-)

 2=80080×9 000 =2 23≈0.94. (3)分层抽样:根据植物覆盖面积的大小对地块分层,再对200个地块进行分层抽样. 理由如下:由(2)知各样区的这种野生动物数量与植物覆盖面积有很强的正相关性.由于各地块间植物覆盖面积差异很大,从而各地块间这种野生动物数量差异也很大,采用分层抽样的方法较好地保持了样本结构与总体结构的一致性,提高了样本的代表性,从而可以获得该地区这种野生动物数量更准确的估计. 考 点 整 合 1.抽样方法 抽样方法包括简单随机抽样、分层抽样,两种抽样方法都是等概率抽样,体现了抽样的公平性,但又各有其特点和适用范围. 2.统计中的四个数据特征 (1)众数:在样本数据中,出现次数最多的那个数据. (2)中位数:在样本数据中,将数据按大小顺序排列,位于最中间的数据.如果数据的个数为偶数,就取中间两个数据的平均数作为中位数. (3)平均数:样本数据的算术平均数,即x-= 1n (x 1 +x 2 +„+x n ). (4)方差与标准差. s 2 = 1n [(x 1 -x-) 2 +(x 2 -x-) 2 +„+(x n -x-) 2 ], s=1n [(x 1 -x-)

 2 +(x 2 -x-)

 2 +„+(x n -x-)

 2 ]. 3.直方图的两个结论 (1)小长方形的面积=组距× 频率组距 =频率. (2)各小长方形的面积之和等于 1. 4.回归分析与独立性检验 (1)回归直线y^=b^x+a^经过样本点的中心(x-,y-),若 x 取某一个值代入回归直线方程y^=b^x+a^中,可求出 y 的估计值.

 (2)独立性检验 对于取值分别是{x 1 ,x 2 }和{y 1 ,y 2 }的分类变量 X 和 Y,其样本频数列联表是:

 y 1

 y 2

 总计 x 1

 a b a+b x 2

 c d c+d 总计 a+c b+d n 则 K 2 =n(ad-bc)

 2(a+b)(c+d)(a+c)(b+d)

 (其中 n=a+b+c+d 为样本容量 ). 热点一 抽样方法 【例 1】

 (1)总体由编号为 01,02,„,49,50 的 50 个个体组成,利用下面的随机数表选取6个个体,选取方法是从随机数表第6行的第9列和第10列数字开始从左到右依次选取两个数字,则选出的第 4 个个体的编号为(

 ) 附:第 6 行至第 9 行的随机数表 2748 6198 7164 4148 7086 2888 8519 1620 7477 0111 1630 2404 2979 7991 9683 5125 3211 4919 7306 4916 7677 8733 9974 6732 2635 7900 3370 9160 1620 3882 7757 4950 A.3

  B.19

  C.38

  D.20 (2)(2020·百校大联考)在新冠肺炎疫情期间,大多数学生都进行网上上课.我校高一、高二、高三共有学生 1 800 名,为了了解同学们对“钉钉”授课软件的意见,计划采用分层抽样的方法从这1 800名学生中抽取一个容量为72的样本.若从高一、高二、高三抽取的人数恰好是从小到大排列的连续偶数,则我校高三年级的人数为(

 ) A.800

  B.750

  C.700

  D.650 解析 (1)由题意知,编号为 01~50 的个体才是需要的个体.由随机数表依次可得41,48,28,19,16,20,„„故第 4 个个体的编号为 19.故选 B. (2)设从高三年级抽取的学生人数为 2x 人,则从高二、高一年级抽取的人数分别

 为 2x-2,2x-4. 由题意可得 2x+(2x-2)+(2x-4)=72,∴x=13. 设我校高三年级的学生人数为 N,且高三抽取 26 人, 由分层抽样,得N1 800 =2672 ,∴N=650(人). 答案 (1)B (2)D 探究提高 解决此类题目的关键是深刻理解各种抽样方法的特点和适用范围.但无论哪种抽样方法,每一个个体被抽到的概率都是相等的,都等于样本容量与总体容量的比值. 【训练 1】

 (1)总体由编号为 01,02,„,19,20 的 20 个个体组成.利用下面的随机数表选取 5 个个体,选取方法是从随机数表第 1 行第 6 列的数字开始,由左到右依次选取两个数字,则选出来的第 5 个个体的编号为________. 附:第 1 行至第 2 行的随机数表 21 16 65 08 90 34 20 76 43 81 26 34 91 64 17 50 71 59 45 06 91 27 35 36 80 72 74 67 21 33 50 25 83 12 02 76 11 87 05 26 (2)某工厂生产甲、乙、丙、丁四种不同型号的产品,产量分别为 200,400,300,100 件,为检验产品的质量,现用分层抽样的方法从以上所有的产品中抽取 60 件进行检验,则应从丙种型号的产品中抽取________件. 解析 (1)从随机数表的第1行第6列的数字开始,按规则得到的编号依次为50,89,03,42,07,64,38,12,63,49,16,41,75,07,15,94,50,„„其中编号在 01至 20之间的依次为 03,07,12,16,07,15,„„按照编号重复的删除后一个的原则,可知选出来的第 5 个个体的编号为 15. (2)因为样本容量 n=60,总体容量 N=200+400+300+100=1 000,所以抽取比例为 nN =601000 =350 . 因此应从丙种型号的产品中抽取 300×350 =18(件). 答案 (1)15 (2)18 热点二 用样本估计总体 角度 1 数字特征与统计图表的应用 【例 2】

 (1)(2020·衡水检测)甲、乙两名同学高三以来 6 次数学模拟考试的成绩统

 计如下图,甲、乙两组数据的平均数分别为x-甲 、x-乙 ,标准差分别为 s 甲 、s 乙 ,则(

 )

 A.x-甲 <x-乙 ,s 甲 <s 乙

 B.x-甲 <x-乙 ,s 甲 >s 乙

 C.x-甲 >x-乙 ,s 甲 <s 乙

 D.x-甲 >x-乙 ,s 甲 >s 乙

 (2)2020 年初,我国突发新冠肺炎疫情,疫情期间中小学生“停课不停学”.已知某地区中小学生人数情况如甲图所示,各学段学生在疫情期间“家务劳动”的参与率如乙图所示.为了进一步了解该地区中小学生参与“家务劳动”的情况,现用分层抽样的方法抽取 4%的学生进行调查,则抽取的样本容量、抽取的高中生中参与“家务劳动”的人数分别为(

 )

 A.2 750,200

 B.2 750,110 C.1 120,110

 D.1 120,200 解析 (1)由统计图知,甲同学的总体成绩要好于乙同学的成绩,且乙同学的成绩波动较大,甲同学成绩较稳定.∴x-甲 >x-乙 ,且 s 甲 <s 乙 .

 (2)学生总数为15 500+5 000+7 500=28 000人,由于抽取4%的学生进行调查,则抽取的样本容量为 28 000×4%=1 120(人).故高中生应抽取的人数为 5 000×4%=200(人),而高中生中参与“家务劳动”的比率为 0.55,故高中生中参与“家务劳动”的人数为 200×0.55=110(人). 答案 (1)C (2)C

 角度 2 用样本的频率分布估计总体分布 【例 3】

 (2019·全国Ⅲ卷)为了解甲、乙两种离子在小鼠体内的残留程度,进行如下试验:将 200 只小鼠随机分成 A,B 两组,每组 100 只,其中 A 组小鼠给服甲离子溶液,B 组小鼠给服乙离子溶液.每只小鼠给服的溶液体积相同、摩尔浓度相同.经过一段时间后用某种科学方法测算出残留在小鼠体内离子的百分比.根据试验数据分别得到如下直方图:

  记 C 为事件:“乙离子残留在体内的百分比不低于 5.5”,根据直方图得到 P(C)的估计值为 0.70. (1)求乙离子残留百分比直方图中 a,b 的值; (2)分别估计甲、乙离子残留百分比的平均值(同一组中的数据用该组区间的中点值为代表). 解 (1)由已知得 0.70=a+0.20+0.15, 故 a=0.35, b=1-0.05-0.15-0.70=0.10. (2)甲离子残留百分比的平均值的估计值为 2×0.15+3×0.20+4×0.30+5×0.20+6×0.10+7×0.05=4.05. 乙离子残留百分比的平均值的估计值为 3×0.05+4×0.10+5×0.15+6×0.35+7×0.20+8×0.15=6.00. 探究提高 1.平均数与方差都是重要的数字特征,是对数据的一种简明描述,它们所反映的情况有着重要的实际意义.平均数、中位数、众数描述数据的集中趋

 势,方差和标准差描述数据的波动大小. 2.在例 3 中,抓住频率分布直方图各小长方形的面积之和为 1,这是求解的关键;本题易混淆频率分布条形图和频率分布直方图,误把频率分布直方图纵轴的几何意义当成频率,导致样本数据的频率求错. 【训练 2】

 (1)(2020·新高考海南卷)我国新冠肺炎疫情防控进入常态化,各地有序推进复工复产,下面是某地连续 11 天复工复产指数折线图,下列说法正确的是(

 )

 A.这 11 天复工指数和复产指数均逐日增加 B.这 11 天期间,复产指数增量大于复工指数的增量 C.第 3 天至第 11 天复工复产指数均超过 80% D.第 9 天至第 11 天复产指数增量大于复工指数的增量 解析 由图可知,第1天到第2天复工指数减少,第7天到第8天复工指数减少,第 10 天到第 11 天复工指数减少,第 8 天到第 9 天复产指数减少,故 A 错误;由图可知,第一天的复产指数与复工指数的差大于第 11 天的复产指数与复工指数的差,所以这 11 天期间,复产指数增量小于复工指数的增量,故 B 错误;由图可知,第 3 天至第 11 天复工复产指数均超过 80%,故 C 正确;由图可知,第 9天至第 11 天复产指数增量大于复工指数的增量,故 D 正确;故选 C、D. 答案 CD (2)(2019·全国Ⅱ卷)某行业主管部门为了解本行业中小企业的生产情况,随机调查了 100 个企业,得到这些企业第一季度相对于前一年第一季度产值增长率 y 的频数分布表. y 的分组 [-0.20,0) [0,0.20) [0.20,0.40) [0.40,0.60) [0.60,0.80] 企业数 2 24 53 14 7 ①分别估计这类企业中产值增长率不低于40%的企业比例、产值负增长的企业比例;

 ②求这类企业产值增长率的平均数与标准差的估计值(同一组中的数据用该组区间的中点值为代表).(精确到 0.01)附:

 74≈8.602. 解 ①根据产值增长率频数分布表得,所调查的 100 个企业中产值增长率不低于40%的企业频率为 14+7100=0.21. 产值负增长的企业频率为2100 =0.02. 所以用样本频率分布估计总体分布得这类企业中产值增长率不低于40%的企业比例为 21%,产值负增长的企业比例为 2%. ②100 个企业的产值增长率平均数为 y-=1100 ×(-0.10×2+0.10×24+0.30×53+0.50×14+0.70×7)=0.30, s 2 =1100 ∑5i = 1 n i (y i -y-) 2 =1100 ×[(-0.40)2 ×2+(-0.20) 2 ×24+0 2 ×53+0.20 2 ×14+0.40 2 ×7]=0.029 6, s= 0.029 6=0.02× 74≈0.17. 所以,这类企业产值增长率的平均数与标准差的估计值分别为 0.30,0.17. 热点三 回归分析在实际问题中的应用 【例 4】

 如图是某地区 2000 年至 2016 年环境基础设施投资额 y(单位:亿元)的折线图.

 为了预测该地区 2018 年的环境基础设施投资额,建立了 y 与时间变量 t 的两个线性回归模型.根据 2000 年至 2016 年的数据(时间变量 t 的值依次为 1,2,„,17)建立模型①:y^=-30.4+13.5t;根据2010年至2016年的数据(时间变量t的值依次为 1,2,„,7)建立模型②:y^=99+17.5t. (1)分别利用这两个模型,求该地区 2018 年的环境基础设施投资额的预测值;

 (2)你认为用哪个模型得到的预测值更可靠?并说明理由. 解 (1)利用模型①,该地区 2018 年的环境基础设施投资额的预测值为y^=-30.4+13.5×19=226.1(亿元). 利用模型②,该地区2018年的环境基础设施投资额的预测值为y^=99+17.5×9=256.5(亿元). (2)利用模型②得到的预测值更可靠. 理由如下:

 (ⅰ)从折线图可以看出,2000 年至 2016 年的数据对应的点没有随机散布在直线 y=-30.4+13.5t 上下,这说明利用 2000 年至 2016 年的数据建立的线性模型①不能很好地描述环境基础设施投资额的趋势.2010 年相对 2009 年的环境基础设施投资额有明显增加,2010 年至 2016 年的数据对应的点位于一条直线的附近,这说明从 2010 年开始环境基础设施投资额的变化规律呈线性增长趋势,利用 2010 年至 2016 年的数据建立的线性模型y^=99+17.5t 可以较好地描述 2010 年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠. (ⅱ)从计算结果看,相对于 2016 年的环境基础设施投资额 220 亿元,由模型①得到的预测值 226.1 亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠. 探究提高 1.求回归直线方程的关键及实际应用 (1)关键:正确理解b^,a^的计算公式和准确地计算. (2)实际应用:在分析实际中两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程估计和预测变量的值. 2.相关系数 (1)当 r>0 时,表明两个变量正相关;当 r<0 时,两个变量负相关. (2)当|r|>0.75 时,认为两个变量具有较强的线性相关关系. 【训练 3】

 (1)(2020·全国Ⅰ卷)某校一个课外学习小组为研究某作物种子的发芽率y 和温度 x(单位:℃)的关系,在 20 个不同的温度条件下进行种子发芽实验,由实验数据(x i ,y i )(i=1,2,„,20)得到下面的散点图:

  由此散点图,在 10 ℃至 40 ℃之间,下面四个回归方程类型中最适宜作为发芽率y 和温度 x 的回归方程类型的是(

 ) A.y=a+bx

 B.y=a+bx 2

 C.y=a+be x

  D.y=a+bln x (2)(2020·百强名校领军考试)已知变量 x,y 的关系可以用模型 y=ce kx 拟合,设 z=ln y,其变换后得到一组数据如下:

 x 16 17 18 19 z 50 34 41 31 由上表可得线性回归方程z^=-4x+a^,则 c=(

 ) A.-4

  B.e- 4

 C.109

  D.e 109

 解析 (1)由散点图可以看出,这些点大致分布在对数型函数的图象附近.故选 D. (2)由数据表知x-=17.5,z-=39. ∵样本点中心(x-,z-)在回归直线上, ∴a^=39+4×17.5=109. 又 z=ln y=ln(ce kx )=kx+ln c, ∴ln c=a^=109,则 c=e 109 . 答案 (1)D (2)D 热点四 独立性检验 【例 5】

 (2020·新高考山东、海南卷)为加强环境保护,治理空气污染,环境监测部门对某市空气质量进行调研,随机抽查了100天空气中的PM2.5和SO 2 浓度(单位:μg/m 3 ),得下表:

  SO 2

 PM2.5

  [0,50] (50,150] (150,475]

 [0,35] 32 18 4 (35,75] 6 8 12 (75,115] 3 7 10 (1)估计事件“该市一天空气中PM2.5浓度不超过75,且SO 2 浓度不超过150”的概率; (2)根据所给数据,完成下面的 2×2 列联表:

  SO 2

 PM2.5

  [0,150] (150,475] [0,75]

  (75,115]

  (3)根据(2)中的列联表,判断是否有 99%的把握认为该市一天空气中 PM2.5 浓度与 SO 2 浓度有关?

 附:K 2 =n(ad-bc)

 2(a+b)(c+d)(a+c)(b+d)

 , P(K 2 ≥k 0 ) 0.050 0.010 0.001 k 0

 3.841 6.635 10.828 解 (1)根据抽查数据,该市 100 天的空气中 PM2.5 浓度不超过 75,且 SO 2 浓度不超过150的天数为32+18+6+8=64,因此,该市一天空气中PM2.5浓度不超过 75,且 SO 2 浓度不超过 150 的概率的估计值为64100 =0.64. (2)根据抽查数据,可得 2×2 列联表:

  SO 2

 PM2.5

  [0,150] (150,475] [0,75] 64 16 (75,115] 10 10 (3)根据(2)的列联表得 K 2 的观测值 k= 100×(64×10-16×10)280×20×74×26≈7.484. 由于 7.484>6.635,故有 99%的把握认为该市一天空气中 PM2.5 浓度与 SO 2 浓度有关.

 探究提高 1.独立性检验的一般步骤 (1)根据样本数据列成 2×2 列联表; (2)根据公式 K 2 =n(ad-bc)

 2(a+b)(c+d)(a+c)(b+d)

 ,计算 K2的值; (3)查表比较 K 2 与临界值的大小关系,作统计判断. 2.K 2 的观测值 k 越大,对应假设事件 H 0 成立(两类变量相互独立)的概率越小,H 0不成立的概率越大. 【训练 4】

 某商场为提高服务质量,随机调查了 50 名男顾客和 50 名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到下面列联表:

 满意 不满意 男顾客 40 10 女顾客 30 20 (1)分别估计男、女顾客对该商场服务满意的概率; (2)能否有 95%的把握认为男、女顾客对该商场服务的评价有差异? 附:K 2 =n(ad-bc)

 2(a+b)(c+d)(a+c)(b+d)

 . P(K 2 ≥k 0 ) 0.050 0.010 0.001 k 0

 3.841 6.635 10.828 解 (1)由调查数据,男顾客中对该商场服务满意的比率为 4050 =0.8,因此男顾客对该商场服务满意的概率的估计值为 0.8.女顾客中对该商场服务满意的比率为 3050=0.6,因此女顾客对该商场服务满意的概率的估计值为 0.6. (2)K 2 的观测值 k= 100×(40×20-30×10)250×50×70×30≈4.762. 由于 4.762>3.841,故有 95%的把握认为男、女顾客对该商场服务的评价有差异.

 A 级 巩固提升 一、选择题 1.《西游记》《三国演义》《水浒传》和《红楼梦》是中国古典文学瑰宝,并称

 为中国古典小说四大名著.某中学为了解本校学生阅读四大名著的情况,随机调查了 100 位学生,其中阅读过《西游记》或《红楼梦》的学生共有 90 位,阅读过《红楼梦》的学生共有 80 位,阅读过《西游记》且阅读过《红楼梦》的学生共有60 位,则该校阅读过《西游记》的学生人数与该校学生总数比值的估计值为(

 ) A.0.5

  B.0.6

  C.0.7

  D.0.8 解析 法一 设调查的 100 位学生中阅读过《西游记》的学生人数为 x,则 x+80-60=90,解得 x=70, 所以该校阅读过《西游记》的学生人数与该校学生总数比值的估计值为70100 =0.7.故选 C. 法二 用 Venn 图表示阅读过《西游记》和《红楼梦》的人数之间的关系如图:

 易知调查的 100 位学生中阅读过《西游记》的学生人数为 70,所以该校阅读过《西游记》的学生人数与该校学生总数比值的估计值为70100 =0.7. 答案 C 2.(2020·全国Ⅲ卷)设一组样本数据 x 1 ,x 2 ,„,x n 的方差为 0.01,则数据 10x 1 ,10x 2 ,„,10x n 的方差为(

 ) A.0.01

  B.0.1

  C.1

  D.10 解析 10x 1 ,10x 2 ,„,10x n 的方差为 10 2 ×0.01=1.故选 C. 答案 C 3.给出如下列联表

 患心脏病 患其他病 总计 高血压 20 10 30 非高血压 30 50 80 总计 50 60 110 P(K 2 ≥10.828)≈0.001 , P(K 2 ≥6.635)≈0.010 , 参 照 公 式 k =n(ad-bc)

 2(a+b)(c+d)(a+c)(b+d)

 ,得到的正确结论是(

 ) A.有 99%以上的把握认为“高血压与患心脏病无关”

 B.有 99%以上的把握认为“高血压与患心脏病有关” C.在犯错误的概率不超过 0.1%的前提下,认为“高血压与患心脏病无关” D.在犯错误的概率不超过 0.1%的前提下,认为“高血压与患心脏病有关” 解析 由列联表中的数据可得 K 2 的观测值 k= 110×(20×50-10×30)230×80×50×60≈7.486>6.635, 根据参考数据 P(K 2 ≥6.635)≈0.01,P(K 2 ≥10.828)≈0.001, 所以有 1-0.01=99%的把握认为高血压与患心脏病有关,即有 99%以上的把握认为高血压与患心脏病有关. 答案 B 4.(多选题)(2020·济南调研)某企业对本企业 1 644 名职工关于复工的态度进行调查,调查结果如图所示,下列结论成立的是(

 )

 疫情防控期间某企业复工职工调查 A.x=0.384 B.从该企业中任取一名职工,该职工是倾向于在家办公的概率为 0.178 C.不到 80 名职工倾向于继续申请休假 D.倾向于复工后在家办公或在公司办公的职工超过 986 名 解析 由图表知 x%=1-5.1%-17.8%-42.3%,得 x=34.8,则 A 错.在家办公的人员占 17.8%,B 正确.由 1 644×5.1%>1644×5%=82.2>80,∴超过 80 名职工倾向于休假,故 C错误.又1 644×(17.8%+42.3%)≈988,所以超过 986名职工倾向于在家办公或在公司办公,D 正确.综上可知,正确的结论为 BD. 答案 BD 5.(多选题)某校进行了一次创新作文大赛,共有 100 名同学参赛,经过评判,这100 名参赛者的得分都在[40,90]之间,其得分的频率分布直方图如图所示,则

 下列结论正确的是(

 )

 A.得分在[40,60)之间的共有 40 人 B.从这 100 名参赛者中随机选取 1 人,其得分在[60,80)的概率为 0.5 C.估计得分的众数为 55 D.这 100 名参赛者得分的中位数为 65 解析 根据频率和为 1,由(a+0.035+0.030+0.020+0.010)×10=1,解得 a=0.005, 得分在[40,60)的频率是 0.40,估计得分在[40,60)的有 100×0.40=40(人),A正确; 得分在[60,80)的频率为 0.5,可得从这 100 名参赛者中随机选取一人, 得分在[60,80)的概率为 0.5,B 正确; 根据频率分布直方图知,最高的小矩形对应的底边中点为 50+602=55,即估计得分的众数为 55,C 正确; 由 0.05+0.35=0.4<0.5,知中位数位于[60,70)内,所以中位数的估计值为 60+0.5-0.40.03≈63.3. 答案 ABC 二、填空题 6.(2020·深圳调研)为了响应中央号召,某日深圳环保局随机抽查了本市市区汽车尾气排放污染物 x(单位:ppm)与当天私家车路上行驶的时间 y(单位:小时)之间的关系,从某主干路随机抽取 10 辆私家车,根据测量数据的散点图可以看出 x与 y 之间具有线性相关关系,其回归直线方程为y^=0.3x-0.4,若该 10 辆车中有一辆私家车的尾气排放污染物为 6(单位:ppm),据此估计该私家车行驶的时间为________小时. 解析 由y^=0.3x-0.4,取 x=6,得y^=0.3×6-0.4=1.4,∴估计该私家车行驶

 的时间为 1.4 小时. 答案 1.4 7.(2020·济宁联考)由于受到网络电商的冲击,某品牌的洗衣机在线下的销售受到影响,承受了一定的经济损失,现将A地区200家实体店该品牌洗衣机的月经济损失统计如图所示,估算月经济损失的平均数为 m,中位数为 n,则 m-n=________.

 解析 第一块小矩形的面积 S 1 =0.3,第二块小矩形的面积 S 2 =0.4,故 n=2 000+ 0.5-0.30.000 2=3 000;又第四、五块小矩形的面积均为 S=0.06,故 a=12 000 [1-(0.3+0.4+0.06×2)]=0.000 09,所以 m=1 000×0.3+3 000×0.4+5 000×0.18+(7 000+9 000)×0.06=3 360,故 m-n=360. 答案 360 8.(2002·中原名校联考)“关注夕阳、爱老敬老”——某马拉松协会从2013年开始每年向敬老院捐赠物资和现金.下表记录了第 x 年(2013 年是第一年)与捐赠的现金y(万元)的对应数据,由此表中的数据得到了 y 关于 x 的线性回归方程y^=mx+0.35,则预测 2021 年捐赠的现金大约是________万元. x 3 4 5 6 y 2.5 3 4 4.5 解析 由已知,得x-= 3+4+5+64=4.5,y-= 2.5+3+4+4.54=3.5,所以样本中心点的坐标为(4.5,3.5),代入y^=mx+0.35中,得3.5=4.5m+0.35,解得m=0.7,所以y^=0.7x+0.35.取 x=9,得y^=0.7×9+0.35=6.65,故预测 2021 年捐赠的现金大约是 6.65 万元. 答案 6.65 三、解答题

 9.(2020·济南联考)2019年10月1日是中华人民共和国成立70周年纪念日.70年砥砺奋进,70 年波澜壮阔,感染、激励着一代又一代华夏儿女,为祖国的繁荣昌盛努力拼搏,奋发图强.为进一步对学生进行爱国教育,某校社会实践活动小组,在老师的指导下,从学校随机抽取四个班级 160 名同学对这次国庆阅兵受到激励情况进行调查研究,记录的情况如下图:

 (1)如果从这 160 人中随机选取 1 人,此人非常受激励的概率和此人是很受激励的女同学的概率都是 14 ,求 a,b,c 的值; (2)根据“非常受激励”与“很受激励”两种情况进行研究,判断是否有 95%的把握认为受激励程度与性别有关. 附:参考数据 P(K 2 ≥k 0 ) 0.050 0.010 0.001 k 0

 3.841 6.635 10.828 解 (1)由题意知 20+a160=c160 =14 ,且 a+b+c=120. 解之得 a=20,b=60,c=40. (2)由题意可得 2×2 列联表:

 非常受激励 很受激励 合计 男 20 60 80 女 20 40 60 合计 40 100 140 ∴K 2 的观测值 k=n(ad-bc)

 2(a+b)(c+d)(a+c)(b+d)

 = 140×(20×40-20×60)240×100×80×60≈1.17. 由于 1.17<3.841, ∴没有 95%的把握认为受激励程度与性别有关.

 10.某家庭记录了未使用节水龙头 50 天的日用水量数据(单位:m 3 )和使用了节水龙头 50 天的日用水量数据,得到频数分布表如下:

 未使用节水龙头 50 天的日用水量频数分布表 日用 水量 [0,0.1) [0.1,0.2) [0.2,0.3) [0.3,0.4) [0.4,0.5) [0.5,0.6) [0.6,0.7] 频数 1 3 2 4 9 26 5 使用了节水龙头 50 天的日用水量频数分布表 日用 水量 [0,0.1) [0.1,0.2) [0.2,0.3) [0.3,0.4) [0.4,0.5) [0.5,0.6] 频数 1 5 13 10 16 5 (1)在下图中作出使用了节水龙头 50 天的日用水量数据的频率分布直方图:

 (2)估计该家庭使用节水龙头后,日用水量小于 0.35 m 3 的概率; (3)估计该家庭使用节水龙头后,一年能节省多少水?(一年按 365 天计算,同一组中的数据以这组数据所在区间中点的值作代表). 解 (1)所求的频率分布直方图如下:

 (2)由题可知使用节水龙头后 50 天的用水量在[0.3,0.4)的频数为 10,所以可估计

 在[0.3,0.35)的频数为 5,故用水量小于 0.35 m 3 的频数为 1+5+13+5=24,其频率为 2450 =0.48. 因此,估计该家庭使用节水龙头后,日用水量小于 0.35 m 3 的概率为 0.48. (3)该家庭未使用节水龙头 50 天的日用水量的平均数为 x-1 =150 (0.05×1+0.15×3+0.25×2+0.35×4+0.45×9+0.55×26+0.65×5)=0.48(m 3 ). 该家庭使用了节水龙头后 50 天的日用水量的平均数为 x-2 =150 (0.05×1+0.15×5+0.25×13+0.35×10+0.45×16+0.55×5)=0.35(m3 ). 估计使用节水龙头后,一年可节省水(0.48-0.35)×365=47.45(m 3 ). B 级 能力突破 11.(多选题)(2020·海南质检)刘女士的网店经营坚果类食品,2019 年各月份的收入、支出(单位:百元)情况的统计如图所示,下列说法中正确的是(

 )

 A.4 至 5 月份的收入的变化率与 11 至 12 月份的收入的变化率相同 B.支出最高值与支出最低值的比是 5∶1 C.第三季度平均收入为 5 000 元 D.利润最高的月份是 3 月份和 10 月份 解析 对于A,4至5月份的收入的变化率为 30-505-4=-20,11至12月份收入的变化率为 50-7012-11 =-20,故相同,A 正确. 对于 B,支出最高值是 2 月份 60 百元,支出最低值是 5 月份的 10 百元,故支出最高值与支出最低值的比是 6∶1,故 B 错误. 对于 C,第三季度的 7,8,9 月每个月的收入分别为 40 百元,50 百元,60 百

 元,故第三季度的平均收入为 40+50+603=50(百元),故 C 正确. 对于 D,利润最高的月份是 3 月份和 10 月份都是 30 百元,故 D 正确. 答案 ACD 12.(2020·西安模拟)某公司为了预测下月产品销售情况,找出了近7个月的产品销售量 y(单位:万件)的统计表:

 月份代码 t 1 2 3 4 5 6 7 销售量 y(万件) y 1

 y 2

 y 3

 y 4

 y 5

 y 6

 y 7

 但其中数据污损不清,经查证∑7i = 1 y i =9.32,∑7i = 1 t i y i =40.17,∑7i = 1

 (y i -y-)

 2 =0.55. (1)请用相关系数说明销售量 y 与月份代码 t 有很强的线性相关关系; (2)求 y 关于 t 的回归方程(系数精确到 0.01); (3)公司经营期间的广告宣传费 x i = t i (单位:万元)(i=1,2,„,7),每件产品的销售价为 10 元,预测第 8 个月的毛利润能否突破 15 万元,请说明理由.(毛利润等于销售金额减去广告宣传费) 参考公式及数据:

 7≈2.646,相关系数 r=∑ni = 1

 (t i -t-)(y i -y-)∑ni = 1

 (t i -t-)

 2 ∑ni = 1

 (y i -y-)

 2,当|r|>0.75时认为两个变量有很强的线性相关关系,回归方程y^=b^t+a^中斜率和截距的最小二乘估计公式分别为b^=∑ni = 1

 (t i -t-)(y i -y-)∑ni = 1

 (t i -t-)

 2,a^=y--b^t-. 解 (1)由统计表中的数据和附注中的参考数据得 t-=4,∑7i = 1

 (t i -t-) 2 =28, ∑7i = 1

 (y i -y-)

 2 =0.55, 则∑7i = 1

 (t i -t-)(y i -y-)=∑7i = 1 t i y i -t-∑7i = 1 y i =40.17-4×9.32=2.89, ∴r=2.892 7×0.55 ≈2.892×2.646×0.55 ≈0.99, 因为 0.99>0.75, 所以销售量 y 与月份代码 t 有很强的线性相关关系.

 (2)由y-= 9.327≈1.331 及(1)得b^=∑7i = 1

 (t i -t-)(y i -y-)∑7i = 1

 (t i -t-)

 2= 2.8928≈0.103. a^=y--b^t-≈1.331-0.103×4≈0.92, 所以 y 关于 t 的回归方程为y^=0.10t+0.92. (3)当 t=8 时,代入回归方程得y^=0.10×8+0.92=1.72(万件), 第 8 个月的毛利润为 z=10×1.72- 8≈17.2-2×1.414=14.372(万元). 由 14.372<15,预测第 8 个月的毛利润不能突破 15 万元.

相关热词搜索: 统计 案例