专题49 统计与统计案例
【高考地位】
统计与统计案例是高考的热点,高考对该内容的考查主要体现了以下两个特点:一是覆盖面广,几乎所有的统计考点都有所涉及,说明统计的任何环节都不能遗漏;二是考查力度加大. 在高考各种题型均有出现如选择题、填空题和解答题,其试题难度属中档题.
【方法点评】
类型一 变量间的相互关系
使用情景:变量间的相互关系
解题模板:第一步 根据题意画出散点图并判断两变量之间是正相关还是负相关;
第二步 计算样本中心点并代入公式进行计算; 第三步 得出变量间的相互关系——线性回归方程.
例1. 一次考试中,五名学生的数学、物理成绩如下表所示:
(1)请在所给的直角坐标系中画出它们的散点图; (2)并求这些数据的线性回归方程y =bx +a .
附:线性回归方程y bx a =+中, ()()()
1
12
2
2
1
1
,n n
i
i
i i
i i n
n
i
i
i i x x y y x y nx y
b a y bx x x x
nx
====---=
=
=---∑∑∑∑
其中x ,y 为样本平均值,线性回归方程也可写为y bx a =+.
【变式演练1】2015年年岁史诗大剧《芈月传》风靡大江南北,影响力不亚于以前的《甄嬛传》,某记者
调查了大量《芈月传》的观众,发现年龄段与爱看的比例存在较好的线性相关关系,年龄在][10,14,15,19,???? []20,24, ][25,29,30,34????的爱看比例分别为10%,18%,20%,30%,%t ,现用这5个年龄段的中间值x 代表年龄段,如12代表[]10,14,17代表[]
15,19,根据前四个数据求得x 关于爱看比例y 的线性回归方程为
()4.68%y kx ∧
=-,由此可推测t 的值为( )
A. 33
B. 35
C. 37
D. 39
【变式演练2】某车间加工零件的数量x 与加工时间y 的统计数据如表:
现已求得上表数据的回归方程中的值为0.9,则据此回归模型可以预测,加工100个零件所需要
的加工时间约为( )
A .84分钟
B .94分钟
C .102分钟
D .112分钟
【变式演练3【2018山西省实验中学模拟】某电子产品的成本价格由两部分组成,一是固定成本,二是可变成本,为确定该产品的成本.进行5次试验,收集到的数据如表:
由最小二乘法得到回归方程0.6754.9y x =+,则α
=__________.
【变式演练4】【2018湖南长沙长郡中学模拟】已知具有相关关系的两个变量,x y 之间的几组数据如下表所示:
(1)请根据上表数据在网格纸中绘制散点图;
(2)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程???y bx a =+,并估计当20x =时,
y 的值;
(3)将表格中的数据看作五个点的坐标,从这五个点中随机抽取2个点,求这两个点都在直线240x y --=的右下方的概率.
(参考公式: 122
1?n
i i i n i i x y nxy b x nx
==-=-∑∑, ??a y bx =-) 类型二 统计案例
使用情景:统计检验
解题模板:第一步 根据题意画出列联表;
第二步 运用公式2
2
()()()()()
n ad bc k a b c d a c b d -=++++(其中n=a+b+c+d )进行计算;
第三步 根据已知表格判断两变量间的相互关联性; 第四步 得出结论.
例2.为了了解某校学生喜欢吃辣是否与性别有关,随机对此校100人进行调查,得到如下的列表:已知在全部100人中随机抽取1人抽到喜欢吃辣的学生的概率为35
.
(1)请将上面的列表补充完整;
(2)是否有
99.9%以上的把握认为喜欢吃辣与性别有关?说明理由: 下面的临界值表供参考:
(参考公式:()()()()()
2
2
n ad bc K a b c d a c b d -=++++,其中n a b c d =+++)
【变式演练5】郑州一中研究性学习小组对本校高三学生视力情况进行调查,在高三的全体1000名学生中随机抽取了100名学生的体检表,并得到如图1的频率分布直方图.
(1)若直方图中后四组的频数成等差数列,计算高三的全体学视力在5.0以下的人数,并估计这100名学生视力的中位数(精确到0.1);
(2)学习小组成员发现,学习成绩突出的学生,近视的比较多,为了研究学生的视力与学习成绩是否有关系,对高三全体学生成绩名次在前50名和后50名的学生进行了调查,得到如表1中数据,根据表1及表2中的数据,能否在犯错的概率不超过0.05的前提下认为视力与学习成绩有关系?
附表2:
2.076
(参考公式:
()
()()()()
2
2
n ad bc
K
a b c d a c b d
-
=
++++
,其中n a b c d
=+++)
【变式演练6】某高校共有学生15000人,其中男生10500人,女生4500人,为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集300位学生每周平均体育运动时间的样本数据(单位:小时).
(1)应收集多少位女生的样本数据?
(2)根据这300样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图所示),其中样本数据的分组区间为:[](](](](](]
0,2,2,4,4,6,6,8,8,10,10,12.估计该校学生每周平均体育运动时间超过4小时的概率;
(3)在样本数据中,有60位女生的每周平均体育运动时间超过4小时,请完成每周平均体育运动时间与性别的列联表,并判断是否有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.
附:
()
()()()()
2
2
n ad bc
K
a b c d a c b d
-
=
++++
【变式演练7】“开门大吉”是某电视台推出的游戏节目.选手面对1~8号8扇大门,依次按响门上的门铃,门铃会播放一段音乐(将一首经典流行歌曲以单音色旋律的方式演绎),选手需正确回答出这首歌的名字,方可获得该扇门对应的家庭梦想基金.在一次场外调查中,发现参赛选手多数分为两个年龄段:20~30;30~40(单位:岁),其猜对歌曲名称与否的人数如图所示.
(1)写出2×2列联表;判断是否有90%的把握认为猜对歌曲名称是否与年龄有关;说明你的理由;(下面的临界值表供参考)
(2)现计划在这次场外调查中按年龄段用分层抽样的方法选取6名选手,并抽取3名幸运选手,
求3名幸运选手中至少有一人在20~30岁之间的概率.
(参考公式:)
)()()(()(2
2
b d d
c c a b a bc a
d n K ++++-=.其中d c b a n +++=.)
【高考再现】
1. 【2017山东,理5】为了研究某班学生的脚长x (单位:厘米)和身高y (单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y 与x 之间有线性相关关系,设其回归直线方程为
???y
bx a =+.已知101
225i i x ==∑,10
1
1600i i y ==∑,?4b =.该班某学生的脚长为24,据此估计其身高为 (A )160 (B )163 (C )166 (D )170 2.【2017课标II ,理18】海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100 个网箱,测量各箱水产品的产量(单位:kg )某频率分布直方图如下:
(1) 设两种养殖方法的箱产量相互独立,记A 表示事件:“旧养殖法的箱产量低于50kg, 新养殖法的箱产
量不低于50kg”,估计A 的概率;
(2) 填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关:
(3) 根据箱产量的频率分布直方图,求新养殖法箱产量的中位数的估计值(精确到0.01)
附:
2
2
()()()()()
n ad bc K a b c d a c b d -=
++++ 3.[2016高考新课标Ⅲ文数]下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图
(I )由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明;
(II )建立y 关于t 的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量. 附注: 参考数据:
7
1
9.32i
i y
==∑,7
1
40.17i i i t y ==∑
0.55=,7≈2.646.
参考公式:相关系数()()
n
i
i
t t y y r --=
∑ 回归方程y a b =+ 中斜率和截距的最小二乘估计公式分别为:
1
2
1
()()
()n
i
i i n
i
i t
t y y b t
t ==--=
-∑∑,a y bt =-.
4.【2015高考福建,理4】为了解某社区居民的家庭年收入所年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:
根据上表可得回归直线方程???y
bx a =+ ,其中???0.76,b a y bx ==- ,据此估计,该社区一户收入为15万元家庭年支出为( )
A .11.4万元
B .11.8万元
C .12.0万元
D .12.2万元 5.【2015高考新课标2,理3】根据下面给出的2004年至2013年我国二氧化硫排放量(单位:万吨)柱形图。以下结论不正确的是( )
A .逐年比较,2008年减少二氧化硫排放量的效果最显著
B .2007年我国治理二氧化硫排放显现
C .2006年以来我国二氧化硫年排放量呈减少趋势
D .2006年以来我国二氧化硫年排放量与年份正相关
6.【2015高考湖南,理7】在如图所示的正方形中随机投掷10000个点,则落入阴影部分(曲线C 为正态分布N(0,1)的密度曲线)的点的个数的估计值为( ) A.2386 B.2718 C.3413 D.4772 附:若2(,)X
N μσ,则6826.0)(=+≤<-σμσμX P ,9544.0)22(=+≤<-σμσμX P
7.【2015高考新课标1,理19】某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:
千元)对年销售量y (单位:t )和年利润z (单位:千元)的影响,对近8年的年宣传费i x 和年销售量i
y (i =1,2,···,8)数据作了初步处理,得到下面的散点图及一些统计量的值
.
2004年 2005年 2006年 2007年 2008年 2009年 2010年 2011年 2012年 2013年
表中i w =,w =
8
1
i
i w
=∑
(Ⅰ)根据散点图判断,y=a +bx 与y =c +y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)
(Ⅱ)根据(Ⅰ)的判断结果及表中数据,建立y 关于x 的回归方程;
(Ⅲ)已知这种产品的年利率z 与x 、y 的关系为z =0.2y -x.根据(Ⅱ)的结果回答下列问题: (ⅰ)年宣传费x =49时,年销售量及年利润的预报值是多少? (ⅱ)年宣传费x 为何值时,年利率的预报值最大?
附:对于一组数据11(,)u v ,22(,)u v ,……,(,)n n u v ,其回归线v u αβ=+的斜率和截距的最小二乘估计分别为:
1
2
1
()()
=
(
)
n
i
i
i n
i
i u u v v u u β==---∑∑,=v u αβ-
8.【2015高考重庆,文17】随着我国经济的发展,居民的储蓄存款逐年增长.设某地区城乡居民人民币储蓄存款(年底余额)如下表: (Ⅰ)求y 关于t 的回归方程
^
^^
t y
b a =+
(Ⅱ)用所求回归方程预测该地区2015年(6t =)的人民币储蓄存款.
附:回归方程
^
^^
t y b a =+中
1
122211
()(),().n n
i i i i i i n
n i i i i x x y y x y nx y b x x x nx a y bx ====?
---?
?==??--??
=-??
∑∑∑∑ 【反馈练习】
1. 【2018
黑龙江大庆四校联考】已知
的取值如下表所示:若
与
线性相关,且
,则
( )
A. 2.2
B. 2.9
C. 2.8
D. 2.6
2.观察下列散点图,其中两个变量的相关关系判断正确的是( )
A .a 为正相关,b 为负相关,c 为不相关
B .a 为负相关,b 为不相关,c 为正相关
C .a 为负相关,b 为正相关,c 为不相关
D .a 为正相关,b 为不相关,c 为负相关
3.某商场为了了解毛衣的月销售量y (件)与月平均气温x (C ?)之间的关系,随机统计了某4个月的月销售量与当月平均气温,其数据如下表:
由表中数据算出线性回归方程y bx a =+中的2b =-,气象部门预测下个月的平均气温为6C ?,据此估计该商场下个月毛衣销售量约为( ) A .58件 B .40件 C .38件 D .46件
4.【2018湖南衡阳市第八中模拟】某省的一个气象站观测点在连续4天里记录的AQI 指数M 与当天的空气水平可见度y (单位: cm )的情况如表1:
该省某市2017年9月AQI 指数频数分布如表2:
(1)设100
M
x =
,根据表1的数据,求出y 关于x 的线性回归方程; (2)小李在该市开了一家洗车店,经统计,洗车店平均每天的收入与AQI 指数有相关关系,如表3:
根据表3估计小李的洗车店9月份平均每天的收入.
(附参考公式: ???y bx a =+,其中122
1?n
i i i n
i i x y nxy b x nx ==-=-∑∑, ??a y bx =-)
5.【2018福建三校联考】某学校为倡导全体学生为特困学生捐款,举行“一元钱,一片心,诚信用水”活动,学生在购水处每领取一瓶矿泉水,便自觉向捐款箱中至少投入一元钱。现统计了连续5天的售出和收益情况,如下表:
(Ⅰ) 若x 与y 成线性相关,则某天售出8箱水时,预计收益为多少元?
(Ⅱ) 期中考试以后,学校决定将诚信用水的收益,以奖学金的形式奖励给品学兼优的特困生,规定:特困生考入年级前200名,获一等奖学金500元;考入年级201—500 名,获二等奖学金300元;考入年级501
名以后的特困生将不获得奖学金。甲、乙两名学生获一等奖学金的概率均为25,获二等奖学金的概率均为1
3
,不获得奖学金的概率均为
4
15
. ⑴在学生甲获得奖学金条件下,求他获得一等奖学金的概率;
⑵已知甲、乙两名学生获得哪个等第的奖学金是相互独立的,求甲、乙两名学生所获得奖学金总金额X 的分布列及数学期望。
附: ()()()
121?n
i i i n i i x x y y b x x ==--=-∑∑, ??a y bx =-。 6.【2018河南豫南豫北联考】某老师对全班50名学生学习积极性和参加社团活动情况进行调查,统计数据如下所示:
(1)请把表格数据补充完整;
(2)若从不参加社团活动的28人按照分层抽样的方法选取7人,再从所选出的7人中随机选取两人作为代表发言,求至少有一个学习积极性高的概率;
(3)运用独立性检验的思想方法分析:请你判断是否有99.9%的把握认为学生的学习积极性与参与社团活动由关系? 附: ()
()()()()
2
2
,n ad bc K n a b c d a b c d a c b d -=
=+++++++
7.【2018湖南五校联考】某兴趣小组欲研究昼夜温差大小与患感冒人数多少之间的关系,他们分别到气象局
与某医院抄录了1至6月份每月10号的昼夜温差情况与因患感冒而就诊的人数,得到如下资料:
该兴趣小组确定的研究方案是:先从这六组数据中选取2组,用剩下的4组数据求线性回归方程,再用被选取的2组数据进行检验.
(Ⅰ)求选取的2组数据恰好是相邻两个月的概率;
(Ⅱ)若选取的是1月与6月的两组数据,请根据2至5月份的数据,求出y关于x的线性回归方程;(Ⅲ)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2人,则认为得到的线性回归方程是理想的,试问该小组所得线性回归方程是否理想?
(参考公式: )
参考数据:1092,498
8.【2018四川成都第七中模拟】“微信运动”已成为当下热门的运动方式,小王的微信朋友圈内也有大量好友参与了“微信运动”,他随机选取了其中的40人(男、女各20人),记录了他们某一天的走路步数,并将数据整理如下:
0.025
附:
()
()()()()
2
2,
n ad bc
K
a b c d a c b d
-
=
++++
(1)已知某人一天的走路步数超过8000步被系统评定为“积极型”,否则为“懈怠型”,根据题意完成下面的22
?列联表,并据此判断能否有95%以上的把握认为“评定类型”与“性别”有关?
(2)若小王以这40位好友该日走路步数的频率分布来估计其所有微信好友每日走路步数的概率分布,现从小王的所有微信好友中任选2人,其中每日走路不超过5000步的有X人,超过10000步的有Y人,设X Y
ξ=-,求ξ的分布列及数学期望.
9. 【2018黑龙江齐齐哈尔一次模拟】2016年6月22 日,“国际教育信息化大会”在山东青岛开幕.为了解哪些人更关注“国际教育信息化大会”,某机构随机抽取了年龄在15-75岁之间的100人进行调查,经统计“青少年”与“中老年”的人数之比为9: 11.
(1)根据已知条件完成下面的22
?列联表,并判断能否有99%的把握认为“中老年”比“青少年”更加关注“国际教育信息化大会”;
(2)现从抽取的青少年中采用分层抽样的办法选取9人进行问卷调查.在这9人中再选取3人进行面对面询问,记选取的3人中关注“国际教育信息化大会”的人数为X,求X的分布列及数学期望.
附:参考公式
()
()()()()
2
2
n ad bc
K
a b c d a c b d
-
=
++++
,其中n a b c d
=+++.
临界值表:
10.【南宁市2018届高三毕业班摸底联考】某省高考改革实施方案指出:该省高考考生总成绩将由语文、数学、外语3门统一高考成绩和学生自主选择的学业水平等级性考试科目共同构成,该省教育厅为了解正在读高中的学生家长对高考改革方案所持的赞成态度,随机从中抽取了100名城乡家长作为样本进行调查,调查结果显示样本中有25人持不赞成意见,如图是根据样本的调查结果绘制的等高条形图.
(1)根据已知条件与等高条形图完成下面的列联表,并判断我们能否有95%的把握认为“赞成高考改革方案与城乡户口有关”?
注:,其中.
(2)用样本的频率估计概率,若随机在全省不赞成高考改革的家长中抽取3个,记这3个家长中是城镇户口的人数为,试求的分布列及数学期望.
11【2018陕西省西安中学模拟】近年空气质量逐步雾霾天气现象增多,大气污染危害加重,大气污染可引起心悸,呼吸困难等心肺疾病,为了解某市心肺疾病是否与性别有关,在某医院随机的对入院50人进行了问卷调查得到了如下的列联表: