当前位置:文档之家› 2016-2017学年高中数学 第三章 统计案例 3.1 第2课时 残差分析及回归模型的选择学案 新

2016-2017学年高中数学 第三章 统计案例 3.1 第2课时 残差分析及回归模型的选择学案 新

2016-2017学年高中数学 第三章 统计案例 3.1 第2课时 残差分析及回归模型的选择学案 新
2016-2017学年高中数学 第三章 统计案例 3.1 第2课时 残差分析及回归模型的选择学案 新

3.1 第二课时 残差分析及回归模型的选择

一、课前准备 1.课时目标

(1) 了解残差分析回归效果; (2) 了解相关指数2R 分析回归效果;

(3) 了解常见的非线性回归转化为线性回归的方法. 2.基础预探

1.在线性回归模型y bx a e =++中,a b 和为模型的未知参数,e y 是与y bx a =+之间的误差,通常e为随机变量,称为_______.它的均值E(e)=0,方差2

()0D e σ=>.

线性回归模型的完整表达形式为2

()0,()y bx a e

E e D e σ=++??==?

.在此模型中,随机误差r的方差2

σ越小,通过回归直线y bx a =+预报真实值y的精度越高. 2.对于样本点1122(,),(,),

,(,)n n x y x y x y 而言,相应于它们的随机误差为

(1,2,,)i i i i e y y y bx a i n =-=--=,其估计值为(1,2,

,)i i i i i e y y y bx a i n =-=--=,

i e 称为相应于点(,)i i x y 的______.类比样本方差估计总体方差的思想,可以用

2

1

(,)2

Q a b n σ=

-(n>2)作为2σ的估计量,其中a b 和由公式给出,()Q a b ,称为残差平方和.可以用2

σ衡量回归直线方程的预报精度.通常2

σ越小,预报精度越高.

3.在研究两个变量间的关系时,首先要根据散点图来粗略判断它们是否线性相关,是否可以用线性回归模型来拟合数据.然后,可以通过残差12,,

n e e e 来判断模型拟合的效果,判断

原始数据中是否存在可疑数据.这方面的分析工作称为_______.

4.用相关指数2

R 来刻画回归的效果,其计算公式是:2

2

12

1

()

1()

n

i

i n

i

i y y R y y ==-=-

-∑∑.显然2

R 取值

越大,意味着残差平方和_______,也就是说模型的拟合效果________. 二、学习引领

1. 进行回归分析的步骤是什么?

(1)确定研究对象,明确是哪两个变量之间的相关关系.

(2)画出散点图,观察它们之间的关系是否存在线性关系,也可计算变量间的线性相关系数的值来精确判断它们之间是否存在相关关系.如果不存在线性相关关系,判断散点图是否存在非线性相关关系.

(3)若存在相关关系,则由经验确定回归方程的类型:如观察到数据呈线性关系,则选

用线性回归方程?y

=bx+a ;否则可选择指数模型、对数模型或二次函数模型等. (4)利用残差图或者相关指数2R 对回归效果进行判断

2.随机误差e的产生及估计的方法

(1)在实际中,随机变量y除了受随机变量x的影响之外,还受其它变量的影响;(2)由于前面相关关系公式中的a b 和为截距和斜率的估计值,它们与真实值a b 和之间也存在误差.(3)因为随机误差是随机变量,因此可以通过这个随机变量的数字特征来刻画它的一些总体特征.均值是反映随机变量取值平均水平的数字特征,方差是反映随机变量集中于均值程度的数字特征,而随机变量的均值为0,因此可以用方差2

来衡量随机误差的大小. 3.如何利用2

R 判断回归效果

在线性回归模型中,2

R 表示解释变量对于预报变量变化的贡献率. 2

R 越接近于1,表示回归的效果越好(因为2R 越接近于1,表示解释变量和预报变量的相关性越强).如果对某组数据可能采取几种不同的回归方程进行回归分析.也可以通过比较几个2

R ,选择其值大的模型.

4.常见的可线性化的回归模型

(1)幂函数曲线y=ax b

(如图所示), 作变换u=lny ,v=lnx,c=lna,得线性函数u=c+bv.

(2)指数函数y=ae bx

(如图所示) 作变换u=lny, c= lna,得线性函数u=c+bx.

(3)倒指数曲线y=a b x

e (如图所示).

(4)对数曲线y=a+blnx(如图所示)

三、典例导析

题型一相关系数的应用

例1 下表为某地近几年机动车辆数与交通事故数的统计资料,请判断交通事故数与机动车

r,由此判断交通事故数y与机动车辆数x是否线性相关.

解析:将数据列成下表

由此可知x=128.875 y=8.95,进而求得

0.9927≈.

因为|r|接近1 ,所以可得交通事故数y和机动车辆数x有较强的线性相关关系.

规律总结:进行回归分析时,通常先进行相关性检验,若能确定两个变量具有线性相关关系,再去求其线性回归方程,否则所求的方程无意义.两个变量正(负)相关时,它们就有

相同(反)的变化趋势,即当由小变大时,相应的有由小(大)变大(小)的趋势.

变式训练:某工业部门进行一项研究,分析该部门的产量与生产费用之间的关系?从这个工

完成下列要求:

(1)计算x 与y 的相关系数;

(2)对这两个变量之间是否线性相关进行相关性检验。

题型二 残差分析

某城区为研究城镇居民月家庭人均生活费支出和月人均收人的相关关系.随机抽取

10户进

思路导析:列表计算出相关系数所需数据,代入公式即可求出相关系数r ,初步判断两个变量之间是否具备相关性,然后做出残差图判断选用的模型是否合适.

解析:作出散点分布图,由图可知月人均生活费与人均收人之间具有线性相关关系.

由题意可知:639,480.4x y ==,

10

1010

221

1

1

4610300,2540526,3417560,i

i i i i i i x

y x y ======∑∑∑

计算相关系数可得 r=0.99316,

因为|r|接近1 ,所以可得两个变量有较强的线性相关关系.

代入公式可知b =

10

110

22

1

1010i i

i i

i x y xy

x

x ==--∑∑=0.6599 , a =y -b x =58.751.

故回归直线方程为?y

=0.6599x+58.751. 作残差如图所示,由图可知,残差点比较均匀地分布在水平的带状区域中,说明选用的模型

比较合适.

计算相关指数R2=0.986 3,说明城镇居民的月人均生活费的差异有98.63%是由人均收人引起的.

由以上分析可知.我们可以利用回归方程?y=0.6599x-58.751来作月生活费的预报值.

将x=1100代人得,?y=784.64(元);

将x=1200代人得,?y=850.63(元).

故预测月人均收人分别为1100元和l200元的两家庭的月人均生活费分别为784.64元和850.63元

归律总结:如果作出的残差图中的残差点比较均匀地分布在水平的带状区域中,带状区域宽度越窄,说明模型拟合程度越高,回归方程的预报精度越高.若利用相关指数R2来刻画拟合效果的好坏,R2的取值越接近1,说明残差的平方和越小,即说明模型的拟合效果越好.

变式训练:在一段时间内,某种商品的价格x(元)与需求量y(件)之间的数据为

求出y对x的回归直线方程,并说明拟合效果的好坏.

题型三:非线性回归分析

例3现代经济学证明,工厂生产产品的成本与其产量有关,产量越大,其成本越低.某饰品工艺厂在生产某种民族特色艺术品时,得到了每件饰品的成本费y(元)与产量x(百件)之间

检验每件饰品的成本费y与产量x之间是否具有线性相关关系,若有,求出y对x的回归方程;若没有,你能求出y与x的一个关系式吗?

思路导析:通过散点图观察两个变量具备怎样的相关关系,根据相关关系的特征选择合适的模型,将非线性相关的关系通过置换变为线性相关关系,然后求出成本与产量之间的关系. 解析:画出x和y的散点图,如图.

图中的点的分布不在一条直线附近,故每件饰品的成本费y 与产量x 间不具有线性相关关系,又图中的点的分布近似于反比例函数中的一支,故可把

x

1

置换为u ,检验y 与u 之间的相关关系,则有u =

x

1

,从而u 与y 的数据为

经计算得r=0.9998,

因为|r|接近于1,所以可以认为两个变量y 与u 之间具有较强线性相关关系;

由公式得a =1.125, b =8.973,所以?y =1.125+8.973u , 最后回代u=

x 1,可得8.973

? 1.125y x

=+.

答:y 对x 的回归方程为

8.973

? 1.125y x

=+.

方法规律:非线性回归问题要先根据已知的数据画出散点图,并把散点图与已经学习过的各种函数,如幂函数、指数函数、对数函数、二次函数等作比较,挑选出跟这些散点拟合最好的函数,然后再采用变量的置换,把问题转化为线性回归分析问题解决.

变式训练:在兰新化工厂生产某种化学药品的生产车间内,技术人员测得如下表所示的6组数据,其中x ()min 表示化学反应进行的时间,y ()mg 表示未转化物质的量.

(1)设y 与x 之间具有关系x

cd y =,试根据测量数据估计c 和d 的值.

(2)估计化学反应进行到min 10时未转化的物质的量.

四、随堂练习

1.变量x 、y 的散点图如图所示,那么x 、y 之间的样本相关系数r 的最接近的值为( )

A.1

B.-0.5

C.0

D.0.5

2.为了考察两个变量x和y之间的线性相关性.甲、乙两位同学各自独立地做10次和15次试验,并且利用线性回归方程,求得回归直线分别为12l l 和.已知两个人在试验中发现对变量x的观测数据的平均值都是s,对变量y的观测数据的平均值都为t,那么下列说法正确的是( )

A. 12l l 与相交点为(s,t);

B.12l l 与相交,相交点不一定是(s,t);

C. 12l l 与必关于点(s,t)对称;

D. 12l l 与必定重合. 3.对于相关系数r ,下列说法中正确的是( )

A.||r 越大,相关程度越大

B.||r 越小,相关程度越大

C.||r 越大,相关程度越小;||r 越小,相关程度越大

D.1||≤r 且||r 越接近1,相关程度越大;||r 越接近0,相关程度越小

4.如图所示,有5组数据(x ,y),去掉_____组数据后,剩下的4组数据的线性相关系数最大.

5. 已知回归直线的斜率的估计值是 1.23,样本点的中心为(4,5),则回归直线的方程是______。

6. 某产品的广告费用支出x与销售额y(单位:百万元)之间有如下统计数据:

请对上述变量x、y进行相关性检验.

五、课后作业

1. 某商品销售量y(件)与销售价格x(元/件)负相关,则其回归方程可能是 ( ) A. ^

10200y x =-+ B. ^

10200y x =+ C. ^

10200y x =-- D. ^

10200y x =- 2.对两个变量x 与y 进行回归分析,分别选择了4个不同模型,它们的相关系数r 如下,其

中拟合效果最好的模型是( ) A .模型1的相关系数r 为0.98 B .模型2的相关系数r 为0.80 C .模型3的相关系数r 为0.50 D .模型4的相关系数r 为0.25

3.线性相关的四个样本点(,3.5),(2.5,6.2),(

4.4,),(

5.2,11.3)x y 的中心是(3.4,7.75),则

___,___x y ==

4.已知一系列样本点(,)(1,2,3,,)i i x y i n =的回归直线方程为?23y

x =-,若1

17n

i i x ==∑,则

1

n

i

i y

==∑

5.某矿脉中设有9个样本点,某种金属的含量y 与样本点到原点的距离x 有如下表的测量值:

请按y a x

=+建立y 对x 的回归方程,并预测当样本点到原点的距离20x =时,该种金属的含量.

6.

(1)求y与x之间的回归方程,对于基本苗数56.7预报有效穗. (2)计算各组残差,并计算残差平方和.

(3)求2R ,并说明残差变量对有效穗的影响占百分之几?

参考答案

3.1 第二课时 选择回归模型

2.基础预探

1.随机误差

2.残差

3. 残差分析

4. 越小 越好 三、典例导析 例1 变式训练

解析:由题意可知:77.7,165.7x y ==,

10

1010

221

1

1

70903,277119,132938i

i i i i i i x

y x y ======∑∑∑.

0.808≈.

因为|r|接近1,所以可得两个变量有较强的线性相关关系. 例2 变式训练

解析:由题意可知:18,45.4x y ==,

5

5

21

1

1600,3992,i

i i i i x

x y ====∑∑

代入公式可知b =

5

15

22

1

55i i

i i

i x y xy

x

x ==--∑∑=-2.35, a =y -b x =87.7 ,

故所求回归直线方程为?y

=-2.35x+87.7. 列出残差表为:

所以,

2

5

5

21

1

()

8.3,()229.2,i

i

i i i y y y y ==-=-=∑∑

代入公式可知R 2

=1-

2

5

15

2

1

()

()

i

i

i i

i y y y y ==--∑∑≈0.964.

因为0.964接近于1,所以该模型的拟合效果好. 例3 变式训练

解析:(1)在x

cd y =的两边取自然对数,可以得到d x c y ln ln ln +=.设z y =ln ,

由公式计算得? 3.926a

≈,?0.2244b ≈-, 线性回归方程为9055.3?≈z x 2119.0-, 即9055.3ln ≈c ,2219.0ln -≈d ,所以675.49≈c ,8010.0≈d ,

根据测量数据估计675.49=c ,8010.0=d .

(2)由(1)知y 与x 之间的关系为?49.6750.8010x

y

=?, 当10=x 时,?y

=4.58010.0675.4910

≈?.

所以估计化学反应进行到min 10时未转化物质的量为mg 4.5.

四、随堂练习 1. 答案:C

解析:从散点图可以看出,x 与y 没有线性相关关系,因而r 的值接近于0. 2.答案:A

解析:设回归直线方程为y bx a =+,则a y bx =-,即 a t bs =-,可得出t bs a =+.所以点(s,t)在回归直线上,所以直线12l l 与一定有公共点(s,t). 3.答案:D

解析:由两个变量的相关系数公式可知,相关程度的强弱||r 与1的接近程度有关,||r 越接近1,相关程度越大;||r 越接近0,相关程度越小.

4.答案:D

解析:当各点分布在一条直线附近时,相关系数最大,由图中可知,A 、B 、C 、E 四点分布在一条直线附近,而D 点远离这条直线,故去掉D 点后,相关性最强,相关系数最大.

5.? 1.230.08y

x =+ 解析:设回归直线方程为a x b y

+=??,依题意可知,23.1=b ,又样本点的中心(4,5)在直线上,即5 1.234a =?+即0.08a =,所以回归直线的方程为? 1.230.08y

x =+. 6.解:由题意可以列表如下:

由上代入公式可得

0.92r =

≈,

因为|r|接近于1,说明广告费用和销售额之间具有显著线性关系. 五、课后作业 1. 答案:A

解:因为销量与价格负相关,由函数关系考虑为减函数可排除B 、D ,根据回归直线方程

y a bx =+中b 的统计学意义知不能为负数,再排除C 选项,所以选A.

2.答案:A

解析:r 越接近于1,拟合效果越好。 3.答案: 1.5x =,10y = 解析:由 2.5 4.4 5.23.4 1.54x x +++=

?=, 3.5 6.211.3

7.75104

y y +++=?=

4.答案:343n -

解析:因为

1

1

1

1

2323343n

n

i

i

n n

i i i i i i y

x

y x n n n

n

=====?

-?=?-=-∑∑∑∑.

5.解析:对b y a x =+

作一个变换,将其转化成线性问题.为此,令1

t x

=,则得线性关系式y a bt =+,化归到线性回归方程.

将上表中的数据作相应的变换,得下表:

用最小二乘法,易得线性回归方程为y 111.5x

=-

, 最后回代t=x

1

,可得^9.899y 111.5x =-,

故当20x =时,预报值^

y 9.867

111.5111.0120

=-

=. 6.解析:(1)由图看出,样本点呈条状分布,有比较好的线性相关关系,因此可以用线性回归方程刻画它们之间的关系.

设回归方程为5

5

221

1

,30.36,43.5,

5101.51,9511.43.i

i i i y bx a x y x

y ===+====∑∑

5

22

1

1320,1892.25,921.7296,6746.76.i i i x y y x x y =====∑

由5

15

2

2

1

50.2911,34.32.5i i

i i

i x y x y

b a y bx x

x

==-=

≈=-≈-∑∑

故所求的回归直线方程为34.320.29.y x =+

当x=56.7时,34.320.2956.750.763.y =+?=估计成熟期有效穗50.763. (2)由于y bx a e =++,可以算得i i i e y y =-分别为

123450.73, 1.098,0.12, 1.83, 2.004,e e e e e ===-=-=

残差平方和:

5

21

9.11782.i

i e

==∑

(3)总偏差平方和:

5

2

1

()

50.18,i

i y y =-=∑

回归平方和:50.18-9.11782=41.06218,241.06218

0.818.50.18

R =

所以解释变量、小麦基本苗数对总效应约贡献了81.8%. 残差变量贡献了约1-81.8%=18.2%.

数学选修2-3第三章-统计案例阶段测试3(含详

数学选修2-3第三章-统计案例阶段测试3(含详细答案)

阶段测试三 (第三章统计案例) (时间:120分钟,满分:150分) 一、选择题(每小题5分,共60分) 1.下列关系中是相关关系的是() ①路程与时间、速度的关系; ②加速度与力的关系; ③产品成本与产量的关系; ④圆周长与面积的关系; ⑤广告费支出与销售额的关系. A.①②④B.①③⑤ C.③⑤D.③④⑤ 2.下列说法中表述恰当的个数为() ①相关指数R2可以刻画回归模型的拟合效果,R2越接近于1,说明模型的拟合效果越好; ②在线性回归模型中,R2表示解释变量对预报变量的贡献率,R2越接近于1,表示解释变量

和预报变量的线性相关关系越强; ③若残差图中个别点的残差比较大,则应确认在采集样本点的过程中是否有人为的错误或模型是否恰当. A.0 B.1 C.2 D.3 3.(2016·重庆南开中学期末)巧克力很甜、很好吃,数学很妙、很有趣,某中学统计了部分同学“爱吃巧克力”与“数学成绩好”的关系,得到下表: 经计算得k≈4.167,由此可以判断()

参考数据: A.至少有99%的把握认为“数学成绩好” 与“爱吃巧克力”有关 B .至少有95%的把握认为“数学成绩好” 与“爱吃巧克力”有关 C . 至少有99%的把握认为“数学成绩好” 与“爱吃巧克力”无关 D .至少有95%的把握认为“数学成绩好” 与“爱吃巧克力”无关 4.某车间为了规定工时定额,需要确定加 工零件所花费的时间,为此进行了5次试验,收集数据如下:

经检验,这组样本数据具有线性相关关系,那么对于加工零件的个数x与加工时间y这两个变量,下列判断正确的是() A.成正相关,其回归直线经过点(30,75) B.成正相关,其回归直线经过点(30,76) C.成负相关,其回归直线经过点(30,76) D.成负相关,其回归直线经过点(30,75) 5.下列关于等高条形图说法正确的是() A.等高条形图表示高度相对的条形图 B.等高条形图表示的是分类变量的频数 C.等高条形图表示的是分类变量的百分比 D.等高条形图表示的是分类变量的实际高度 6.下面是调查某地区男女中学生喜欢理科的等高条形图,阴影部分表示喜欢理科的百分比,从下图可以看出()

统计与统计案例真题与解析

统计与统计案例 A 级 基础 一、选择题 1.某校为了解学生学习的情况,采用分层抽样的方法从高一1 000人、高二1 200人、高三n 人中抽取81人进行问卷调查,已知高二被抽取的人数为30,那么n =( ) A .860 B .720 C .1 020 D .1 040 2.为规范学校办学,某省教育厅督察组对某所高中进行了抽样调查.抽到的班级一共有52名学生,现将该班学生随机编号,用系统抽样的方法抽取一个容量为4的样本,已知7号、33号、46号同学在样本中,那么样本中还有一位同学的编号应是( ) A .13 B .19 C .20 D .51 3.“关注夕阳、爱老敬老”——某爱心协会从2013年开始每年向敬老院捐赠物资和现金,下表记录了第x 年(2013年是第一年)与捐赠的现金y (单位:万元)的对应数据,由此表中的数据得到了y 关于x 的线性回归方程y ^ =mx +0.35,则预测2019年捐赠的现金大约是( ) A.5万元 C .5.25万元 D .5.5万元 4.如图所示的茎叶图记录了甲乙两组各5名工人某日的产量数据(单位:件).若这两组数据的中位数相等,且平均值也相等,则x 和y 的值分别为( )

A.3,5 B.5,5 C.3,7 D.5,7 5.(2019·衡水中学检测)某超市从2019年甲、乙两种酸奶的日销售量(单位:箱)的数据中分别随机抽取100个,并按(0,10],(10,20],(20,30],(30,40],(40,50]分组,得到频率分布直方图如下: 记甲种酸奶与乙种酸奶的日销售量(单位:箱)的方差分别为s21,s22,则频率分布直方图(甲)中的a的值及s21与s22的大小关系分别是() A.a=0.015,s21s22 C.a=0.015,s21>s22D.a=0.15,s21

高中数学 专题 统计与统计案例

一、选择题 1.利用系统抽样法从编号分别为1,2,3,…,80的80件不同产品中抽出一个容量为16的样本,如果抽出的产品中有一件产品的编号为13,则抽到产品的最大编号为( ) A .73 B .78 C .77 D .76 解析:样本的分段间隔为80 16=5,所以13号在第三组,则最大的编号为13+(16-3)×5 =78.故选B. 答案:B 2.某课外小组的同学们在社会实践活动中调查了20户家庭某月的用电量如下表所示: 则这20A .180,170 B .160,180 C .160,170 D .180,160 解析:用电量为180度的家庭最多,有8户,故这20户家庭该月用电量的众数是180,排除B ,C ;将用电量按从小到大的顺序排列后,处于最中间位置的两个数是160,180,故这20户家庭该月用电量的中位数是170.故选A. 答案:A 3.(2017·高考全国卷Ⅲ)某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了2014年1月至2016年12月期间月接待游客量(单位:万人)的数据,绘制了如图所示的折线图,根据该折线图,下列结论错误的是( ) A .月接待游客量逐月增加 B .年接待游客量逐年增加 C .各年的月接待游客量高峰期大致在7,8月 D .各年1月至6月的月接待游客量相对于7月至12月,波动性更小,变化比较平稳

解析:根据折线图可知,2014年8月到9月、2014年10月到11月等月接待游客量都在减少,所以A 错误.由图可知,B 、C 、D 正确. 答案:A 4.(2018·宝鸡质检)对一批产品的长度(单位:毫米)进行抽样检测,样本容量为200,如图为检测结果的频率分布直方图,根据产品标准,单件产品长度在区间[25,30)的为一等品,在区间[20,25)和[30,35)的为二等品,其余均为三等品,则该样本中三等品的件数为( ) A .5 B .7 C .10 D .50 解析:根据题中的频率分布直方图可知,三等品的频率为1-(0.050 0+0.062 5+0.037 5)×5=0.25,因此该样本中三等品的件数为200×0.25=50. 答案:D 5.(2018·兰州模拟)已知某种商品的广告费支出x (单位:万元)与销售额y (单位:万元)之间有如下对应数据: 根据表中提供的全部数据,用最小二乘法得出y 与x 的线性回归方程为y ^ =6.5x +17.5,则表中m 的值为( ) A .45 B .50 C .55 D .60 解析:∵x =2+4+5+6+8 5=5, y = 30+40+50+m +705=190+m 5 , ∴当x =5时,y =6.5×5+17.5=50, ∴190+m 5=50,解得m =60. 答案:D

数学选修23第三章统计案例教案

第三章 统计案例 §3.1 独立性检验(1) 1. 某医疗机构为了了解呼吸道疾病与吸烟是否有关,进行了一次抽样调查,共调查了515个成年人,其中吸烟者220人, 不吸烟者295人.调查结果是:吸烟的220人中有37人患呼吸道疾病(简称患病),183人未患呼吸道疾病(简称未患病);不吸烟的295人中有21人患病,274人未患病. 问题:根据这些数据能否断定“患呼吸道疾病与吸烟有关”? 为了研究这个问题,(1)引导学生将上述数据用下表来表示: 一.建构数学 1.独立性检验: (1)假设0H :患病与吸烟没有关系. 若将表中“观测值”用字母表示,则得下表: 如果实际观测值与假设求得的估计值相差不大,就可以认为所给数据(观测值)不能否定假设0H .否则,应认为假设0H 不能接受,即可作出与假设0H 相反的结论. (2)卡方统计量: 为了消除样本对上式的影响,通常用卡方统计量(χ22 ()-=∑ 观测值预期值预期值 )来进行估计. 卡方χ2统计量公式: χ2() ()()()() 2 n ad bc a b c d a c b d -=++++(其中n a b c d =+++) 由此若0H 成立,即患病与吸烟没有关系,则χ2的值应该很小.把37,183,21,274a b c d ====代入计算得 χ211.8634=,统计学中有明确的结论,在0H 成立的情况下,随机事件“2 6.635χ≥” 发生的概率约为0.01,即2 ( 6.635)0.01P χ ≥≈,也就是说,在0H 成立的情况下,对统计量χ2进行多次观测, 观测值超过6.635的频率约为0.01.由此,我们有99%的把握认为0H 不成立,即有99%的把握认为“患病与吸烟有关系”. 象以上这种用2 χ统计量研究吸烟与患呼吸道疾病是否有关等问题的方法称为独立性检验.

高中数学专题――概率统计专题.

专题二概率统计专题 【命题趋向】概率与统计是高中数学的重要学习内容,它是一种处理或然问题的方法,在工农业生产和社会生活中有着广泛的应用,渗透到社会的方方面面,概率与统计的基础知识成为每个公民的必备常识.概率与统计的引入,拓广了应用问题取材的范围,概率的计算、离散型随机变量的分布列和数学期望的计算及应用都是考查应用意识的良好素材.在高考试卷中,概率与统计的内容每年都有所涉及,以解答题形式出现的试题常常设计成包含离散型随机变量的分布列与期望、统计图表的识别等知识为主的综合题,以考生比较熟悉的实际应用问题为载体,以排列组合和概率统计等基础知识为工具,考查对概率事件的识别及概率计算.解答概率统计试题时要注意分类与整合、化归与转化、或然与必然思想的运用.由于中学数学中所学习的概率与统计内容是最基础的,高考对这一部分内容的考查注重考查基础知识和基本方法.该部分在高考试卷中,一般是2—3个小题和一个解答题. 【考点透析】概率统计的考点主要有:概率与统计包括随机事件,等可能性事件的概率,互斥事件有一个发生的概率,古典概型,几何概型,条件概率,独立重复试验与二项分布,超几何分布,离散型随机变量的分布列,离散型随机变量的期望和方差,抽样方法,总体分布的估计,正态分布,线性回归等.【例题解析】 题型1 抽样方法 -)中,在公证部门监督下按照随机抽取的方法确【例1】在1000个有机会中奖的号码(编号为000999 定后两位数为的号码为中奖号码,该抽样运用的抽样方法是() A.简单随机抽样B.系统抽样C.分层抽样D.以上均不对 分析:实际“间隔距离相等”的抽取,属于系统抽样. 解析:题中运用了系统抽样的方法采确定中奖号码,中奖号码依次为:088,188,288,388,488,588,688,788,888,988.答案B. 点评:关于系统抽样要注意如下几个问题:(1)系统抽样是将总体分成均衡几个部分,然按照预先定出的规则从每一部分抽取一个个体,得到所需要的样本的一种抽样方法.(2)系统抽样的步骤:①将总体中的个体随机编号;②将编号分段;③在第一段中用简单随机抽样确定起始的个体编号;④按事先研究的规则抽取样本.(3)适用范围:个体数较多的总体. 例2(2008年高考广东卷理3)某校共有学生2000名,各年级男、女生人数如表.已知在全校学生中随机抽取1名,抽到二年级女生的概率是0.19.现用分层抽样的方法在全校抽取64名学生,则应在三年级抽取的学生人数为() A.24B.18C.16D.12 Array 分析:根据给出的概率先求出x的值,这样就可以知道三年级的学生人数,问题就解决了. x=?=,这样一年级和二年级学生的解析:C 二年级女生占全校学生总数的19%,即20000.19380 +++=,三年级学生有500人,用分层抽样抽取的三年级学生应是总数是3733773803701500 64 50016 ?=.答案C. 2000 点评:本题考查概率统计最基础的知识,还涉及到一点分析问题的能力和运算能力,题目以抽样的等可能性为出发点考查随机抽样和分层抽样的知识. 例3.(2009江苏泰州期末第2题)一个社会调查机构就某地居民的月收入调查了10000人,并根据所得数据画了样本的频率分布直方图(如下图).为了分析居民的收入与年龄、学历、职业等方面的关系, 2500,3500(元)月收入段应抽要从这10000人中再用分层抽样方法抽出100人作进一步调查,则在[) 出人.

2020版高中数学 第三章 统计案例 3.2 独立性检验的基本思想及其初步应用学案 新人教A版选修2-3

§3.2 独立性检验的基本思想及其初步应用 学习目标 1.了解分类变量的意义.2.了解2×2列联表的意义.3.了解随机变量K 2 的意义.4.通过对典型案例分析,了解独立性检验的基本思想和方法. 知识点一 分类变量及2×2列联表 思考 山东省教育厅大力推行素质教育,增加了高中生的课外活动时间,某校调查了学生的课外活动方式,结果整理成下表: 体育 文娱 合计 男生 210 230 440 女生 60 290 350 合计 270 520 790 如何判定“喜欢体育还是文娱与性别是否有联系”? 答案 可通过表格与图形进行直观分析,也可通过统计分析定量判断. 梳理 (1)分类变量 变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量. (2)列联表 ①定义:列出的两个分类变量的频数表,称为列联表. ②2×2列联表 一般地,假设有两个分类变量X 和Y ,它们的取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(也称为2×2列联表)为下表. y 1 y 2 总计 x 1 a b a +b x 2 c d c +d 总计 a +c b +d a + b + c +d 知识点二 等高条形图 1.与表格相比,图形更能直观地反映出两个分类变量间是否相互影响,常用等高条形图展示列联表数据的频率特征. 2.如果通过直接计算或等高条形图发现a a + b 和 c c +d 相差很大,就判断两个分类变量之间有关系. 知识点三 独立性检验

1.定义:利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验. 2.K2=n(ad-bc)2 (a+b)(c+d)(a+c)(b+d) ,其中n=a+b+c+d为样本容量. 3.独立性检验的具体做法 (1)根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界α,然后查表确定临界值k0. (2)利用公式计算随机变量K2的观测值k. (3)如果k≥k0,就推断“X与Y有关系”,这种推断犯错误的概率不超过α;否则,就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够证据支持结论“X与Y有关系”. 1.列联表中的数据是两个分类变量的频数.( √) 2.事件A与B的独立性检验无关,即两个事件互不影响.( ×) 3.K2的大小是判断事件A与B是否相关的统计量.( √) 类型一等高条形图的应用 例1 为了解铅中毒病人与尿棕色素为阳性是否有关系,分别对病人组和对照组的尿液作尿棕色素定性检查,结果如下: 组别阳性数阴性数总计 铅中毒病人29736 对照组92837 总计383573 试画出列联表的等高条形图,分析铅中毒病人和对照组的尿棕色素阳性数有无差别,铅中毒病人与尿棕色素为阳性是否有关系? 考点定性分析的两类方法 题点利用图形定性分析 解等高条形图如图所示: 其中两个浅色条的高分别代表铅中毒病人和对照组样本中尿棕色素为阳性的频率. 由图可以直观地看出铅中毒病人与对照组相比,尿棕色素为阳性的频率差异明显,因此铅中毒病人与尿棕色素为阳性有关系.

高中数学统计与概率知识点(原稿)

高中数学统计与概率知识点(文) 第一部分:统计 一、什么是众数。 一组数据中出现次数最多的那个数据,叫做这组数据的众数。 众数的特点。 ①众数在一组数据中出现的次数最多;②众数反映了一组数据的集中趋势,当众数出现的次数越多,它就越能代表这组数据的整体状况,并且它能比较直观地了解到一组数据的大致情况。但是,当一组数据大小不同,差异又很大时,就很难判断众数的准确值了。此外,当一组数据的那个众数出现的次数不具明显优势时,用它来反映一组数据的典型水平是不大可靠的。 3.众数与平均数的区别。 众数表示一组数据中出现次数最多的那个数据;平均数是一组数据中表示平均每份的数量。 二、.中位数的概念。 一组数据按大小顺序排列,位于最中间的一个数据(当有偶数个数据时,为最中间两个数据的平均数)叫做这组数据的中位数。 三 .众数、中位数及平均数的求法。 ①众数由所给数据可直接求出;②求中位数时,首先要先排序(从小到大或从大到小),然后根据数据的个数,当数据为奇数个时,最中间的一个数就是中位数;当数据为偶数个时,最中间两个数的平均数就是中位数。③求平均数时,就用各数据的总和除以数据的个数,得数就是这组数据的平均数。 四、中位数与众数的特点。 ⑴中位数是一组数据中唯一的,可能是这组数据中的数据,也可能不是这组数据中的数据; ⑵求中位数时,先将数据有小到大顺序排列,若这组数据是奇数个,则中间的数据是中位数;若这组数据是偶数个时,则中间的两个数据的平均数是中位数; ⑶中位数的单位与数据的单位相同; ⑷众数考察的是一组数据中出现的频数; ⑸众数的大小只与这组数的个别数据有关,它一定是一组数据中的某个数据,其单位与数据的单位相同; (6)众数可能是一个或多个甚至没有; (7)平均数、众数和中位数都是描述一组数据集中趋势的量。

专题突破练20 统计与统计案例

专题突破练20 统计与统计案例 1. (2020吉林辽源高三检测,18)某城市在进行创建文明城市的活动中,为了解居民对“创建文明城市”的满意程度,组织居民给活动打分(分数为整数.满分为100分).从中随机抽取一个容量为120的样本.发现所有数据均在[40,100]内.现将这些分数分成以下6组并画出了样本的频率分布直方图,但不小心污损了部分图形,如图所示.观察图形,回答下列问题: (1)算出第三组[60,70)的频数,并补全频率分布直方图; (2)请根据频率分布直方图,估计样本的众数、中位数和平均数.(每组数据以区间的中点值为代表) 2.下图是某地区2000年至2016年环境基础设施投资额y (单位:亿元)的折线图. 为了预测该地区2018年的环境基础设施投资额,建立了y 与时间变量t 的两个线性回归模型.根据2000年至2016年的数据(时间变量t 的值依次为1,2,…,17)建立模型①;y ^ =-30.4+13.5t ;根据2010年至2016年的数据(时间变量t 的值依次为1,2,…,7)建立模型②:y ^ =99+17.5t. (1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值; (2)你认为用哪个模型得到的预测值更可靠?并说明理由.

3.(2020河南郑州高三检测,19)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人,第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图: (1)根据茎叶图判断哪种生产方式的效率更高?并说明理由; (2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m 的工人数填入下面的列联表: (3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异? 附:K2=n(ad-bc)2 (a+b)(c+d)(a+c)(b+d) ,其中n=a+b+c+d.

高中数学统计案例分析及知识点归纳总结

统计 一、知识点归纳 1、抽样方法: ①简单随机抽样(总体个数较少) ②系统抽样(总体个数较多) ③分层抽样(总体中差异明显) 注意:在N 个个体的总体中抽取出n 个个体组成样本,每个个体被抽到的机会(概率)均为N n 。 2、总体分布的估计: ⑴一表二图: ①频率分布表——数据详实 ②频率分布直方图——分布直观 ③频率分布折线图——便于观察总体分布趋势 注:总体分布的密度曲线与横轴围成的面积为1。 ⑵茎叶图: ①茎叶图适用于数据较少的情况,从中便于看出数据的分布,以及中位数、众位数等。 ②个位数为叶,十位数为茎,右侧数据按照从小到大书写,相同的数据重复写。 3、总体特征数的估计: ⑴平均数:n x x x x x n ++++= 321; 取值为n x x x ,,,21 的频率分别为n p p p ,,,21 ,则其平均数为n n p x p x p x +++ 2211; 注意:频率分布表计算平均数要取组中值。 ⑵方差与标准差:一组样本数据n x x x ,,,21 方差:2 1 2)(1 ∑=-= n i i x x n s ; 标准差:2 1 )(1∑=-= n i i x x n s 注:方差与标准差越小,说明样本数据越稳定。 平均数反映数据总体水平;方差与标准差反映数据的稳定水平。 ⑶线性回归方程 ①变量之间的两类关系:函数关系与相关关系; ②制作散点图,判断线性相关关系 ③线性回归方程:a bx y +=∧ (最小二乘法) 1 221n i i i n i i x y nx y b x nx a y bx ==? -? ?=??-??=-??∑∑ 注意:线性回归直线经过定点),(y x 。

高中数学第三章统计案例2独立性检验教学案北师大版选修2_3

§2独立性检验 [对应学生用书P40] 1.2×2列联表 设A ,B 为两个变量,每个变量都可以取两个值,变量A :A 1,A 2=A - 1;变量B :B 1,B 2 =B - 1,用下表表示抽样数据 并将此表称为2.χ2 的计算公式 χ2 = n ad -bc 2a +b c + d a +c b +d . 3.独立性判断的方法 (1)当χ2 ≤2.706时,没有充分的证据判定变量A ,B 有关联,可以认为变量A ,B 是没有关联的; (2)当χ2>2.706时,有90%的把握判定变量A ,B 有关联; (3)当χ2>3.841时,有95%的把握判定变量A ,B 有关联; (4)当χ2>6.635时,有99%的把握判定变量A ,B 有关联. (1)独立性检验是一种假设检验,在对总体的估计中,通过抽取样本,构造合适的统计量,对假设的正确性进行判断. (2)使用χ2统计量作2×2列联表的独立性检验时,一般要求表中的4个数据都大于5,数据越大,越能说明结果的普遍性. [对应学生用书P41]

[例1] 在调查的6名患有色盲,试作出性别与色盲的列联表. [思路点拨] 在2×2列联表中,共有两类变量,每一类变量都有两个不同的取值,然后出相应的数据,列表即可. [精解详析] 根据题目所给的数据作出如下的列联表: [一点通] 1.下面是一个2×2列联表:则表中a ,b 处的值分别为( ) A.32,40 B C .74,82 D .64,72 解析:a =53-21=32,b =a +8=40. 答案:A 2.某学校对高三学生作一项调查后发现:在平时的模拟考试中,性格内向的426名学生中有332名在考前心情紧张,性格外向的594名学生中在考前心情紧张的有213人.试作出2×2列联表. 解:列联表如下:

(最全)高中数学概率统计知识点总结

概率与统计 一、普通的众数、平均数、中位数及方差 1、 众数:一组数据中,出现次数最多的数。 2、平均数:①、常规平均数:12n x x x x n ++???+= ②、加权平均数:112212n n n x x x x ωωωωωω++???+=++???+ 3、中位数:从大到小或者从小到大排列,最中间或最中间两个数的平均数。 4、方差:2222121 [()()()]n s x x x x x x n = -+-+???+- 二、频率直方分布图下的频率 1、频率 =小长方形面积:f S y d ==?距;频率=频数/总数 2、频率之和:121n f f f ++???+=;同时 121n S S S ++???+=; 三、频率直方分布图下的众数、平均数、中位数及方差 1、众数:最高小矩形底边的中点。 2、平均数: 112233n n x x f x f x f x f =+++???+ 112233n n x x S x S x S x S =+++???+ 3、中位数:从左到右或者从右到左累加,面积等于0.5时x 的值。 4、方差:22221122()()()n n s x x f x x f x x f =-+-+???+- 四、线性回归直线方程:???y bx a =+ 其中:1 1 2 22 1 1 ()() ?() n n i i i i i i n n i i i i x x y y x y nxy b x x x nx ====---∑∑== --∑∑ , ??a y bx =- 1、线性回归直线方程必过样本中心(,)x y ; 2、?0:b >正相关;?0:b <负相关。 3、线性回归直线方程:???y bx a =+的斜率?b 中,两个公式中分子、分母对应也相等;中间可以推导得到。 五、回归分析 1、残差:??i i i e y y =-(残差=真实值—预报值)。分析:?i e 越小越好; 2、残差平方和:21?()n i i i y y =-∑, 分析:①意义:越小越好; ②计算:222211221 ????()()()()n i i n n i y y y y y y y y =-=-+-+???+-∑ 3、拟合度(相关指数):221 2 1 ?()1() n i i i n i i y y R y y ==-∑=- -∑,分析:①.(]20,1R ∈的常数; ②.越大拟合度越高; 4、相关系数 :()() n n i i i i x x y y x y nx y r ---?∑∑= = 分析:①.[r ∈-的常数; ②.0:r >正相关;0:r <负相关 ③.[0,0.25]r ∈;相关性很弱; (0.25,0.75)r ∈;相关性一般; [0.75,1]r ∈;相关性很强; 六、独立性检验 1、2×2列联表: 2、独立性检验公式 ①.2 2() ()()()() n ad bc k a b c d a c b d -= ++++ ②.犯错误上界P 对照表 3、独立性检验步骤

单元测试:选修2-3第三章《统计案例》

选修2-3第三章《统计案例》 (时间120分钟 满分150分) 一、选择题(共60分) 1.下列属于相关现象的是( ) A.利息与利率 B.居民收入与储蓄存款 C.电视机产量与苹果产量 D.某种商品的销售额与销售价格 2.已知盒中装有3只螺口与7只卡口灯泡,这些灯泡的外形与功率都相 同且灯口向下放着,现需要一只卡口灯泡,电工师傅每次从中任取一只并不放回,则在他第1 次抽到的是螺口灯泡的条件下,第2次抽到的是卡口灯泡的概率为 ( ) A.310 B.29 C.78 D.79 3.如图所示,图中有5组数据,去掉组数据后(填字母代号),剩下的4组数据的线性相关性最大( ) A.E B.C C.D D.A 4.为调查吸烟是否对患肺癌有影响,某肿瘤研究所随机地调查了9965人, 得到如下结果(单位:人) 根据表中数据,你认为吸烟与患肺癌有关的把握有( ) A.90% B.95% C.99% D.100% 5.调查某医院某段时间内婴儿出生的时间与性别的关系,得到下面的数据表: 你认为婴儿的性别与出生时间有关系的把握为( ) A.80% B.90% C.95% D.99% 6.已知有线性相关关系的两个变量建立的回归直线方程为$ y a bx =+,方程中的回归系数b ( ) A.可以小于0 B.只能大于0 C.可以为0 D.只能小于0 7.每一吨铸铁成本c y (元)与铸件废品率x %建立的回归方程568c y x =+,下列说法正确的是( ) A.废品率每增加1%,成本每吨增加64元 B.废品率每增加1%,成本每吨增加8% C.废品率每增加1%,成本每吨增加8元 D.如果废品率增加1%,则每吨成本为56元 8.下列说法中正确的有:①若0r >,则x 增大时,y 也相应增大;②若0r <,则x 增大时,y 也相应增大;③若1r =,或1r =-,则x 与y 的关系完全对应(有函数关系),在散点图上各个散点均在一条直线上( ) A.①② B.②③ C.①③ D.①②③ 9.有一个同学家开了一个小卖部,他为了研究气温对热饮销售的影响,经过统计,得到一个卖出的热饮杯数与当天气温的对比表: 不患肺病 患肺病 合计 不吸烟 7775 42 7817 吸烟 2099 49 2148 合计 9874 91 9965 晚上 白天 合计 男婴 24 31 55 女婴 8 26 34 合计 32 57 89

2021届高三新题数学9月(适用新高考)专题二十 统计与统计案例(原卷版)

专题二十 统计与统计案例 一、单选题 1.(2020·河南宛城·南阳华龙高级中学月考(文))在一组样本数据()11,x y ,()22,x y ,…,(),n n x y (2n ≥, 1x ,2x ,……,n x 不全相等)的散点图中,若所有样本点()(),1,2,,i i x y i n =???都在直线2 15 y x = +上,则这组样本数据的样本相关系数为( ) A .-1 B .0 C . 12 D .1 二、多选题 2.(2020·江苏省丰县中学期末)某俱乐部为了解会员对运动场所的满意程度,随机调查了50名会员,每位会员对俱乐部提供的场所给出满意或不满意的评价,得到如图所示的列联表,经计算2K 的观测值 5.059k ≈,则可以推断出( ) 附: A .该俱乐部的男性会员对运动场所满意的概率的估计值为 2 3 ; B .调查结果显示,该俱乐部的男性会员比女性会员对俱乐部的场所更满意; C .有97.5%的把握认为男性会员、女性会员对运动场所的评价有差异; D .有99%的把握认为男性会员、女性会员对运动场所的评价有差异. 第II 卷(非选择题)

三、解答题 3.(2020·河南宛城·南阳华龙高级中学月考(文))微信是现代生活中进行信息交流的重要工具.据统计,某公司200名员工中0090的人使用微信,其中每天使用微信时间少于一小时的有60人,其余的员工每天使用微信时间不少于一小时,若将员工分成青年(年龄小于40岁)和中年(年龄不小于40岁)两个阶段,那么使用微信的人中0075是青年人.若规定:每天使用微信时间不少于一小时为经常使用微信,那么经常使用微信的员工中 2 3 都是青年人. (1)若要调查该公司使用微信的员工经常使用微信与年龄的关系,完成22?列联表: (2)由列联表中所得数据判断,能否在犯错误的概率不超过0.001的前提下认为“经常使用微信与年龄有关”? 2 2 ()()()()() n ad bc k a b c d a c b d -=++++ 4.(2020·江苏泰州·期末)某企业的甲、乙两种产品在东部地区三个城市以及西部地区两个城市的销售量x , y 的数据如下:

高中数学:统计与统计案例练习

高中数学:统计与统计案例练习 A组 一、选择题 1.某校为了解学生平均每周的上网时间(单位:h),从高一年级1 000名学生中随机抽取100名进行了调查,将所得数据整理后,画出频率分布直方图(如图),其中频率分布直方图从左到右前3个小矩形的面积之比为1∶3∶5,据此估计该校高一年级学生中平均每周上网时间少于4 h的学生人数为() A.200 B.240 C.400 D.480 解析:选C设频率分布直方图中从左到右前3个小矩形的面积分别为P,3P,5P.由频率分布直方图可知,最后2个小矩形的面积之和为(0.015+0.035)×2=0.1.因为频率分布直方图中各个小矩形的面积之和为1,所以P+3P+5P=0.9,即P=0.1.所以平均每周上网时间少于4 h的学生所占比例为P+3P=0.4,由此估计学生人数为0.4×1 000=400. 2.AQI(Air Quality Index,空气质量指数)是报告每日空气质量的参数,描述了空气清洁或污染的程度.AQI共分六级,一级优(0~50),二级良(51~100),三级轻度污染(101~150),四级中度污染(151~200),五级重度污染(201~300),六级严重污染(大于300).如图是昆明市2019年4月份随机抽取的10天的AQI茎叶图,利用该样本估计昆明市2020年4月份空气质量优的天数为() A.3 B.4 C.12 D.21

解析:选C从茎叶图知,10天中有4天空气质量为优,所以空气质量为优的频率为4 10= 2 5, 所以估计昆明市2020年4月份空气质量为优的天数为30×2 5=12,故选C. 3.(成都模拟)某城市收集并整理了该市2018年1月份至10月份各月最低气温与最高气温(单位:℃)的数据,绘制了下面的折线图. 已知该城市各月的最低气温与最高气温具有较好的线性关系,则根据折线图,下列结论错误的是() A.最低气温与最高气温为正相关 B.10月的最高气温不低于5月的最高气温 C.月温差(最高气温减最低气温)的最大值出现在1月 D.最低气温低于0 ℃的月份有4个 解析:选D在A中,最低气温与最高气温为正相关,故A正确;在B中,10月的最高气温不低于5月的最高气温,故B正确;在C中,月温差(最高气温减最低气温)的最大值出现在1月,故C正确;在D中,最低气温低于0 ℃的月份有3个,故D错误.故选D. 4.(承德模拟)为了解户籍、性别对生育二胎选择倾向的影响,某地从育龄人群中随机抽取了容量为100的样本,其中城镇户籍与农村户籍各50人;男性60人,女性40人,绘制不同群体中倾向选择生育二胎与倾向选择不生育二胎的人数比例图(如图所示),其中阴影部分表示倾向选择生育二胎的对应比例,则下列叙述中错误的是() A.是否倾向选择生育二胎与户籍有关 B.是否倾向选择生育二胎与性别无关

高中数学必修三 概率与统计

高中数学必修三:概率与统计 1.要从已编号(1-50)的50枚最新研制的某型号导弹中随机抽取5枚来进行发射试验,用每部分选取的号码间隔一样的系统抽样方法确定所选取的5枚导弹的编号可能是( ). A.5,10,15,20,25B.3,13,23,33,43C.1,2,3,4,5D.2,4,8,16,32 2.从鱼塘捕得同一时间放养的草鱼240尾,从中任选9尾,称得每尾鱼的质量分别是1.5,1.6,1.4,1.6,1.3,1.4,1.2,1.7,1.8(单位:千克).依此估计这240尾鱼的总质量大约是( ).A.300克B.360千克C.36千克D.30千克 3.以下茎叶图记录了甲.乙两组各五名学生在一次英语听力测试中的成绩(单位:分) 已知甲组数据的中位数为15,乙组数据的平均数为16.8,则,x y的值分别为()A.2,5B.5,5C.5,8D.8,8 4.为了考查两个变量x和y之间的线性关系,甲、乙两位同学各自独立作了10次和15次试验,并且利用线性回归方法,求得回归直线分别为l1,l2,已知两人得的试验数据中,变量x和y的数据的平均值都分别相等,且值分别为s与t,那么下列说法正确的是( ). A.直线l1和l2一定有公共点(s,t)B.直线l1和l2相交,但交点不一定是(s,t) C.必有直线l1∥l2 D.直线l1和l2必定重合 5..设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(x i,y i)(i=1,2,…,n),用最小二乘法建立的回归方程为$y=0.85x-85.71,则下列结论中不正确的是( ).A.y与x具有正的线性相关关系B.回归直线过样本点的中心(x,y)C.若该大学某女生身高增加1cm,则其体重约增加0.85kgD.若该大学某女生身高为170cm,则可断定其体重比为58.79kg

高中数学统计、统计案例知识点总结和典例

统计 一.简单随机抽样:抽签法和随机数法 1.一般地,设一个总体含有N个个体(有限),从中逐个不放回地抽取n个个体作为样本(n≤N),如果每次抽取时总体内的各个个体被抽到的机会都相等(n/N),就把这种抽样方法叫做简单随机抽样。 2.一般地,抽签法就是把总体中的N个个体编号,把号码写在号签上,将号签放在一个容器中,搅拌均匀后,每次从中抽取一个号签,连续抽取n次,就得到一个容量为n的样本,这种抽样方法叫做抽签法。 抽签法的一般步骤:a、将总体的个体编号。 b、连续抽签获取样本号码。 3. 利用随机数表、随机数骰子或计算机产生的随机数进行抽样,叫随机数表法。 随机数表法的步骤:a、将总体的个体编号。b、在随机数表中选择开始数字。c、读数获取样本号码。 4. 抽签法的优点是简单易行,缺点是当总体的容量非常大时,费时、费力,又不方便,如果标号的签搅拌得不均匀,会导致抽样不公平,随机数表法的优点与抽签法相同,缺点上当总体容量较大时,仍然不是很方便,但是比抽签法公平,因此这两种方法只适合总体容量较少的抽样类型。 二.系统抽样: 1.一般地,要从容量为N的总体中抽取容量为n的样本,可将总体分成均衡的若干部分,然后按照预先制定的规则,从每一部分抽取一个个体,得到所需要的样本,这种抽样的方法叫做系统抽样。 系统抽样的一般步骤: (1)采用随机抽样的方法将总体中的N个个编号。 (2)将整体按编号进行分段,确定分段间隔k=N/n。(k∈N,L≤k). (3)在第一段用简单随机抽样确定起始个体的编号L(L∈N,L≤k)。 (4)按照一定的规则抽取样本,通常是将起始编号L加上间隔k得到第2个个体编号L+K,再加上K得到第3个个体编号L+2K,这样继续下去,直到获取整个样本。 在确定分段间隔k时应注意:分段间隔k为整数,当N/n不是整数时,应采用等可能剔除的方剔除部分个体,以获得整数间隔k。 三.分层抽样: 1.一般地,在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样的方法叫分层抽样。 分层抽样的步骤: (1)分层:按某种特征将总体分成若干部分。(2)按比例确定每层抽取个体的个数。 (3)各层分别按简单随机抽样的方法抽取。(4)综合每层抽样,组成样本。 2.分层抽样是当总体由差异明显的几部分组成时采用的抽样方法,进行分层抽样时应注意以下几点: (1)分层抽样中分多少层、如何分层要视具体情况而定,总的原则是,层内样本的差异要小,面层之间的样本差异要大,且互不重叠。 (2)为了保证每个个体等可能入样,所有层应采用同一抽样比等可能抽样。 (3)在每层抽样时,应采用简单随机抽样或系统抽样的方法进行抽样。 四.用样本的频率分布估计总体分布: 1.频率分布是指一个样本数据在各个小范围内所占比例的大小。一般用频率分布直方图反映样本的频率分布。 其一般步骤为:(1)计算一组数据中最大值与最小值的差,即求极差(2)决定组距与组数(3)将数据分组(4)列频率分布表(5)画频率分布直方图 2.频率分布折线图、总体密度曲线 频率分布折线图:连接频率分布直方图中各小长方形上端的中点,就得到频率分布折线图。

高中数学概率与统计测试题

概率与统计 1.如果一个整数为偶数的 概率为 (1)a+b 为偶数的概率; (2)a+b+c 为偶数的概率。 0.6 ,且 a,b,c 均为整数,求 2.从 10 位同学 (其中 6 女,4 男)中随机选出 3 位参加测验,每位女同学能通过测验的概率 43 均为,每位男同学能通过测验的概率均为,求55 (1)选出的 3 位同学中,至少有一位男同学的概率; (2)10 位同学中的女同学甲和男同学乙同时被选中且通过测验的概率。 3.袋中有 6 个白球, 4 个红球,甲首先从中取出 3 个球,乙再从余下的 7 个球中取出 4 个球,凡取得红球多者获胜。试求 (1)甲获胜的概率; (2)甲,乙成平局的概率。 4.箱子中放着 3 个 1 元硬币, 3 个 5 角硬币, 4 个 1 角硬币,从中任取 3 个,求总钱数超过 1 元 8 角的概率。 5.有 10 张卡片,其号码分别位 1,2,3?,10,从中任取 3 张。 (1)求恰有 1 张的号码为 3 的倍数的概率; (2)记号码为 3 的倍数的卡片张数为ξ,求ξ的数学期望。 6.某种电子玩具按下按钮后,会出现白球或绿球,已知按钮第一次按下后,出现红球与绿球 1 的概率都是,从按钮第二次按下起,若前次出现红球,则下次出现红球、绿球的概率2 1 2 3 2 分别为, ;若前次出现绿球,则下次出现红球、绿球的概率分别为, ,记第 n(n ∈ 3 3 5 5 N,n ≥1) 次按下后,出现红球的概率为P n

(1)求P2的值; (2)当 n∈N,n ≥2 时,求用P n 1表示P n的表达式; (3)求P n关于 n 的表达式。 7.有甲、乙两个盒子 ,甲盒子中有 8 张卡片 ,其中两张写有数字 0,三张写有数字 1 ,三张写有数字 2 ;乙盒子中有 8 张卡片,其中三张写有数字 0,两张写有数字1,三张写有数字 2 , (1) 如果从甲盒子中取两张卡片,从乙盒子中取一张卡片,那么取出的 3 张卡片都写有 1 的概率是多少? (2)如果从甲、乙盒子中各取一张卡片,设取出的两张卡片数字之和为ξ,求ξ的分布列和期望。 8.甲、乙两位同学做摸球游戏,游戏规则规定:两人轮流从一个放有 1 个白球, 3 个黑球, 2 个红球且只有颜色不同的 6 个小球的暗箱中取球,每次每人只取一球,每取出一个后立即放回,另一个人接着取,取出后也立即放回,谁先取到红球,谁为胜者,现甲先取 (1) 求甲摸球次数不超过三次就获胜的概率; (2) 求甲获胜的概率。 9.设有均由 A,B,C 三个部件构成的两种型号产品甲和乙,当A或 B 是合格品并且 C 是合格 品时,甲是正品;当 A, B 都是合格品或者 C 是合格品时,乙是正品。若 A 、 B、C 合格的概率均是 P,这里 A ,B,C 合格性是互相独立的。 (1) 产品甲为正品的概率P1是多少? (2)产品乙为正品的概率P2 是多少? (3)试比较P1与P2的大小。 10.一种电路控制器在出厂时每四件一等品装成一箱,工人在装箱时不小心把两件二等品和两件一等品装入了一箱,为了找出该箱的二等品,我们对该箱中的产品逐一取出进行测试。 (1) 求前二次取出的都是二等品的概率; (2) 求第二次取出的是二等品的概率; (3)用随机变量ξ表示第二个二等品被取出时共取的件数,求ξ的分布列及数学

通用版2020版高考数学大二轮复习专题突破练20统计与统计案例理

专题突破练20 统计与统计案例 1.(2019四川成都二模,理18)为了让税收政策更好地为社会发展服务,国家在修订《中华人民共和国个人所得税法》之后,发布了《个人所得税专项附加扣除暂行办法》,明确“专项附加扣除”就 是子女教育、继续教育、大病医疗、住房贷款利息、住房租金、赡养老人等费用,并公布了相应的定额扣除标准,决定自2019年1月1日起施行.某企业为了调查内部职员对新个税方案的满意程度与年龄的关系,通过问卷调查,整理数据得如下2×2列联表: (1)根据列联表,能否有99%的把握认为满意程度与年龄有关? (2)为了帮助年龄在40岁以下的未购房的8名员工解决实际困难,该企业拟按员工贡献积分x(单位:分)给予相应的住房补贴y(单位:元),现有两种补贴方案,方案甲:y=1 000+700x;方案 乙:y=已知这8名员工的贡献积分为2分,3分,6分,7分,7分,11分,12分,12分,将采用方案甲比采用方案乙获得更多补贴的员工记为“A类员工”.为了解员工对补贴方案的认可度,现从这8名员工中随机抽取4名进行面谈,求恰好抽到3名“A类员工”的概率. 附:K2=-,其中n=a+b+c+d. 参考数据:

2.下图是某地区2000年至2016年环境基础设施投资额y(单位:亿元)的折线图. 为了预测该地区2018年的环境基础设施投资额,建立了y与时间变量t的两个线性回归模型.根据2000年至2016年的数据(时间变量t的值依次为 … 7 建立模型①;=-30.4+13.5t;根据2010年至2016年的数据(时间变量t的值依次为 … 7 建立模型②:=99+17.5t. (1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值; (2)你认为用哪个模型得到的预测值更可靠?并说明理由.

相关主题
文本预览
相关文档 最新文档