第二节用样本估计总体
[最新考纲] 1.了解分布的意义与作用,能根据频率分布表画频率分布直方图、频率折线图、茎叶图,体会它们各自的特点.2.理解样本数据标准差的意义和作用,会计算数据标准差.3.能从样本数据中提取基本的数字特征(如平均数、标准差),并做出合理的解释.4.会用样本的频率分布估计总体分布,会用样本的基本数字特征估计总体的基本数字特征.理解用样本估计总体的思想,会用样本估计总体的思想解决一些简单的实际问题.
1.常用统计图表
(1)作频率分布直方图的步骤:
①求极差(即一组数据中最大值与最小值的差).
②决定组距与组数.
③将数据分组.
④列频率分布表.
⑤画频率分布直方图.
(2)频率分布直方图:反映样本频率分布的直方图(如图)
横轴表示样本数据,纵轴表示频率
组距
,每个小矩形的面积表示样本数据落在该组内的频
率.各小矩形的面积和为1.
(3)频率分布折线图和总体密度曲线
①频率分布折线图:将频率分布直方图中各相邻的矩形的上底边的中点顺次连接起来,就得到频率分布折线图.
②总体密度曲线:随着样本容量的增加,作图时所分的组数增加,组距减小,相应的频率折线图会越来越接近于一条光滑曲线,统计中称这条光滑曲线为总体密度曲线.2.样本的数字特征
(1)众数:一组数据中出现次数最多的那个数据,叫做这组数据的众数.
(2)中位数:把n个数据按大小顺序排列,处于最中间位置的一个数据(或最中间两个数
据的平均数)叫做这组数据的中位数.
(3)平均数:把x =
x 1+x 2+…+x n
n
称为x 1,x 2,…,x n 这n 个数的平均数.
(4)标准差与方差:设一组数据x 1,x 2,x 3,…,x n 的平均数为x ,则这组数据的标准差和方差分别是
s =
1
n
[x 1-x
2
+x 2-x
2
+…+x n -x
2
];
s 2=1
n
[(x 1-x )2+(x 2-x )2+…+(x n -x )2].
[常用结论]
1.频率分布直方图中的常见结论
(1)众数的估计值为最高矩形的中点对应的横坐标.
(2)平均数的估计值等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和.
(3)中位数的估计值的左边和右边的小矩形的面积和是相等的. 2.平均数、方差的公式推广
(1)若数据x 1,x 2,…,x n 的平均数为x ,那么mx 1+a ,mx 2+a ,mx 3+a ,…,mx n +a 的平均数是m x +a .
(2)数据x 1,x 2,…,x n 的方差为s 2
.
①数据x 1+a ,x 2+a ,…,x n +a 的方差也为s 2
; ②数据ax 1,ax 2,…,ax n 的方差为a 2s 2
.
一、思考辨析(正确的打“√”,错误的打“×”)
(1)平均数、众数与中位数从不同的角度描述了一组数据的集中趋势. ( )
(2)一组数据的方差越大,说明这组数据越集中. ( )
(3)频率分布直方图中,小矩形的面积越大,表示样本数据落在该区间的频率越高.
( )
(4) 已知样本数据x 1,x 2,…,x n 的均值x =5,则样本数据2x 1+1,2x 2+1,…,2x n +1的均值为10.
( )
[答案](1)√ (2)× (3)√ (4)× 二、教材改编
1.一个容量为32的样本,已知某组样本的频率为0.25,则该组样本的频数为( ) A .4 B .8 C .12 D .16
B [设频数为n ,则n
32=0.25,
∴n =32×1
4
=8.]
2.若某校高一年级8个班参加合唱比赛的得分分别为87,89,90,91,92,93,94,96,则这组数据的中位数和平均数分别是( )
A .91.5和91.5
B .91.5和92
C .91和91.5
D .92和92
A [∵这组数据为87,89,90,91,92,93,94,96,∴中位数是91+92
2=91.5,
平均数x =87+89+90+91+92+93+94+96
8
=91.5.]
3.(2019·盐城模拟)已知一组数据x 1,x 2,x 3,x 4,x 5的方差是2,则数据2x 1,2x 2,2x 3,2x 4,2x 5
的标准差为 .
22 [由s 2=
1n
(x i -x )2
=2,则数据2x 1,2x 2,2x 3,2x 4,2x 5的方差是8,标准差为2 2.]
4.如图是100位居民月均用水量的频率分布直方图,则月均用水量为[2,2.5)范围内的居民有 人.
25 [0.5×0.5×100=25.]
考点1 样本的数字特征的计算与应用 利用样本的数字特征解决决策问题的依据
(1)平均数反映了数据取值的平均水平;标准差、方差描述了一组数据围绕平均数波动的大小.标准差、方差越大,数据的离散程度越大,越不稳定;标准差、方差越小,数据的离散程度越小,越稳定.
(2)用样本估计总体就是利用样本的数字特征来描述总体的数字特征.
1.(2019·全国卷Ⅱ)演讲比赛共有9位评委分别给出某选手的原始评分,评定
该选手的成绩时,从9个原始评分中去掉1个最高分、1个最低分,得到7个有效评分.7个有效评分与9个原始评分相比,不变的数字特征是( )
A .中位数
B .平均数
C .方差
D .极差
A [设9位评委评分按从小到大排列为x 1 中位数仍为x 5,∴A 正确.] 2.甲、乙两人在一次射击比赛中各射靶5次,两人成绩的条形统计图如图所示,则( ) 甲 乙 A .甲的成绩的平均数小于乙的成绩的平均数 B .甲的成绩的中位数等于乙的成绩的中位数 C .甲的成绩的方差小于乙的成绩的方差 D .甲的成绩的极差小于乙的成绩的极差 C [根据条形统计图可知甲的中靶情况为4环、5环、6环、7环、8环;乙的中 靶情况为5环、5环、5环、6环、9环.x 甲=15(4+5+6+7+8)=6,x 乙=1 5(5×3+6+9) =6,甲的成绩的方差为 4-6 2 +5-6 2 +6-62 +7-6 2 +8-6 2 5 =2,乙的成绩的方差 为 5-6 2 ×3+6-6 2 +9-6 2 5 =2.4;甲的成绩的极差为4环,乙的成绩的极差为4 环;甲的成绩的中位数为6环,乙的成绩的中位数为5环,综上可知C 正确,故选C.] 3.某人5次上班途中所花的时间(单位:分钟)分别为x ,y,10,11,9.已知这组数据的平均数为10,方差为2,则|x -y |的值为( ) A .1 B .2 C .3 D .4 D [由题意可知 ????? 15 x +y +10+11+9=10,15[ x -10 2 +y -10 2 +1+1]=2, ∴??? ? ? x +y =20,x 2 +y 2 =208. ∴(x +y )2 =x 2+y 2 +2xy ,即208+2xy =400,∴xy =96. ∴(x -y )2=x 2+y 2 -2xy =16, ∴|x -y |=4,故选D.] 4.(2019·全国卷Ⅱ)某行业主管部门为了解本行业中小企业的生产情况,随机调查了100个企业,得到这些企业第一季度相对于前一年第一季度产值增长率y 的频数分布表. y 的分组 [-0.20,0) [0,0.20) [0.20,0.40) [0.40,0.60) [0.60,0.80) 企业数 2 24 53 14 7 (1)分别估计这类企业中产值增长率不低于40%的企业比例、产值负增长的企业比例; (2)求这类企业产值增长率的平均数与标准差的估计值(同一组中的数据用该组区间的中点值为代表).(精确到0.01) 附:74≈8.602. [解](1)根据产值增长率频数分布表得,所调查的100个企业中产值增长率不低于40%的企业频率为14+7 100 =0.21. 产值负增长的企业频率为 2 100 =0.02. 用样本频率分布估计总体分布得这类企业中产值增长率不低于40%的企业比例为21%,产值负增长的企业比例为2%. (2)y - =1 100(-0.10×2+0.10×24+0.30×53+0.50×14+0.70×7)=0.30,s 2= = 1100 [(-0.40)2×2+(-0.20)2×24+02×53+0.202×14+0.402 ×7] =0.029 6, s =0.029 6=0.02×74≈0.17, 所以,这类企业产值增长率的平均数与标准差的估计值分别为30%,17%. 方差的简化计算公式:s 2 =1n [(x 21+x 22+…+x 2n )-n x 2],或写成s 2=1 n (x 21+x 2 2+… +x 2n )-x 2 ,即方差等于原数据平方的平均数减去平均数的平方. 考点2 频率分布直方图 频率、频数、样本容量的计算方法 (1)频率 组距 ×组距=频率. (2)频数样本容量=频率,频数频率 =样本容量,样本容量×频率=频数. (1)(2019·益阳模拟)为了了解某校九年级1 600名学生的体能情况,随机抽查了部分学生,测试1分钟仰卧起坐的成绩(次数),将数据整理后绘制成如图所示的频率分布直方图,根据统计图的数据,下列结论错误的是( ) A.该校九年级学生1分钟仰卧起坐的次数的中位数为26.25 B.该校九年级学生1分钟仰卧起坐的次数的众数为27.5 C.该校九年级学生1分钟仰卧起坐的次数超过30的人数约为320 D.该校九年级学生1分钟仰卧起坐的次数少于20的人数约为32 (2)(2019·全国卷Ⅲ)为了解甲、乙两种离子在小鼠体内的残留程度,进行如下试验:将200只小鼠随机分成A,B两组,每组100只,其中A组小鼠给服甲离子溶液,B组小鼠给服乙离子溶液,每只小鼠给服的溶液体积相同、摩尔浓度相同.经过一段时间后用某种科学方法测算出残留在小鼠体内离子的百分比,根据试验数据分别得到如下直方图: 记C为事件:“乙离子残留在体内的百分比不低于5.5”,根据直方图得到P(C)的估计值为0.70. ①求乙离子残留百分比直方图中a,b的值; ②分别估计甲、乙离子残留百分比的平均值(同一组中的数据用该组区间的中点值为代表). (1)D[由频率分布直方图可知,中位数是频率分布直方图面积等分线对应的数值,是 26.25;众数是最高矩形的中间值27.5;1分钟仰卧起坐的次数超过30的频率为0.2,所以估计1分钟仰卧起坐的次数超过30的人数为320;1分钟仰卧起坐的次数少于20的频率为0.1,所以估计1分钟仰卧起坐的次数少于20的人数为160.故D 错误.] (2)[解] ①由已知得0.70=a +0.20+0.15,故 a =0.35. b =1-0.05-0.15-0.70=0.10. ②甲离子残留百分比的平均值的估计值为 2×0.15+3×0.20+4×0.30+5×0.20+6×0.10+7×0.05=4.05. 乙离子残留百分比的平均值的估计值为 3×0.05+4×0.10+5×0.15+6×0.35+7×0.20+8×0.15=6.00. 频率分布直方图的纵坐标是频率 组距,而不是频率,切莫与条形图混淆. [教师备选例题] (2018·全国卷Ⅰ)某家庭记录了未使用节水龙头50天的日用水量数据(单位:m 3 )和使用了节水龙头50天的日用水量数据,得到频数分布表如下: 未使用节水龙头50天的日用水量频数分布表 使用了节水龙头50天的日用水量频数分布表 (1)在下图中作出使用了节水龙头50天的日用水量数据的频率分布直方图: (2)估计该家庭使用节水龙头后,日用水量小于0.35 m 3 的概率; (3)估计该家庭使用节水龙头后,一年能节省多少水?(一年按365天计算,同一组中的数据以这组数据所在区间中点的值作代表) [解](1)如图所示: (2)根据以上数据,该家庭使用节水龙头后50天日用水量小于0.35 m 3 的频率为0.2×0.1+1×0.1+2.6×0.1+2×0.05=0.48, 因此该家庭使用节水龙头后日用水量小于0.35 m 3 的概率的估计值为0.48. (3)该家庭未使用节水龙头50天日用水量的平均数为 x - 1=150(0.05×1+0.15×3+0.25×2+0.35×4+0.45×9+0.55×26+0.65×5)= 0.48. 该家庭使用了节水龙头后50天日用水量的平均数为 x -2=1 50(0.05×1+0.15×5+0.25×13+0.35×10+0.45×16+0.55×5)=0.35. 估计使用节水龙头后,一年可节省水(0.48-0.35)×365=47.45(m 3 ). 1.为了了解某校高三学生的视力情况,随机地抽查了该校100名高三学生的 视力情况,得到频率分布直方图如图,由于不慎将部分数据丢失,但知道后5组频数和为62,设视力在4.6到4.8之间的学生数为a ,最大频率为0.32,则a 的值为( ) A .64 B .54 C .48 D .27 B [前两组中的频数为100×(0.05+0.11)=16.因为后五组频数和为62,所以前三组为 38.所以第三组频数为22.又最大频率为0.32,对应的最大频数为0.32×100=32.所以a =22+32=54.] 2.某城市100户居民的月平均用电量(单位:千瓦时),以[160,180),[180,200),[200,220),[220,240),[240,260),[260,280),[280,300]分组的频率分布直方图如图. (1)求直方图中x 的值; (2)求月平均用电量的众数和中位数; (3)在月平均用电量为[220,240),[240,260),[260,280),[280,300]的四组用户中,用分层抽样的方法抽取11户居民,则月平均用电量在[220,240)的用户中应抽取多少户? [解](1)(0.002+0.009 5+0.011+0.012 5+x +0.005+0.002 5)×20=1,解得x =0.007 5. 即直方图中x 的值为0.007 5. (2)月平均用电量的众数是220+240 2=230. ∵(0.002+0.009 5+0.011)×20=0.45<0.5, (0.002+0.009 5+0.011+0.012 5)×20=0.7>0.5, ∴月平均用电量的中位数在[220,240)内. 设中位数为a ,则0.45+0.012 5×(a -220)=0.5,解得a =224,即中位数为224. (3)月平均用电量在[220,240)的用户有0.012 5×20×100=25(户).同理可得月平均用电量在[240,260)的用户有15户,月平均用电量在[260,280)的用户有10户,月平均用电量在[280,300]的用户有5户,故抽取比例为1125+15+10+5=1 5 . ∴月平均用电量在[220,240)的用户中应抽取25×1 5 =5(户). 1. 何谓点估计与区间估计,它们各有哪些优缺点? 点估计就是总体参数不清楚时,用一个特定的值,即样本统计量对总体参数进行估计,但估计的参数为数轴上某一点。 区间估计是用数轴上的一段距离来表示未知参数可能落入的范围,它不具体指出总体参数是多少,能指出总体未知参数落入某一区间的概率有多大。 点估计的优点是能够提供总体参数的估计值,缺点是点估计总以误差的存在为前提,且不能提供正确估计的概率。 区间估计的优点是用概率说明估计结果的把握程度,缺点是不能确定一个具体的估计值。 2以方差的区间估计为例说明区间估计的原理 根据χ2分布: 总体方差的.95或.99置信区间为: 即总体参数(方差)落入上述区间的概率为1-α,其值为95%或99% 3.总体平均数估计的具体方法有哪些? 总体方法为点估计好区间估计,区间估计又分为: (1) 当总体分布正态方差已知时,样本平均的分布为正态分布,故依据正态分布理论估计其区间;(2)当总体分布正态方差未知时,样本平均数的分布为T 分布,依据T 分布理论估计其区间;(3)当总体非分布正态方差未知时,只有在n 大于30时渐近T 分布,样本平均数的分布渐近T 分布,依据T 分布理论估计其区间。 4总体相关系数的置信区间,应根据何种分布计算? 应根据Fisher 的Z 分布进行计算 5.解 依据样本分布理论该样本平均数的分布呈正态 其标准误为: 其置信区间为: 该科成绩的真实分数有95%的可能性在78.55----83.45之间。 6.解:此题属于总体分布正态总体方差未知的情形,故样本平均数的分布呈T 分布 其标准误为: 用df=99差T 值表,然后用直线内插法求得t α/2=1.987 其置信区间为: 该学区教学成绩的平均值有95%的可能在78.61---81.39之间。 7解:此题属于总体分布正态总体方差已知 计算标准误 ()()222212221σσσχnS S n X X n =-=-=-∑()()22/121222/2111)(ααχσχ----<<-n n S n S n 25.116 5===n x σσ45 .8355.7825.1*96.18125.1*96.1812/2/<<+<<-?+<-μμσμσαα所以:即x x Z X Z X 7.09971==-=n s x n σ39.8161.787 .0*987.1807.0*987.1802/2 <<+<<-+<<-μμσμσαα即:x x t X t X 789.1208===n x σσ506.3171789.1*96.11712 1±=±=±-x z x σα 统计和统计案例 1.该部分常考内容:样本数字特征的计算、各种统计图表、线性回归方程、独立性检验等;有时也会在知识交汇点处命题,如概率和统计交汇等. 2.从考查形式上来看,大部分为选择题、填空题,重在考查基础知识、基本技能,有时在知识交汇点处命题,也会出现解答题,都属于中低档题. 1. 随机抽样 (1)简单随机抽样特点为从总体中逐个抽取,适用范围:总体中的个体较少. (2)系统抽样特点是将总体均分成几部分,按事先确定的规则在各部分中抽取,适用范围:总体中的个体数较多. (3)分层抽样特点是将总体分成几层,分层进行抽取,适用范围:总体由差异明显的几部分组成. 2. 常用的统计图表 (1)频率分布直方图 ①小长方形的面积=组距× 频率 组距 =频率; ②各小长方形的面积之和等于1; ③小长方形的高=频率组距,所有小长方形的高的和为1 组距. (2)茎叶图 在样本数据较少时,用茎叶图表示数据的效果较好. 3. 用样本的数字特征估计总体的数字特征 (1)众数、中位数、平均数 数字特征 样本数据 频率分布直方图 众数 出现次数最多的数据 取最高的小长方形底边中点的横坐标 中位数 将数据按大小依次排列,处在最 中间位置的一个数据(或最中间两个数据的平均数) 把频率分布直方图划分左右两个面积相等的分界线和x 轴交点的横坐标 平均数 样本数据的算术平均数 每个小矩形的面积乘以小矩形底边中点的横坐标之和 (2)方差:s 2=n [(x 1-x )2+(x 2-x )2+…+(x n -x )2 ]. 标准差: s = 1n [ x 1-x 2 +x 2-x 2 +…+x n -x 2 ]. 4. 变量的相关性和最小二乘法 (1)相关关系的概念、正相关和负相关、相关系数. (2)最小二乘法:对于给定的一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),通过求Q = i =1 n (y i -a -bx i )2 最小时,得到线性回归方程y ^ =b ^ x +a ^ 的方法叫做最小二乘法. 5. 独立性检验 对于取值分别是{x 1,x 2}和{y 1,y 2}的分类变量X 和Y ,其样本频数列联表是: y 1 y 2 总计 x 1 a b a +b x 2 c d c +d 总计 a +c b +d n 则K 2 = n ad -bc 2a +b c + d a +c b +d (其中n =a +b +c +d 为样本容量). 考点一 抽样方法 例1 (2012·山东)采用系统抽样方法从960人中抽取32人做问卷调查,为此将他们随机编号为1,2,…,960,分组后在第一组采用简单随机抽样的方法抽到的号码为9.抽到的32人中,编号落入区间[1,450]的人做问卷A ,编号落入区间[451,750]的人做问卷B ,其余的人做问卷C .则抽到的人中,做问卷B 的人数为 ( ) A .7 B .9 C .10 D .15 答案 C 分析 由系统抽样的特点知:抽取号码的间隔为 960 32 =30,抽取的号码依次为9,39,69,…,939.落入区间[451,750]的有459,489,…,729,这些数构成首项为459,公差为30的等差数列,设有n 项,显然有729=459+(n -1)×30,解得n =10.所以做问卷B 的有10人. 在系统抽样的过程中,要注意分段间隔,需要抽取几个个体,样本就需要分 成几个组,则分段间隔即为N n (N 为样本容量),首先确定在第一组中抽取的个体的号码数,再从后面的每组中按规则抽取每个个体.解决此类题目的关键是深刻理解各种抽样 《统计学基础》课程教学大纲 适用专业工商企业管理、市场营销、金融保险、电子商务课程类型职业基础课学分数3 学时数48 第一部分总纲 一、课程性质、教学目的 1.课程性质 统计学基础是为经济与管理学科各专业学生开设的一门必修的重要的专业基础课,也是经济管理工作者和经济研究人员所必备的一门知识。它研究如何用科学的方法去搜集、整理、分析国民经济和社会发展的实际数据,并通过统计所特有的统计指标和指标体系,表明所研究的社会经济现象的规模、水平、速度、比例和效益,以反映社会经济现象发展规律在一定时间、地点、条件下的作用,描述社会经济现象数量之间的联系关系和变动规律,也是进一步学习其他相关学科的基础。 2.教学目的通过教学,培养学生系统地掌握统计工作的基础理论、主要方法和基本技能;以社会经济统计工作的一般原理和原则为主,密切联系实际,培养学生获取信息的能力以及分析问题和解决问题的能力,为从事各项经济工作、财会工作和管理工作奠定分析研究的基础。 3.前导课程与后续课程 该课程的开出一般在经济数学、经济学基础之后。 二、推荐教材及主要参考资料 1. 宋粉鲜,陈世文.《统计学基础》,现代教育出版社,2012年1月。 2. 宋粉鲜,陈世文.《统计学基础——习题与实训》,现代教育出版社,2012年1月。 3. 栗方忠.《统计学原理》,东北财经大学出版社,2011年1月。 4. 栗方忠.《统计学原理标准化题型习题集》,东北财经大学出版社,2011年1月。 5. 马庆国.《管理统计》,科学出版社,2 002年8月。 6. 贾俊平.《统计学基础》,中国人民大学出版社,2006年。 7. Douglas A. Lind, William G. Marchal, Robert D. Ma son. Statistical Techniques in th Business and Economics(11 ed.).中信出版社,2002年。 8. Ron Larson, Betsy Farber. Elementary Statistics.清华大学出版社,2004。 三、大纲执行说明 本课程教学内容包括理论教学和实训教学两部分。 §10.2统计及统计案例 考纲解读 分析解读 从近几年的高考试题来看,本部分在高考中的考查点如下:1.主要考查分层抽样的定义,频率分布直方图,平均数、方差的计算,识图能力及借助概率知识分析、解决问题的能力;2.在频率分布直方图中,注意小矩形的高=频率/组距,小矩形的面积为频率,所有小矩形的面积之和为1;3.分析两个变量间的相关关系,通过独立性检验判断两个变量是否相关.本节内容在高考中分值为17分左右,属中档题. (1)根据频率分布直方图可知,样本中分数不小于70的频率为(0.02+0.04)×10=0.6, 所以样本中分数小于70的频率为1-0.6=0.4. 所以从总体的400名学生中随机抽取一人,其分数小于70的概率估计为0.4. (2)根据题意,样本中分数不小于50的频率为(0.01+0.02+0.04+0.02)×10=0.9, 分数在区间[40,50)内的人数为100-100×0.9-5=5. 所以总体中分数在区间[40,50)内的人数估计为400× =20. (3)由题意可知,样本中分数不小于70的学生人数为(0.02+0.04)×10×100=60, 所以样本中分数不小于70的男生人数为60× =30. 所以样本中的男生人数为30×2=60,女生人数为100-60=40,男生和女生人数的比例为60∶40=3∶2. 所以根据分层抽样原理,总体中男生和女生人数的比例估计为3∶2. 五年高考 考点一 抽样方法 1.(2015北京,4,5分)某校老年、中年和青年教师的人数见下表.采用分层抽样的方法调查教师的身体状况,在抽取的样本中,青年教师有320人,则该样本中的老年教师人数为( ) 《 统计预测与决策 》课程教学大纲 Statistical Forecasting and Decision Making 课程代码: 课程性质:专业方向理论课/选修 适用专业:统计 开课学期:7 总学时数:56 总学分数:3.5 编写年月:2007.5 修订年月:2007.7 执 笔:邹辉 一、课程的性质和目的 本课程教学目的在于向学生系统阐述有关统计预测与决策方面的基本知识和一般原理,使学生对统计预测和决策的基本概念、基本方法及其应用有系统地理解和掌握。同时,更为重要的是,通过阐述国内外统计预测和决策方法在经济、金融和管理等领域的综合应用,加深学生对本课程内容的理解和认识,提高学生综合运用统计预测和决策方法以解决现实问题的能力。 二、课程教学内容及学时分配 第一章 统计预测概述(4学时) 本章内容:统计预测的概念和作用,统计预测方法的分类和选择,理解统计预测的步骤本章要求:了解统计预测的概念和作用,统计预测方法的分类和选择,理解统计预测的步骤 第二章 定性预测法(4学时) 本章内容:定性预测概念,定性预测特点,定性预测和定量预测的关系,定性预测的集中主要方法。 本章要求:了解定性预测概念,定性预测特点,定性预测和定量预测的关系,理解定性预测的集中七种主要方法。 第三章 回归预测法(6学时) 本章内容:一元线性回归预测法,多元线性回归预测法,非线性回归预测法、应用回归预测法时应注意的问题。 本章要求:了解非线性回归预测法、应用回归预测法时应注意的问题。理解一元线性回归预测法是指成对的两个变量数据分布大体上呈直线趋势时,运用合适的参数估计方法,求出一元线性回归模型,然后根据自变量与因变量之间的关系,预测因变量的趋势;理解多元线性回归预测法是包括两个或两个以上自变量的回归。多元回归与医院回归类似,可以用最小二乘法估计模型参数,也需对模型及模型参数进行统计检验。 第四章 时间序列的分解法和趋势外推法(6学时) 本章内容:时间序列的分解,时间序列分解模型,趋势外推法。 本章要求:了解经济时间序列的变化受到长期趋势、季节变动和不规则变动这四个因素的影响,了解乘法模型分解的基本步骤,理解选择合适的趋势模型是应用趋势法的重要环节,图形识别和差分法是选择趋势模型的两种基本方法。 第五章 时间序列平滑预测法(6学分) 本章内容: 一次移动平均法和一次指数平滑法,线性二次移动平均法和线性二次指数平滑法,布朗二次多项式(三次)指数平滑法,温特线性和季节性指数平滑法。 本章要求:了解布朗二次多项式(三次)指数平滑法,温特线性和季节性指数平滑法,理解一次移动平均法和一次指数平滑法,线性二次移动平均法和线性二次指数平滑法。 第六章 自适应过滤法(6学分) 本章内容:自适应过滤法的概念与特点,使用自适应过滤法应选择好滤波常数k,对原始数列做标准化处理。 本章要求:了解自适应过滤法优点,使用计算机来进行自适应过滤法的计算掌握自适应过 现代心理与教育统计学 复习资料 Revised as of 23 November 2020 1、数据类型 称名数据 计数数据离散型数据 顺序数据 等距数据 测量数据连续型数据 等比数据 2、变量:是可以取不同值的量。统计观察的指标都是具有变异的指标。当我们用一个量表示这个指标的观察结果时,这个指标是一个变量。 用来表示随机现象的变量,称为随机变量。一般用大写的X或Y表示随机变量。 随机变量所取得的值,称为观测值。一个随机变量可以有许多个观测值。 3、需要研究的同质对象的全体,称为总体。 每一个具体研究对象,称为一个个体。 从总体中抽出的用以推测总体的部分对象的集合称为样本。 样本中包含的个体数,称为样本的容量n。 一般把容量n ≥30的样本称为大样本;而n <30的样本称为小样本。 4、统计量和参数 5、统计误差 误差是测得值与真值之间的差值。 统计误差归纳起来可分为两类:测量误差与抽样误差。 由于使用的仪器、测量方法、读数方法等问题造成的测得值与真值之间的误差,称为测量误差。 由于随机抽样造成的样本统计量与总体参数间的差别,称为抽样误差 第二章 一、数据的整理 在进行整理时,如果没有充足的理由证明某数据是由实验中的过失造成的,就不能轻易将其排除。对于个别极端数据是否该剔除,应遵循三个标准差法则。 二、 次数分布表 (一)简单次(频)数分布表 (二)相对次数分布表 将次数分布表中各组的实际次数转化为相对次数,即用频数比率(f /N )或百分比( )来表示次数,就可以制成相对次数分布表 (三)累加次数分布表 (四)双列次数分布表 双列次数分布表又称相关次数分布表,是对有联系的两列变量用同一个表表示其次数分布。 所谓有联系的两列变量,一般是指同一组被试中每个被试两种心理能力的分数或两种心理特点的指标,或同一组被试在两种实验条件下获得的结果。 三、次数分布图 使一组数据特征更加直观和概括,而且还可以对数据的分布情况和变动趋势作粗略的分析。 简单次(频)数分布图——直方图、次数多边形图 累加次数分布图——累加直方图、累加曲线 (一)简单次数分布图--直方图 (二)简单次数分布图-次数多边图 %100 N f 《多元统计分析》实验教学大纲 大纲制定时间: 2008 年3 月 课程名称:多元统计分析(Multivariate Statistical Analysis)课程负责人:钟波 课程分类:专业课程课程类型:选修 适用专业:信息与计算科学 课程总学时:54 课程总学分:3 实验学时: 28(上机) 实验学分: 1 开课单位:数理学院 一、实验的目的及要求 多元统计分析是数理统计学的一个重要分支,具有很强的应用性,它在自然科学、社会科学和经济管理等各领域中得到了越来越广泛的应用,是一种非常有用的数据处理方法。实验中将重点介绍:多元统计的最具有实用性的内容:相关分析;回归分析;聚类分析;判别分析;主成分分析;因子分析;典型相关分析等。 鉴于目前计算机已是多元统计分析应用中不可缺少的工具,本课程特别注意把各种多元统计算法实现,使得给出的算法更有实用的价值.为此,我们在论述算法思想时就引进易于化为计算步骤的数学式子和符号,并在计算步骤中采用了相关计算机软件.此外,本课程在讲清各种方法的实际背景和数学思想的同时,对每种方法都给出具体应用实例。 二、实验项目与内容提要: 三、教材(讲义、指导书): 《多元统计分析》,于秀林,任雪松编著,中国统计出版社,1999.8 参考书: 1.《SPSS统计分析》,郑海涛编著,机械工业出版社出版社,2003 2.《SPSS for Windows统计产品和服务解方案教程》,洪楠编著,清华大学出版社,北方交通大学出版社,2003年 3.《SPSS 11 统计分析教程,基础篇》,张文彤编著,北京希望电子出版社,2002.6 4.《SPSS for Windows 统计分析教程》,洪楠编著,电子工业出版社,2000年 四、考核方式: (一)考核方式 平时实验考核和期末总考试相结合。 (二)考核成绩的确定 平时根据学生预习、操作、实验结果、实验态度和实验报告情况,给每位学生打一个成绩,待全部实验结束时,给出一个平时成绩,占总成绩40%。期末考试采用笔试的方法。笔试题题占20%,期末考试成绩为总成绩的70%。 大纲制定人:钟波 大纲审定人:曾理 第一章 1、数据类型 称名数据 计数数据离散型数据 顺序数据 等距数据 测量数据连续型数据 等比数据 2、变量:是可以取不同值的量。统计观察的指标都是具有变异的指标。当我们用一个量表示这个指标的观察结果时,这个指标是一个变量。 用来表示随机现象的变量,称为随机变量。一般用大写的X或Y表示随机变量。 随机变量所取得的值,称为观测值。一个随机变量可以有许多个观测值。 3、需要研究的同质对象的全体,称为总体。 每一个具体研究对象,称为一个个体。 从总体中抽出的用以推测总体的部分对象的集合称为样本。 样本中包含的个体数,称为样本的容量n。 一般把容量n ≥30的样本称为大样本;而n <30的样本称为小样本。 4、统计量和参数 5、统计误差 误差是测得值与真值之间的差值。 测得值=真值+误差 统计误差归纳起来可分为两类:测量误差与抽样误差。 由于使用的仪器、测量方法、读数方法等问题造成的测得值与真值之间的误差,称为测量误差。 由于随机抽样造成的样本统计量与总体参数间的差别,称为抽样误差 第二章 一、数据的整理 在进行整理时,如果没有充足的理由证明某数据是由实验中的过失造成的,就不能轻易将其排除。对于个别极端数据是否该剔除,应遵循三个标准差法则。 二、次数分布表 (一)简单次(频)数分布表 (二)相对次数分布表 将次数分布表中各组的实际次数转化为相对次数,即用频数比率(f /N )或百分比( )来表示次数,就可以制成相对次数分布表 %100 N f (三)累加次数分布表 (四)双列次数分布表 双列次数分布表又称相关次数分布表,是对有联系的两列变量用同一个表表示其次数分布。所谓有联系的两列变量,一般是指同一组被试中每个被试两种心理能力的分数或两种心理特点的指标,或同一组被试在两种实验条件下获得的结果。 三、次数分布图 使一组数据特征更加直观和概括,而且还可以对数据的分布情况和变动趋势作粗略的分析。 简单次(频)数分布图——直方图、次数多边形图 累加次数分布图——累加直方图、累加曲线 (一)简单次数分布图--直方图 (二)简单次数分布图-次数多边图 次数分布多边形图是一种表示连续性随机变量次数分布的线形图,属于次数分布图。凡是等距分组的可以用直方图表示的数据,都可用次数多边图来表示。 绘制方法:以各分组区间的组中值为横坐标,以各组的频数为纵坐标,描点;将各点以直线连接即构成多边图形。 (三)累加次数分布图—累加直方图 (四)累加次数分布图——累加曲线 四、其他统计图表 条形图:用直条的长短来表示统计项目数值大小的图形,主要是用来比较性质相似的间断型资料。 圆形图:是用于表示间断型资料比例的图形。圆形的面积表示一组数据的整体,圆中扇形的面积表示各组成部分所占的比例。各部分的比例一般用百分比表示。 高考数学统计与统计案例1.小吴一星期的总开支分布如图 1 所示,一星期的食品开支如图 2 所示,则小吴一星期的鸡蛋开支占总开支的百分比为() A.1%B.2%C.3%D.5% C[ 由图 1 所示,食品开支占总开支的 30%,由图 2 所示,鸡蛋开支占食 品开支的30 = 1 , 30+40+100+80+ 50 10 1 ∴鸡蛋开支占总开支的百分比为30%×10=3%.故选 C.] 2.(2019 德·州模拟 )某人到甲、乙两市各7 个小区调查空置房情况,调查得到的小区空置房的套数绘成了如图所示的茎叶图,则调查中甲市空置房套数的中位数与乙市空置房套数的中位数之差为() A.4B. 3C.2D.1 B[ 由茎叶图可以看出甲、乙两市的空置房的套数的中位数分别是79,76,因此其差是 79- 76=3,故选 B.] 3.某工厂对一批新产品的长度(单位: mm)进行检测,如图是检测结果的频现代心理与教育统计学第07章习题解答
(典型题)高考数学二轮复习-知识点总结-统计与统计案例
《统计学基础(第2版)》教学大纲
高考数学统计及统计案例
《统计预测与决策》课程教学大纲
现代心理与教育统计学复习资料
《多元统计分析》实验教学大纲
现代心理与教育统计学复习资料
高考数学统计与统计案例.doc