第四章 常用统计量及其应用
第一节 平均数与标准差的概念
一、平均数
反映一组性质相同的观测值的平均水平或集中趋势的统计量,其数学定义为
n
x 1=
∑=n
i i
x
1
平均数在一定程度上代表一组数据的整体水平,体育工作中,常用这一概念来反映事物的某些特征。
例如,某中学的体育平均达标率,学生的平均身高,年龄某地区高考体育加试平均分数等等。 二、标准差
样本平均数描述数据的集中趋势,反映样本数据的平均水平。但是,平均数对整体的代表性是有条件的。
例如,吉斯莫先生经营一家工厂,规模不大,现欲招聘一名工人,汤姆先生参加面试,老板告诉他,本厂全体人员的工资入平均每人每周300元,汤姆一听,欣然接受,上班一天后,来找老板,声称受骗,老板算了一笔帐,汤姆听了无话可说。
平均工资 300元/周
说明:该厂平均工资尽管较高,但由于各个工资相差太大,平均数对整体的代表性较差。这就说明在实际应用中,仅有平均数是不够的,还要考虑到数据的离散程度。在数据相对比较集中时,平均数才具有代表性。
反映样本离散程度的统计量,称之为标准差
设样本观测值为21,x x …,n x 平均数为x ,看看如何来定量计算标准差? 样本的离散程度自然是相对平均数x 而言的为此构造出
)(1
x x i n
i -∑
=
但上式各项有正有负,正负抵消
)(1
x x i n
i -∑
==0
所以要反映离散程度的大小可以让上式各项加以绝对值或求平方,但带绝对值后不便于处理,所以,选择后者从而有
21
)(x x i n
i -∑
=
上式与样本含量的大小有关,所以,求平均的
n
121
)(x x i n
i -∑
=
在实际应用中,上式对总体离散程度的估计往往偏小若以自由度(1-n )代替n ,则是无偏的因此,构造
221
?)(11s x x n i n
i =--∑= 上式中2
s 称为样本方差,还原成原来的量纲 则有
21
)(11x x n S i n
i --=
∑= S 称为标准差,反映样本的离散程度。 结束语:
样本平均数反映样本数据的整体水平,但是要结合标准差,标准差反映样本数据的离散程度对于运动成绩,表现为成绩的稳定性。
第6次课(3学时)
教学目的:通过本次课的教学,使学生了解平均数和标准差在体育中的具体应用,掌握利用
平均数和标准差制定评分评价标准的方法。
教学内容:平均数和标准差在体育中的应用 1.标准百分 2.累进计分
3.离差法制定评价标准 4.在制定离差评价表中的应用
教学重点:1.标准百分和累进计分的计分思想 2.离差评价表的制定过程
教学难点:累进计分法
教学内容的组织安排:标准百分和累进计分是体育统计的重要内容,在体育评分和评价中有
重要应用,为了让学生在实际工作中能正确地运用,教学中重点讲授计分思想,让学生掌握两种计分方法的实质。教学方法上,采用“探索式”教学教师提出想法,启发学生积极思维,探索出计分公式。
离差法制定评分价标准,主要借助于正态分布的概率计算,前面已学过,举一个例子讲解说明即可。
离差评价表的制定,纯属应用内容,简单、直观、举一个例子说明制表过程,学生即可接受。
需要强调,以上计分和评价方法的应用条件和各自的优点及缺点。 开始语
平均数和标准差是体育统计中两个重要的统计量,上次课学习了计算方法,本次课介绍它们在体育领域里的应用。
第二节 平均数和标准差在体育中的应用
平均数和标准差在体育中的应用很广,这里列举7个主要方面,分别加以介绍 一、标准百分(T分)
在体育工作中,人们得到的数据资料往往是体育项目的成绩,不便于对个体进行评价。加之,体育项目种类繁多,各项目的性质也相差较大,这给综合评价带来很大的不便。于是产生了体育计分方法,标准百分计分法就是其中的一种。 (一)标准百分的计分思想
设随机变量x 服从正态分布),(2
σu N ,则由正态分布的知识可知 %95)96.1u x 96.1u (P =σ+<<σ- %99)58.2u x 58.2u (P =σ+<<σ-
即:x v r ??落在区间σ±58.2u 内的概率99%换句话说,来自总体的样本观测值(n 21x x ,x ?)中绝大部分都落在σ±3u 范围内,因此计分范围可以取σ3±u ,其中u 和
σ未知,可用样本平均数x 和标准差S 代替,从而计分范围可定为S x 3±(定为S 4x ±或
S 5x ±也行、但太大了不妥,也没有必要)
标准百分的计分方法是在范围S x 3±内均匀计分,两端点分别计零分或满分x 点计50分
(二)标准百分的计分公式
由上可知,区间S x 3±内单位长度的分值为S
6100
从而对于某个观测值1x 其标准百分为
田赛:S x
x 610050S 6100)x x (50T --+=-+= 径赛:S
x
x 610050S 6100)x x (50T ---=--= 若计分范围定为S 5x ±,则标准百分为
田赛:S )
x x (1050T -+=
径赛:S
)
x x (1050T --=
需要注意,原始变量必须是正态分布
例4.4已知某年级男生跳远成绩m 40.0S ,m 20.5x ==,其中甲成绩为m 85.5乙成绩为m 48.4试求他们的标准百分。
解:跳远成绩服从正态分布记为),(~2σu N x ,u 和σ分别用x 和S 代替,则可认为该年级男生的跳远成绩几乎都落在S 3x ±范围内,所以,在区间S 3x ±内计分。 根据上面计分公式,可的
08.7740.06)20.585.5(10050S x
x 610050T =?-?+=-+=甲
2040
.06)
20.548.4(10050T =?-?+
=乙 二、累进计分 (一)累进计分的思想
标准百分有简单、直观、使用方便的优点。但由于该计分方法采用均匀计分,分值处理一样,没有与项目的难度联系起来,因此,不利于应用。在体育领域内,难度越大处分值应当越高,即分数随成绩的提高呈曲线上升,这就是累进计分的基本思想。 通常采用二次曲线 b ax y 2+=
(二)累进计分公式 由于体育项目多种多样,田赛和径赛项目情况不同,为了统一起见,将原始变量进行处
理。
设原始变量服从正态分布,样本平均数和标准差分别x 和S ,先对原变量x 作如下变换
田赛:S x
x u -=
径赛:S
x
x u -=
以上u 值有正有负,为了克服负值的干扰,再作变换
u D +=5(解释原因)
现以D 值为自变量,分数y 为因变量,建立二次曲线 Z +=2kD y
其中k 和Z 为待定常数。
为了确定计分公式,需要根据具体问题设定基分点和满分点,从而建立方程组
???
??Z
+=Z +=2
22211kD y kD y
解出k 和Z ,即得到累进计分公式 Z +=2kD y
例4.5已测得某年级男生跳远成绩m 40.0S ,m 20.5x ==若规定S x -位置为60分,
S 3x +位置为100分,甲、乙两人的成绩分别为m 64.5和m 78.4试按累进计分法计算他们
的分数。
解:两个位置S x -和S 3x +的D 值分别为 4D 1= 8D 2= 根据题设,得方程组
?????Z +=
Z +=k 8100k 4602
2
解得 67.46,83.0k =Z = 从而累进计分公式为 67.46D 83.0y 2+= 甲、乙两人的累进分数 甲:1.640
.020
.564.55S x 5D 11=-+=π-+
= 7867.46)1.6(83.067.46D 83.0y 22
11=+?=+=
乙:95.340
.020
.578.45D 2=-+
=
6067.46)95.3(83.0y 22=+?= 注意:原始变量必须呈正态分布 三、离差法制定评分评价标准
利用样本均数和标准差来制定评分、评价标准的方法习惯上称为离差法。
常见的用离差法制定等级标准的方法是:先根据具体情况规定各等级的人数比例,如优
秀10%,良好20%,中等30%,及格32%,不及格8%再根据正态分布的知识,计算出各等级的成绩标准。
例4.6现有一组男生200m 跑成绩26x =秒,4.0S =秒,原始变量基本服从正态分布,若规定12%的人为优秀,20%为良好,30%为中等,30%及格,8%不及格,试求各等级的标准。
解:1.设优秀与良好的分界值为1x ,根据题设,有 12.0)x x (P 1=≤ 将原始变量标准化 得 12.0)S
x
x S x x (
P 1=-=- 查标准正态分布表,可得
17.1S
x
x 1-=- 解和5.2540.017.126S 17.1x x 1=?-=-= 2.设良好与中等的分界值为2x ,则 32.020.012.0)x x (P 2=+=≤ 将x 标准化并查表,得
47.0S
x
x 2-=- 解得8.2540.047.026S 47.0x x 2=?-=-= 3.同理可求得其它标准(留给学生课后完成) 中等标准:1.26x ≤ 及格标准:6.26x ≤
离差法要求原始变量服从正态分布。 四、制定离差评价表
在中学体育工作中,教师可以针对学生的整体成绩利用离差法制定各项目的综合评价表,在表中,各项目分上等、中上、中等、中下、和下等五个等级,各等级的计分标准为: 上等:S 2x +以上 中上:S 2x ~S x +- 中等:S x ~S x +- 中下:S x ~S 2x +- 下等:S 2x -以下
例4.7测得某校初三年级女生身高cm 154x 1=,S 1=5cm ;60m 跑S 2.11x 2=,S 2=0.8S ,体重kg 45x 3=,S 3=5kg ;铅球cm 500x 4=,S 4=45cm ;胸围cm 74x 5=,S 5=4cm ;跳高cm 96x 6=,S 6=10cm ;肺活量mL 2202x 7=,S 7=364mL ;400m 跑S 92x 8=,S 8=9S 经检验,上述各项指标服从正态分布,试根据该资料制定离差评价表。如果某学生各项指标值如下:cm 159x 1=,x 2=12S ,x 3=48kg ,x 4=480cm ,x 5=76cm ,x 6=97cm ,x 7=2.360mL ,x 8=102S ,试对该生进行综合评价。 解:离差评价表如下
身 高
60m 跑 体 重
铅 球
胸 围
跳 高
肺 活
400m 跑
结束部分:
总结标准百分和累进计分的计分思想以及适用条件。
第7次课(3学时)
教学目的:通过本次课的教学使学生了解平均数和标准差在体育中的另外一些应用,掌握变
异系数和百分位数的概念及其应用。
教学内容:1.平均数和标准差的应用 (1)稳定性研究 (2)选派参赛运动员 (3)人数估计研究 2.百分位数及其应用 教学重点:1.变异系数的概念及其应用 2.百分位数的概念及其应用 教学难点:百分位数的计算 教学内容的组织安排:
1.平均数和标准差的应用,上次课讲了四个方面,本次课再介绍三个方面的应用,其中稳定性研究和选派参赛运动员两方面内容,在体育工作中具有重要实用价值。变异系数的
2x -x -x
x +x +
概念在一般教材中是作为一个新概念单独介绍的。但是我们将其作为平均数和标准差的应用结果,这样更有利于学生对概念的理解,便于比较,而且突出应用。
2.百分位数也是体育统计中的重要统计量由于它对总体分布没有明确要求,因此,在体育评价中具有广泛的应用。其实,百分数的概念本身和运用都很简单直观,较困难的是其计算,教科书中都是直接给出计算公式,这样学生无法理解,也将难以运用。本次课教学中,拟针对一个实例,引导学生导出百分位数的计算公式,使学生在探索过程中掌握内容的实质。培养学生独立分析问题和解决问题的能力。 开始部分:
带学生一起复习平均数和标准差的应用。 五、稳定性研究
样本标准差可用来比较单位相同,平均数相近的几组数据的离散程度,但对于如下两种情况,则无法比较。 1.单位不同
2.单位相同,平均数相差较大。
故引进描述变异程度的另一统计量――变异系数定义为 %100X
S
CV =
利用变异系数,不同项目之间可以比较其离散程度。
例 4.8测得某运动员百米跑和跳运两项目的20次成绩经初步计算,S 12x :m 1001=,S 1=0.15S ,跳远:m 9.5x 2=,S 2=0.18m 试比较差运动员两个项目的稳定性。 解:计算两项目的变异系数 %25.1%10012
15.0%100x S CV 11=?=?=
%05.3%1009
.518.0%100x S CV 222=?=?=
21CV CV <
故可认为百米跑成绩较稳定。 六、选派参赛运动员
例4.9某教练员要从两名标枪运动员中选派一个参加比赛,现有两人近期训练成绩如下: 甲:40.50 41.26 40.44 39.62 40.12 42.10 39.84 40.18 38.70 39.54 乙:40.48 42.88 40.50 39.50 38.00 43.32 38.72 41.82 36.84 40.24 试根据不同比赛状况选派参赛队员
解:经计算945.0S ,23.40x ==甲甲 23.40x =乙,04.2S =乙
最好成绩甲:42.10m 乙:43.32m
若比赛级别高,估计他们的平均成绩就得到好名次,则可派甲队参赛;
若比赛级别高,对手的实力较强,两名队员只有在发挥最好成绩时才有可能取得名次,则可选派乙队员参赛。 七、人数的估计研究
例4.10已测得某大学生男生跳远成绩的平均数,m 20.5x =标准差m 15.0S =原始变量
基本呈正态分布,该校男生共1500人,试分别估计跳远成绩在m 50.5以上,
m 30.5至m 50.5之间,m 9.4以下的人数。
解:跳远成绩2)15.4,20.5(N ~x )215
.020
.5x (
P 1)50.5x (P 1)50.5x (P <--=<-=≥
0228.09772.01=-=
)30.5x (P )50.5x (P )50.530.5(P <-<=?<.
)67.015
.020
.5x (P )215.020.5x (
P <--<-=
2286.07486.09772.0=-
0228.0)215
.020
.5x (
P )9.4x (P =-<-=< 故成绩在5.50m 以上的人数:340228.01500=?(人)
成绩在5.30至5.50之间人数:3432286.01500=?(人) 成绩在4.90m 以下的人数:340228.01500=?(人)
第三节 百分位数及其应用
利用平均数和标准差进行体育评分、评价时,均要求原始变量服从正态分布,如果总体不服从正态分布,或总体分布不明时则不能运用平均数和标准差进行评分评价,应用百分位数来描述。 一、百分位数的概念
将一组数据从小到大依次排列,并将数列100等分,与第H 等分相对应的数,称为第H 百分位数,记用PH ,H 称为PH 的位置百分,第50百分位数就是中位数,中位数是百分位数的一个特列。
例如,现有1000个数据,按从小到大的次序排列后,得到数据
(1x ,2x ,…,10x ,10009005001002011?,?,?,?,?,x x x x x x ) 则第1百分位数为10x ,即101x P =
,x P 202= 50050x P =, 900
90x P = 10x 的位置百分为1H =,20x 的位置百分为2 500x 的位置百分为50,900x 的位置百分为90,计算公式为:k x 的位置百分 10
100
1000
100
k k
n k H ==
=
在H P 前面有%H 的数
百分位数与位置百分互为数学运算 二、百分位数的计算
设原始资料已整理成频数分布表
例4.11某年龄组150名男生60m 跑成绩的频数分布表如下(表4.3)试求5P
计算百分位数的思想是:频数分布表已将数据从小到大依次排列各组内的数设想在组内均匀分布,5P 即对应5%位置的数,(带学生一起计算出5P )总结步骤 1.确定H P 所在的组(根据累计频率) 例如5P 位于第2组 2.确定H P 在组内的位置
5.52150100
H
=-? 3.计算组内数据问题
f
I
例如第2组组内数据问题为8
3.0 4.H P 的计算公式
)F n 100
H (f I L P H -+= 例如,80)2100
5150(83.08.7P 5=-??+= 根据公式易算出 2.8)1010010150(223.01.8P 10=-??+= 5.8)3210025
150(313.04.8P 25=-??+=
8.8)6310050
150(423.07.8P 50=-??+=
1.9)10510075
150(6.23.00.9P 75=-??+=
4.9)131100
90
150(123.03.9P 90
=-??+=
根据H P 的计算公式易知,数据x 的位置百分 n
100
F )L x (I f H ?
??????+-=
例如,S 9.8x =位于第5组,63F ,42f ,7.8L ===
7.60150
100
63)7.89.8(3.042H =?????
??+-?= 例11.4'(本教54P ) 三、百分位数在综合评价中的应用
位置百分,可用于分布不明或非正态分布的总体的计分在体质综合评价中,常根据百分位数划分等级标准。
若规定五个级的百分比分别为10%,15%,50%,15%,10%则10P 25P 75P 40P 即是各等级的临界值。
10P 以下 下等; 2510P ~P 中下; 7525P ~P 中等; 9075P ~P 中上; 90P 以上 上等 若径赛项目,则倒过来。
例如,对于例4.11,可划分为五个等级
S
4.9以上为下等
9.1~9.4S为中下
8.5~9.1S为中等
8.2~8.55为中上
8.2S以下为上等
结束部分:
总结平均数、标准差和百分位数的意义和应用,注意各自的优点。
北京工业大学经济与管理学院2007-2008年度 第一学期期末 应用统计学 主考教师 专业: 学号: 姓名: 成绩: 1 C 2 B 3 A 4 C 5 B 6 B 7 A 8 A 9 C 10 C 一.单选题(每题2分,共20分) 1. 在对工业企业的生产设备进行普查时,调查对象是 A 所有工业企业 B 每一个工业企业 C 工业企业的所有生产设备 D 工业企业的每台生产设备 2. 一组数据的均值为20, 离散系数为0.4, 则该组数据的标准差为 A 50 B 8 C 0.02 D 4 3.某连续变量数列,其末组为“500以上”。又知其邻组的组中值为480,则末组的组中值为 A 520 B 510 C 530 D 540 4. 已知一个数列的各环比增长速度依次为5%、7%、9%,则最后一期的定基增长速度为 A .5%×7%×9% B. 105%×107%×109% C .(105%×107%×109%)-1 D. 1%109%107%1053 5.某地区今年同去年相比,用同样多的人民币可多购买5%的商品,则物价增(减)变化的百分 比为 A. –5% B. –4.76% C. –33.3% D. 3.85%
6.对不同年份的产品成本配合的直线方程为x y 75.1280? -=, 回归系数b= -1.75表示 A. 时间每增加一个单位,产品成本平均增加1.75个单位 B. 时间每增加一个单位,产品成本平均下降1.75个单位 C. 产品成本每变动一个单位,平均需要1.75年时间 D. 时间每减少一个单位,产品成本平均下降1.75个单位 7.某乡播种早稻5000亩,其中20%使用改良品种,亩产为600 公斤,其余亩产为500 公 斤,则该乡全部早稻亩产为 A. 520公斤 B. 530公斤 C. 540公斤 D. 550公斤 8.甲乙两个车间工人日加工零件数的均值和标准差如下: 甲车间:x =70件,σ=5.6件 乙车间: x =90件, σ=6.3件 哪个车间日加工零件的离散程度较大: A 甲车间 B. 乙车间 C.两个车间相同 D. 无法作比较 9. 根据各年的环比增长速度计算年平均增长速度的方法是 A 用各年的环比增长速度连乘然后开方 B 用各年的环比增长速度连加然后除以年数 C 先计算年平均发展速度然后减“1” D 以上三种方法都是错误的 10. 如果相关系数r=0,则表明两个变量之间
统计学基本概念 13.3常用统计量 统计量 设想你参加了一次考试,在知道自己得到了78分后,希望了解自己的成绩在班级上处于什么水平。你会怎样做? 你对自己未来工作收入的预期是什么? 定义:设,,,12n X X X 为取自某总体的样本,若样本函数(),,,12n T T X X X = 中不含有任何未知参数,则称T 为统计量。统计量的分布称为抽样分布。********************************************************** 强国知十三数:境内仓口之数,壮男壮女之数,老弱之数,官士之数,以言说取食者之数,利民之数,马牛刍藁之数。欲强国,不知国十三数,地虽利,民虽众,国愈弱至削。国无怨民曰强国。兴兵而伐,则武爵武任,必胜;按兵而农,粟爵粟任,则国富。兵起而胜敌,按兵而国富者,王。 (秦·商鞅《商君书》) 商鞅(前390~前338年),卫国家,思想家,著名法 家代表人物。应秦孝公求贤令入秦,说服秦孝公变法图强。孝公死后,受到贵族诬害以及秦惠文王的猜忌,车裂而死。其在秦执政二十余年,秦国大治,史称“商鞅变法”。 **********************************************************
统计量是对样本的一种加工。常用的统计量有样本均值、样本方差等。 定义设,,,12n X X X 为取自某总体的样本,则12n X X X X n +++= =1 1n i i X n =∑称为样本均值。 定理设,,,12n X X X 是来自某个总体X 的样本,X 为样本均值, (1)若总体()2,~σμN X ,则~,2X N n σμ?? ?? ?;证明:,,,12n X X X 相互独立,()2~,1,2,k X N k n μσ= ()()()1212n n E X E X E X X X X n E n n n μμ++++++??=== ??? ()()()22121222n n Var X Var X Var X X X X n Var n n n n σσ++++++??=== ??? (2)若总体分布不是正态分布,已知()μ=X E ,()2σ=X D ,则n 较大时,X 的渐近分布为??? ? ??n N 2,σμ,常记为~,2X N n σμ?? ??? 。**********************************************************定义设,,,12n X X X 是来自某个总体X 的样本,X 为样本均值,则 ()22 111n i i S X X n ==--∑称为样本方差。定理设总体X 具有二阶中心矩,()μ=X E ,()2Var X σ=<+∞,,,,12n X X X 为来自该总体的样本,X 和2S 分别是样本均值和样本方差,则()22E S σ=。样本方差是总体方差的无偏估计,样本均值是总体期望的无偏估计。**********************************************************
应用统计学试题及答案 LG GROUP system office room 【LGA16H-LGYY-LGUA8Q8-LGA162】
二、单项选择题(每题1分,共10分) 1.重点调查中的重点单位是指( ) A.处于较好状态的单位 B.体现当前工作重点的单位 C.规模较大的单位 D.在所要调查的数量特征上占有较大比重的单位 2.根据分组数据计算均值时,利用各组数据的组中值做为代表值,使用这一代表值的假定条件是()。 A.各组的权数必须相等 B.各组的组中值必须相等 C.各组数据在各组中均匀分布 D.各组的组中值都能取整数值 3.已知甲、乙两班学生统计学考试成绩:甲班平均分为70分,标准差为分;乙班平均分为75分,标准差为分。由此可知两个班考试成绩的离散程度() A.甲班较大 B.乙班较大 C.两班相同 D.无法作比较 4.某乡播种早稻5000亩,其中20%使用改良品种,亩产为600公斤,其余亩产为500公斤,则该乡全部早稻平均亩产为() 公斤公斤公斤公斤 5.时间序列若无季节变动,则其各月(季)季节指数应为() A.100% % % % 6.用最小平方法给时间数列配合直线趋势方程y=a+bt,当b<0时,说明现象的发展趋势是() A.上升趋势 B.下降趋势 C.水平态势 D.不能确定 7.某地区今年和去年相比商品零售价格提高12%,则用同样多的货币今年比去年少购买()的商品。 8.置信概率表达了区间估计的() A.精确性 B.可靠性 C.显着性 D.规范性 9.H 0:μ=μ ,选用Z统计量进行检验,接受原假设H 的标准是() A.|Z|≥Z α B.|Z|
t 检验计算公式: 当总体呈正态分布,如果总体标准差未知,而且样本容量n <30,那么这时一切可能的样本平均数与总体平均数的离差统计量呈t 分布。 t 检验是用t 分布理论来推论差异发生的概率,从而比较两个平均数的差异是否显著。t 检验分为单总体t 检验和双总体t 检验。 1.单总体t 检验 单总体t 检验是检验一个样本平均数与一已知的总体平均数的差异是否显 著。当总体分布是正态分布,如总体标准差σ未知且样本容量n <30,那么样本平均数与总体平均数的离差统计量呈t 分布。检验统计量为: X t μ σ-=。 如果样本是属于大样本(n >30)也可写成: X t μ σ-=。 在这里,t 为样本平均数与总体平均数的离差统计量; X 为样本平均数; μ为总体平均数; X σ为样本标准差; n 为样本容量。 例:某校二年级学生期中英语考试成绩,其平均分数为73分,标准差为17分,期末考试后,随机抽取20人的英语成绩,其平均分数为79.2分。问二年级学生的英语成绩是否有显著性进步? 检验步骤如下: 第一步 建立原假设0H ∶μ=73 第二步 计算t 值 79.273 1.63X t μ σ--=== 第三步 判断 因为,以0.05为显著性水平,119df n =-=,查t 值表,临界值0.05(19) 2.093t =,而样本离差的t =1.63小与临界值2.093。所以,接受原假设,即进步不显著。
2.双总体t 检验 双总体t 检验是检验两个样本平均数与其各自所代表的总体的差异是否显著。双总体t 检验又分为两种情况,一是相关样本平均数差异的显著性检验,用于检验匹配而成的两组被试获得的数据或同组被试在不同条件下所获得的数据的差异性,这两种情况组成的样本即为相关样本。二是独立样本平均数的显著性检验。各实验处理组之间毫无相关存在,即为独立样本。该检验用于检验两组非相关样本被试所获得的数据的差异性。 现以相关检验为例,说明检验方法。因为独立样本平均数差异的显著性检验完全类似,只不过0r =。 相关样本的t 检验公式为: t = 在这里,1X ,2X 分别为两样本平均数; 12X σ,2 2X σ分别为两样本方差; γ为相关样本的相关系数。 例:在小学三年级学生中随机抽取10名学生,在学期初和学期末分别进行了两次推理能力测验,成绩分别为79.5和72分,标准差分别为9.124,9.940。问两次测验成绩是否有显著地差异? 检验步骤为: 第一步 建立原假设0H ∶1μ=2μ 第二步 计算t 值 t = =3.459。 第三步 判断 根据自由度19df n =-=,查t 值表0.05(9) 2.262t =,0.01(9) 3.250t =。由于实际计算出来的t =3.495>3.250=0.01(9)t ,则0.01P <,故拒绝原假设。 结论为:两次测验成绩有及其显著地差异。 检验。
六、计算题:(要求写出计算公式、过程,结果保留两位小数,共4题,每题10分) 1、某快餐店对顾客的平均花费进行抽样调查,随机抽取了49名顾客构成一个简单随机样本,调查结果为:样本平均花费为元,标准差为元。试以%的置信水平估计该快餐店顾客的总体平均花费数额的置信区 间;(φ(2)=)49=n 是大样本,由中心极限定理知,样本均值的极限分布为正态分布,故可用正态分布对总体均值进行区间估计。 已知:8.2,6.12==S x 0455.0=α 则有: 202275 .02 ==Z Z α 平均误差=4.07 8 .22==n S 极限误差8.04.022 2 =?==? n S Z α 据公式 x x ±=±? 代入数据,得该快餐店顾客的总体平均花费数额%的置信区间为(,) 3 要求:①、利用最小二乘法求出估计的回归方程;②、计算判定系数R 。 附:10805 1 2 ) (=∑-=i x x i 8.3925 1 2 ) (=∑-=i y y i 58=x 2.144=y 3题 解 ① 计算估计的回归方程: ∑∑∑∑∑--= )(22 1x x n y x xy n β) ==-??-?290 217900572129042430554003060 = =-= ∑∑n x n y ββ)) 1 0 – ×58= 估计的回归方程为:y ) =+x ② 计算判定系数: 4 计算下列指数:①拉氏加权产量指数;②帕氏单位成本总指数。 4题 解: ① 拉氏加权产量指数
= 1 000 00 1.1445.4 1.13530.0 1.08655.2 111.60%45.430.055.2q p q q p q ?+?+?==++∑∑ ② 帕氏单位成本总指数= 11100053.633.858.5 100.10%1.1445.4 1.13530.0 1.08655.2q p q q p q ++==?+?+?∑∑ 模拟试卷(二) 一、填空题(每小题1分,共10题) 1、我国人口普查的调查对象是 ,调查单位是 。 2、___ 频数密度 =频数÷组距,它能准确反映频数分布的实际状况。 3、分类数据、顺序数据和数值型数据都可以用 饼图 条图 图来显示。 4、某百货公司连续几天的销售额如下:257、276、297、252、238、310、240、236、265,则其下四分位数 5、某地区2005年1季度完成的GDP=30亿元,2005年3季度完成的GDP=36亿元,则GDP 年度化增长率6、某机关的职工工资水平今年比去年提高了5%,职工人数增加了2%,则该企业工资总额增长了 % 。 7、对回归系数的显着性检验,通常采用的是 t 检验。 8、设置信水平=1-α,检验的P 值拒绝原假设应该满足的条件是 p e M >o M ③、x >o M >e M 3、比较两组工作成绩发现σ甲>σ乙,x 甲>x 乙,由此可推断 ( )
应用统计学练习题 第一章绪论 一、填空题 1.统计工作与统计学的关系是__统计实践____和___统计理论__的关系。 2.总体是由许多具有_共同性质_的个别事物组成的整体;总体单位是__总体_的组成单位。 3.统计单体具有3个基本特征,即__同质性_、__变异性_、和__大量性__。 4.要了解一个企业的产品质量情况,总体是_企业全部产品__,个体是__每一件产品__。 5.样本是从__总体__中抽出来的,作为代表_这一总体_的部分单位组成的集合体。 6.标志是说明单体单位特征的名称,按表现形式不同分为__数量标志_和_品质标志_两种。 7. 8.统计指标按其数值表现形式不同可分为__总量指标__、__相对指标_和__平均指标__。 9.指标与标志的主要区别在于: (1)指标是说明__总体__特征的,而标志则是说明__总体单位__特征的。 (2)标志有不能用__数量__表示的_品质标志_与能用_数量_表示的_数量标志_,而指标都是能用_数量_表示的。 10.一个完整的统计工作过程可以划分为_统计设计_、_统计调查_、_统计整理_和__统计分析__4个阶段。 二、单项选择题 1.统计总体的同质性是指(A)。 A.总体各单位具有某一共同的品质标志或数量标志 B.总体各单位具有某一共同的品质标志属性或数量标志值 C.总体各单位具有若干互不相同的品质标志或数量标志 D.总体各单位具有若干互不相同的品质标志属性或数量标志值 2.设某地区有800家独立核算的工业企业,要研究这些企业的产品生产情况,总体是( D)。
A.全部工业企业 B.800家工业企业 C.每一件产品 D.800家工业企业的全部工业产品 3.有200家公司每位职工的工资资料,如果要调查这200家公司的工资水平情况,则统计总体为(A)。 A.200家公司的全部职工 B.200家公司 C.200家公司职工的全部工资 D.200家公司每个职工的工资 4.一个统计总体( D)。 A.只能有一个标志 B.可以有多个标志 C.只能有一个指标 D.可以有多个指标 5.以产品等级来反映某种产品的质量,则该产品等级是(C)。 A.数量标志 B.数量指标 C.品质标志 D.质量指标 6.某工人月工资为1550元,工资是( B )。 A.品质标志 B.数量标志 C.变量值 D.指标 7.某班4名学生金融考试成绩分别为70分、80分、86分和95分,这4个数字是( D)。 A.标志 B.指标值 C.指标 D.变量值 8.工业企业的职工人数、职工工资是(D)。 A.连续变量 B.离散变量 C.前者是连续变量,后者是离散变量 D.前者是离散变量,后者是连续变量 9.统计工作的成果是(C)。 A.统计学 B.统计工作 C.统计资料 D.统计分析和预测 10.统计学自身的发展,沿着两个不同的方向,形成(C)。 A.描述统计学与理论统计学 B.理论统计学与推断统计学 C.理论统计学与应用统计学 D.描述统计学与推断统计学
北京工业大学经济与管理学院2007-2008 年度 第一学期期末应用统计学 主考教师 专业:学号:姓名:成绩: 1C2B3A4C5B6B7A8A9C10C 一.单选题(每题 2 分,共 20 分) 1.在对工业企业的生产设备进行普查时,调查对象是 A 所有工业企业 B 每一个工业企业 C 工业企业的所有生产设备 D 工业企业的每台生产设备 2.一组数据的均值为20, 离散系数为0.4, 则该组数据的标准差为 A50B8C0.02D4 3.某连续变量数列,其末组为“ 500 以上”。又知其邻组的组中值为 480,则末组的组中值为 A 520 B 510 C 530 D 540 4.已知一个数列的各环比增长速度依次为5%、7%、 9%,则最后一期的定基增长速度为 A .5%× 7%× 9% B. 105% × 107%× 109% C.(105%× 107%× 109%)- 1 D. 3 105%107%109%1 5.某地区今年同去年相比,用同样多的人民币可多购买5%的商品 ,则物价增 (减 )变化的百分比为 A. –5% B. –4.76% C. –33.3% 6.对不同年份的产品成本配合的直线方程为 D. 3.85% ? y 280 1.75x ,回归系数b=-1.75表示 A.时间每增加一个单位,产品成本平均增加 1.75 个单位 B.时间每增加一个单位,产品成本平均下降 1.75 个单位 C. 产品成本每变动一个单位,平均需要 1.75 年时间 D. 时间每减少一个单位,产品成本平均下降 1.75 个单位 7.某乡播种早稻5000 亩,其中20%使用改良品种,亩产为600 公斤,其余亩产为500 公斤,则该乡全部早稻亩产为 A. 520公斤 B. 530公斤 C. 540公斤 D. 550公斤 8. 甲乙两个车间工人日加工零件数的均值和标准差如下: 甲车间 : x =70 件,=5.6 件乙车间 :x =90件,=6.3 件 哪个车间日加工零件的离散程度较大: A 甲车间 B.乙车间 C.两个车间相同 D.无法作比较 9.根据各年的环比增长速度计算年平均增长速度的方法是
第39讲统计量与常用统计量
110,,X X 在上一讲例3中,为了估计指数分布的参数,进行抽样观测,得到样本和样本值6394,1105,4717,1399,7952,17424,3275,21639,2360,2896. 样本中包含了许多信息。 对于推断总体的参数或分布而言,有些是有用的,重要的信息,有些则并不重要。上例的样本至少提供了两种信息:1)10个灯泡的平均寿命; 2)灯泡寿命的序号(如6394是第1个).—有用且重要的信息—不重要信息
从样本中提取有用的信息来研究总体的分布及各种特征数.——构造统计量.12,12,,...,,,...,). (n n x x x g x x x 一旦有了样本观察值就可以算出统计量的具体值121212,,...,),,...,),,...,) (, (, (. n n n X X X g X X X g X X X 设为样本若不含任何未知参数则称为统计量统计量:样本的不含任何未知参数的函数。 1210(...)10X X X +++10.6916.1. 比如个灯泡的平均寿命是统计量平均寿命的观测值是小时
常用统计量: 2 21 2 2.,1()1 n i i S X X n S S ==--=∑样本方差样本标准差1 .,11 n i i X X n ==∑样本均值
常用统计量: 1 1 11(3.1,2,...)n k k i i n k k i i A X n B X k k k X n ====-=∑∑ 样本矩阶矩: 阶中心矩:2 2,,,11. Excel X S B 根据样本数据,用计算见实验
六、计算题:(要求写出计算公式、过程,结果保留两位小数,共4题,每题10分) 1、某快餐店对顾客的平均花费进行抽样调查,随机抽取了49名顾客构成一个简单随机样本,调查结果为:样本平均花费为12.6元,标准差为2.8元。试以95.45%的置信水平估计该快餐店顾客的总体平均花费数额的置信区间;(φ(2)=0.9545)49=n 是大样本,由中心极限定理知,样本均值的极限分布为正态分布,故可用正态分布对总体均值进行区间估计。 已知:8.2,6.12==S x 0455.0=α 则有: 202275 .02 ==Z Z α 平均误差=4.07 8 .22==n S 极限误差8.04.022 2 =?==?n S Z α 据公式 x x ±=±? 代入数据,得该快餐店顾客的总体平均花费数额95.45%的置信区间为(11.8,13.4) 附: 10805 1 2 ) (=∑-=i x x i 8.3925 1 2 ) (=∑-=i y y i 58=x 2.144=y 179005 1 2 =∑=i x i 1043615 1 2 =∑=i y i 424305 1 =∑=y x i i i 3题 解 ① 计算估计的回归方程: ∑∑∑∑∑--= )(22 1x x n y x xy n β ==-??-?290 217900572129042430554003060 =0.567 =-= ∑∑n x n y ββ 1 0144.2 – 0.567×58=111.314 估计的回归方程为:y =111.314+0.567x ② 计算判定系数: