第一节
什么是统计学和教育统计学
什么是统计学
? 统计学是一门关于数据资料的收集、整理、分析和推断的科学。
? 统计学分为两大类:一是数理统计学,另一个是应用统计学
统计学分为数理统计学应用统计学
数理统计学
它主要是以概率论为基础,对统计数据数理关系的模式加以解释,对统计原理和方法给予数学证明,它是数学的一个分支。
应用统计学
它是数理统计原理和方法在自然和社会各个领域中的应用。
如数理统计的原理和方法应用到教育领域,称为教育统计学;而如果数理统计的原理和方法应用到医学领域,就称为医学统计学等。
二、什么是教育统计学
教育统计是数理统计与教育学、心理学交叉结合的产物,是应用统计学。
教育统计学主要包括两部分内容:描述统计与推断统计。
描述统计
描述统计是对收集的数据进行整理、概括,显现其分布特征的统计方法。
如某校某年级的某科考试成绩,是一个个分散的、看不出规律性及其特征的一组数据,描述统计就是通过计算平均数、标准差、差异系数等了解该组数据的集中趋势及离散趋势,通过制表、作图等直观形式表现这组数据的分布特征,从而使我们能更好地理解和使用数据。
推断统计
推断统计就是根据样本所提供的信息,运用概率的理论进行分析、论证,并在一定可靠程度上,对总体分布特征进行估计、推测。也就是根据已知的情况,在一定可靠程度上对未知情况进行估计和推测。在教育教学的管理、评估和研究中用己知说明解释未知;用有限推断无限等问题都要使用推断统计的方法。
三、为什么要学习教育统计学
1、教育统计是教育科学研究的工具。
2、学习教育统计学有利于教育管理科学化。
3、教育统计学是教育评价不可缺少的工具。
4、教育统计学是科学分析事物的方法。
四、学习教育统学的方法
1、要明确学习教育统计学的目的。
2、要重点掌握各种统计方法的使用条件。
3、要学、用结合。
第二节 统计学中的几个基本概念
一、总体和样本
总体是我们所研究的具有某种共同特性的个体总和。
样本或称子样,是从总体中抽取的作为观察对象的一部分个体。
总体规模和样本容量
总体中个体数称为总体规模,常用n来记。样本中个体数称为样本容量,常用N来记 。
大样本和小样本
当N>30时,则称此样本为大样本,当N≤30时,称该样本为小样本。
总体和样本是相对的,不是一成不变的,它随着研究的范围不同而改变
当总体含有无限个个体时,我们称该总体为无限总体,否则称该总体为有限总体
二、统计量和参数
统计量:是指样本的数字特征;
参数:是指总体的数字特征。
样本的平均数、中位数、众数、方差、标准差、相关系数等数字特征都是样本统计量。
总体的平均数、中位数、众数、方差、标准差、相关系数等数字特征都是总体参数。
三、随机现象、随机事件、随机变量
具有以下三个特性的现象,称为随机现象
第一,一次试验有多种可能的结果,且其所有可能结果是已知的 。
第二,在试验之前不能预料哪一种结果会出现。
第三,在相同的条件下可以重复实验。
2、随机事件
我们称随机现象的每一种可能的结果为一个随机事件 ,随机事件通常用字母A、B 、C等表示。
3、随机变量
取值为随机事件的变量为随机变量。
随机变量在我们的生活中大量存在。例如,学生的身高、体重、性别、智商、某科考试成绩,教师的年龄、职称、工资等。
第三节 ∑简介
“∑”是连加求和符号,读作Sigma(西格玛)。
下面我们给出“∑”的若干性质:
(ⅰ)
第二章 数 据
第一节 数据的整理
一、数据
所谓数据是指用数量或数字形式表示的资料。
统计学主要是通过观测得到数据。这样的数据有三个特性:
离散性,变异性,规律性
离散性
每一观测得到一个或若干个数据,因此观测数据是以一个个分散的数字形式出现的
变异性
?观测数据一般是通过对研究对象的全部或足够数量的个体进行观测得到的,观测的范围较大,并且往往采用随机的方法,因此,每次得到的观测数据都具有随机性,即观测数据总是在一定的时空范围内不断变化着,具有变异性
规律性
就一个个观测数据来看具有较强的变异性,看似杂乱无章,当对足够数量的个体进行观测时,从数据的总体来看,将会呈现出一定的规律性
二、数据资料的搜集
数据资料按时间周期可分为经常性资料和专题性资料。
经常性资料主要是日常工作中的记录和统计报表等
?通过专题性的调查或实验所获得的资料称为专题性资料
数据的检查主要是从数据的准确性、完整性和及时性三个方面考虑
?准确性要求观测的数据要真实可靠,统计数字的真实性是统计工作的生命,一定要准确无误
检查准确性一般从三个方面入手
一是检查数据采集方法的科学性,所采用的方法应做到简单易行,误差小,精度高,确保统计数据的准确可靠。
二是检查数据的逻辑性,即根据项目自身的性质检查数据的大小是否在正常的范围内,数据的分布是否符合实际,检查各项目的填写是否真实;从各个项目之间的关系,检查各项目之
间是否矛盾,是否符合逻辑。
三是检查计算,即检查初步的计算结果。检查完整性是根据项目检查资料是否填写齐全,有无遗漏和重复现象。能更正的要及时更正;不能更正的,则坚决删除。检查及时性是指检查资料是否按规定的时间搜集和报送,对于未按要求操作的,应查明原因,妥善处理。
检查完整性是根据项目检查资料是否填写齐全,有无遗漏和重复现象。能更正的要及时更正;不能更正的,则坚决删除。
检查及时性是指检查资料是否按规定的时间搜集和报送,对于未按要求操作的,应查明原因,妥善处理。
数据的整理方法一般分为顺序分布法、等级分布法和次数分布法。
例如某校进行数学竞赛,随机抽取十五个成绩为67,58,90,68,58,76,58,67,76,67,56,68,34,67,77
顺序分布法是将数据按大小顺序先排列起来,然后用次数表示相同数据的出现数目,形成一个简单次数表。
等级分布法1无重复等级分布法 2有重复等级分布法
序号 1 2 3 5 7 11 14 15
分数 90 77 76 68 67 58 56 34
等级 1 2 3 4 5 6 7 8
表2-3有重复的等级分布表
序号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
分数 90 77 76 76 68 68 67 67 67 67 58 58 58 56 34
等级 1 2 3.5 3.5 5.5 5.5 8.5 8.5 8.5 8.5 12 12 12 14 15
等级分布法的等级划分是以最大数为第一等级,还是以最小数为第一等级,应根据实际考察的教育对象的属性来定,当数据越大表明的情况越好时,应以最大的数为第一等级,如:学习成绩、教师工资、学生身高、学校的升学率等;反之,应以最小的数为第一等级,如:百米竞跑成绩、不及格人数、退学人数等。
等级分布法特性
等级分布法只登记了各数据所占的等级位置,而未完整的表明数据的分布特征。若要显现数据分布特征还需进行分组次数分布的整理。
顺序分布法和等级分布法主要适用于离散数据且数据量很少的情况,当数据量较大时一般使用次数分布法。
第二节 数据的种类
数据的划分最常见的有三种:按数据的来源划分;按随机变量的取值划分;按数据的分布形式划分
一、按数据的来源划分
点计数据、度量数据、人工编码数据
点计数据也可称为计数数据。它是指通过计算个数所获得的数据,点计数据通常是整数。
度量数据也可称为测量评估数据。它指的是用一定的测量工具或一定的测量评估方法所获得的数据
人工编码数据是人们在统计处理中,对“词语”类数据指定的数字形式的数据
二、按随机变量的取值来划分
名变量数据、顺序变量数据、等距变量数据、比率变量数据
称名变量是指按事物的名称、类别或
某一属性来区分事物的不同种类所形成的变量
称名变量数据:统计研究中,我们通常采用某种规则对称名变量的值指定数码,从而得到称名变量数据
称名变量数据的特征:无顺序 无零点 无相等单位
不能比较大小、不能进行任何算术运算
顺序变量又叫等级变量:指的是事物的某一属性的多少或大小次序的变量,具有等级性和次序性等特点。
顺序变量数据:顺序变量的取值称为顺序变量数据。
顺序变量数据的特征:有顺序 无零点 无相等单位 可比较大小、不能进行任何算术运算
等距变量是指在观测事物的某属性时,具有相对参照点和相等的单位,它能表示量的相对大小
等距变量数据:等距变量的取值称为等距变量数据
等距变量数据的特征有顺序 有零点 有相等单位 可比较大小 可进行加、减运算
比率变量是指具有绝对参照点,又有相同的单位。它不仅具有量的大小和相等单位,还有绝对零点
比率变量数据比率变量的取值称为比率变量数据
比率变量数据的特征有大小 、有相等单位,有绝对零点 可比较大小、可进行加、减、乘、除运算
数据按随机变量的取值来划分时,数据的属性可由下表给出(表2-4 ):
表2-4 按取值划分的各种变量的特性比较表
数据种类 顺序 相等单位 绝对零点 加减运算 乘除运算
称名变量数据 无 无 无 无 无
顺序变量数据 有 无 无 无 无
等距变量数据 有 有 无 有 无
比率变量数据 有 有 有 有 有
三、按数据的分布划分
可分为离散变量数据和连续变量数据
随机变量取值个数有限,且这种数据的单位是独立的,两个单位之间不能再划分成更细小的单位,一般用整数表示的数据称为离散变量数据
连续变量是指取值可以是某区间内任意数值的随机变量,它是指测量单位之间可以划分成无限多个细小单位,其数字形式多取小数
第三节 统计图表
统计表和统计图可以将收集来的数据资料由繁化简、由多而少、由杂到精,使我们能够直观、形象地认识和发现数据的规律性。
统计表是用来表达统计指标与被说明的事物之间数量关系的表格。
(一)统计表的构造
统计表由表的序号、标题(表名)、标目(纵标目和横标目)、线条、数字(或文字)以及表注等组成
1、标题要明确概括出表的基本内容,可标明资料所属地区和时间 。2、标目是用于说明统计数字意义的,分为横标目和纵标目。3、数字一律使用阿拉伯数字。
编制统计表的基本原则是:表的结构要简单明了;层次要清楚,标目编排要有逻辑性,使人易懂易读。
(二)几种常用统计表
1、次
数分布表
所谓次数分布,指的是一批数据中各个不同数值所出现次数的多少情况,或者是这批数据在数轴上各个区间内所出现次数的多少情况
统计一批数据的次数分布有两种方法:第一种方法是按不同的测量值逐点统计次数;第二种方法是以区间跨度来统计次数。
(1)、简单次数分布表
简单次数分布表,通常简称为次数分布表,是一批数据在各等距区间内的次数分布结构。
简单次数分布表的制作步骤:
? 求全距,定组数,算组距,确定组限 ,计算组中值 ,归类
(2)相对次数分布表
相对次数指的是各组的次数f与总次数N的比值f/N。
(3)、累积次数分布表
累积次数分布表的编制方法是在登记次数时,每上升(下降)一组就把以下(以上)各组的次数累积登记。
(4)、累积百分比分布表
每组的累积次数除以总次数N,再乘以100则可得累积百分比
二、统计图
统计图是依据统计数字资料,应用点、线、面、体以及图饰、色彩等手段来绘制的简单明了、规范整齐、数量显明、规律性清楚的图形
统计图由图号、标题、标目、图形、图注等构成
几种常见的统计图:
(1)次数分布图
次数分布图主要有两种:次数直方图和次数多边图
次数直方图是由若干宽度(以组距)相等,高度(以每组次数)不等的直方条紧密排列在同一基线上的矩形构成的图形
次数多边图是以各组的组中值为横坐标,以次数为纵坐标确定平面上的若干个点,然后用线段或光滑曲线将点依次连接,同时增加一个次数f为0的最低组和最高组,使其与横轴构成闭合的多边形(曲线)
2、线形图
线形图是由线来表示事物发展趋势的图。
绘制线形图:
I 在平面直角坐标系中,自变量用横轴表示,因变量用纵轴表示,按平面解析几何中的方法,确定点在坐标系中的位置。
II 点确定后,用稍粗一些的线段把相邻的点依次连接。
III 在同一个图形中,允许画若干条不同的线形图,但要用不同形式的折线加以区别,并标明图例。
3、条形图
条形图是用宽度相同直条的长短表示统计事项间数量大小关系的图形,它主要是用来比较性质相似的点计数据。
简单条形图的绘制方法:
①各个直条的宽度、色调一致;
②相邻长条之间的间隔要适当。
? 绘制简单条形图的注意事项:
? I 各条宽度一致;
? II 各条形应按一定的顺序(如时间前后、数字大小、等级次数等)排列;
? III 直条的顶端和下端不要注明数字;
? IV 尺度线的刻度要从零开始,指标太大时, 在尺度线和条形图上采用破线法;
? 复合条形图和分段条形图是把两套及以上条形图画在一起,通过对比反映出两种及以上事物间的统计事项的数量关系。
4、圆形图
圆形图也叫圆饼图,是以单位圆内各扇形面积占整个圆形面积的百分比,来表示各统计事项在其总体中所占相应比例的图示方法。凡能绘制成条形图的资料,并且项目的百分比之和恰为1者,均可用圆形图来表示
5、散点图
散点图是用平面直角坐标系上点的散布图形来表示两种事物之间的相关性,散点图对于探究两种事物、两种现象之间的关系起着非常重要的作用。
第三章 集 中 量
数据还有两个重要的统计特征:集中趋势和离散趋势。这两种趋势用量数描述就是集中量和差异量
集中量是代表一批数据典型水平或集中趋势的量,它是反映次数分布中大量数据向某一点集中的情况
我们常用的集中量有:算术平均数、加权平均数、中位数、众数等。
第一节 算术平均数
算术平均数是人们最常用的一种集中量。一批数据的算术平均数,指的是这批数据的总和除以总次数后所得的商数
算术平均数通常也简称平均数,用 (读x杠或x拔)表示。
设有一批数据x1,x2,…,xn,则这批数据的算术平均数为:
二、算术平均数的性质
(1) 数据组中每一个数与其平均数之差的和为零,即
2) 数据组中的数据总和等于其平均数与总次数的乘积,即:
(3) 如果数据组中的每一数都加上一个常数c,则所得新数据组的平均数为原数据组的平均数加c。
(4) 如果数据组中每一数都乘以一个常数c,则新数据组的平均数为原数据组的平均数乘以c。
(5) 设有一批数据 ;令
则:
平均数的近似计算方法:
如果只给出一组数据的次数分布表,而无原始数据,如何计算这批数据的平均数呢?显然没有原始数据,就只能求这批数据的近似平均数。我们以每组的组中值近似表示该组中的每一个数,那么这个数据组的平均数可由下面的公式算得 :
三、算术平均数的优缺点
优点:
算术平均数反应灵敏、定义严谨、简明易懂,适合代数运算,并且受抽样变动的影响较小(后面章节讨论)等优点,是应用最普遍的一种集中量数
缺点
二是由于用定义计算算术平均数就必须要求数组中的每个数据都要准确清楚,如果数据组中某个数值不够确切,就无法计算其算术平均数
第二节 加权平均数
考虑到每个观测数在整体中权重不同而求出的平均数叫做加权算术平均数,简称加权平均
数
一、加权平均数的一般公式
二、由简单次数分布表计算平均数的公式
=
三、由多组平均数求整体平均数的计算公式
第三节 中位数和百分等级数
中位数是位于依一定顺序(由大到小或由小到大)排列的一组数据中央位置的数值,在这一数值的上、下各有数组中一半频数的数据,中位数把排好顺序的数一分为二,通常用Md表示中位数。
一个数据组的中位数可能是数据组中的数,也可能不是数据组中的数。
次数分布表的中位数的计算方法:
由中位数的定义可知,一组顺序排列(由大到小或由小到大)数据组的中位数就是位于该数据组的中间位置的数。一般地,我们称能反映次数分布中各数据所处地位的量为地位量数。通常用百分等级来表示数据在次数分布中所处的地位,用PR表示。PR反映的是某个数据依一定次序排列的数组中以下数据个数占总个数的比例的百分数(在0到100之间)。比如,中位数的百分等级是50。
与百分等级相对应的是百分位数,所谓百分位数实际上就是位于给定百分等级位置上的一个数
百分位数计算公式:
第四节 众数
众数是一组数据中出现次数最多的那个数,众数用符号Mo表示。
一、粗略众数
粗略众数指的是一组数据中出现次数最多的数,它一般是由直接观察得到的。
二、理论众数
理论众数指的是次数分布曲线最高点对应的横坐标上的一点
1、皮尔逊经验公式
2、金氏插补法
皮尔逊经验公式:当一组数据呈正态分布或近似正态分布时,众数近似的等于3倍的中位数减去2倍的平均数
金氏插补法:如果众数所在组以上各组次数的总和与以下各组次数的总和相差较大时,即呈偏态分布时需用金氏插补法
算数平均数、中位数、众数三者的关系:
如果一个数据组的次数分布曲线呈正态,则算术平均数、中位数、众数三者相等,
?中位数位于三者中间,在负偏态时, < Md<Mo;在正偏态时,Mo<Md< ,且有:
算术平均数、中位数、众数在三种分布形态中的位置关系
第四章 差 异 量
差异量就是反映一组数据离中趋势的量数,它概括地描述了数据之间的离散程度和变异程度
离中趋势是指一组数据中的数常具有偏离中心位置的趋势
集中趋势和离中趋势是次数分布的两个基本特征
常用的差异量有平均差、方差、标准差和差异系数等。
第
一节 平均差
数据组中的某一数x与数据组的平均数的距离 越大,表示该数距中心位置越远。我们用这个距离的平均数的大小来衡量数组中数据的离散程度。称这个平均数为平均差,用AD来表示
次数分布表的平均差的计算
如果已知次数分布表来计算平均差,可采用下面的公式
一、方差和标准差的定义
一组数据离差平方的算术平均数,称为方差。具体地说,就是一组数据中每个数据与该组平均数之差的平方,求其总和,再除以数据的个数。用б2表示方差:
方差的计算公式
为了使方差与数据组中的数据具有相同的单位,将方差开平方,称为数据组的标准差,用符号бx表示。
标准差的计算公式:
标准差等于方差的算术平方根
频数分布表方差和标准差的计算公式:
二、标准差的性质
1、数据组中每一个数据都加上同一个常数后,该数组的标准差不变。
2、数据组中每一个数据都乘上同一个常数后,该数据组的标准差为原数据组标准差乘这个常数。
3、数据组 的标准差为
则数据组
的标准差仍为 。
三、集中量和差异量的关系
差异量越大,说明数据组中数据的离散程度越大,集中量的代表性越差;而差异量越小,说明数据组中的数据的离散程度越小,那么集中量的代表性就越强。
第三节 差异系数
差异系数指的是标准差与算术平均数的百分比,它是没有单位的相对数,用符号cv表示。
差异系数的计算公式为:
第五章 相关与回归
第一节 相关概念
事物和现象之间的关系是错综复杂的,分析起来,大体可以分为三种:
一种是因果关系,这种关系说明的是两个事物之间存在着相互依存的关系,一个事物的变化是另一个事物变化的前提,即一个是原因,一个是结果。
第二种是共变关系,即变化着的两个事物之间没有内在的联系,而它们的变化都与第三者的变化有关
第三种是相关关系,即两类现象在发生变化的方向和大小方面存在一定的关系,而这种关系是一种不精确、不稳定的变化关系
教育统计学研究的是相关关系
两现象之间的相关关系,既表现在变化方向上,又表现在密切程度上。
从变化方向上来看,两个变量之间有如下三
种关系
正相关:所谓两个变量是正相关指的是两个变量的变化方向一致
负相关 :所谓两个变量的负相关指的是两个变量的变化方向相反
零相关 :所谓两变量的零相关,指的是两个变量值变化方向无一定规律
第二节 相关系数
一、相关系数
用来描述两个变量相互之间变化方向及密切程度的数字特征称为相关系数,用 r表示,作为总体参数的相关系数用 表示
相关系数的性质
1、取值范围在–1和+1之间 ; 2、绝对值的大小,表示两个变量之间的密切(相关)强度
3、当相关系数为0时,就是零相关4、相关系数为1时,表示两变量之间存有完全正相关
5、相关系数为–1时,表示两变量之间存有完全负相关6、“+”号表示两个变量的变化方向一致,即是正相关7、“–”号表示两个变量的变化方向相反,即是负相关
在对相关系数进行解释时必须注意如下三点
一是相关系数的值,仅仅是一个比值,它不是等距变量数据,也不是百分比,不能直接作加、减、乘、除运算
? 二是相关并不意味着因果关系,要根据事物间的相互关系进行分析,这一点在前面已经指出
? 三是相关系数不能在任何绝对意义上进行解释。从一个样本中得到的相关值并一定等于从任何一总体选出的另一个样本中得到的相关值。实践中许多因素都会影响特定相关系数的值。
一般地,当 ≥0.7,称为高相关,其散点图表现为比较紧凑;当0.4≤ <0.7时,称为中等相关;当0.2≤ <0.4时,称为低相关;当 <0.2时,称极低相关或接近零相关。
二、相关系数的计算
计算相关系数一般要求成对的数据,即每个个体提供两个不同的观测值,且这样的数据最好在30对以上为宜
1、积差相关系数
积差相关系数用 来表示。
积差相关适用的条件:
(1)两列变量必须是比率变量数据或等距变量数据
(2)两列变量的总体分布均为正态分布或接近正态分布
(3)两变量数据之间必须成对出现、相互独立且是线性关系(散点图呈线形),样本容量不少于30。
积差相关系数的计算公式
设有两个变量x和y,其n个数据对(x1,y1), (x2,y2),… (xn,yn).x与y的积差相关系数 的计算公式为
2、等级相关
? 以两列数据的顺序等级差数为基础,确定变量的相关系数的方法,叫做等级相关
等级相关适用的条件:
(1)两列数据都是顺序变量数据。
(2)两列数据中,有一列是顺序变量数据,另一列是连续变量数据。
(3)两列数据都是连续变量数据,但其中一列甚至两列数据主要是依靠非测量方法粗略评估得到的。
等级相关系数用 表示,其计算公式为:
3、点双列相关
当两个变量中,一个是正态连续变量,另一个是二分类的称名变量时,表示这两个变量之间的相关,用点双列相关
点双列相关系数用符号rpb表示,其计算公式为:
特别要注意:
点双列相关系数的正负号,并不能简单地解释为正相关或负相关
第三节 直线回归
如果将两个变量之间的不确定、不稳定的关系,用方程式表示出来,那么这种方程式称为回归方程,方程的求得称为回归。而利用方程式由自变量的某一给定值推测出因变量的估计值,这一过程称为回归分析
如果两变量的散点图有明显的直线趋势,则称两变量之间呈线性关系
回归线方程有两个:
其中:
所以
第六章 概率及概率分布
第一节 概率的一般概念
反映事件在实验中发生的可能性大小的数量化指标叫做概率
一、概率的定义
1、概率的古典定义
假设一次试验所有可能出现的结果是有限的(设为n个),且每一个结果出现的可能性相等,若事件A包含m个可能结果,则事件A的概率为:
2、 概率的统计定义
在一定的条件下,对同一试验重复进行n次,事件A发生的次数m。 叫做事件A发生的频率
随着试验次数的增多,频率值会越来越稳定地趋向于一个固定的数值,这个数值就是事件A发生的概率,记作 。
当试验次数n很大时,一般即以事件 发生的频率 去估计其概率值
概率的性质:任何事件的概率值总是在数0与1之间。即事件A的概率满足:0≤P(A) ≤1。
当概率值为1(P(A)=1)的事件称为必然事件:即在一次试验中必然发生的事件
概率值为0(P(A)=0)的事件称为不可能事件:即在试验中,不可能发生的事件
小概率事件原理
所谓“小概率事件原理”,是指“在一次试验中,小概率事件是不可能发生的”。在实际工作中,人们常常按照小概率事件原理对随机现象作决策判断,这是一种科学的思维方式。
二、概率的运算
1、概率的加法定理
不相容事件:在一次实验中不可能同时发生的事件称为不相容事件,也称为互斥事件
事件的和:两个事件A与B的和指的是事件“A与B中至少有一个发生”,这个和事件用“A+B”表示
概率的加法定理:两个不相容事件之和的概率等于两个事件各自概率的和。即
2、 概率的乘法定理
独立事件:当事件A发生与否同事件B发生与否无
关,则称事件A与事件B是相互独立的。
事件的乘积:事件A与事件B的乘积事件指的是“事件A与事件B同时发生”,事件A与事件B的积用AB表示。
条件概率:在事件B已经发生的条件下事件A发生的概率,称这种概率为事件B发生的条件下事件A发生的条件概率,记为 。
条件概率计算公式
概率的乘法定理:两个事件之积的概率等于其中一个事件(其概率必须不为零)的概率乘另一个事件在已知前一事件发生条件下的条件概率,即
如果事件A与事件B是相互独立的两个事件,那么事件A的发生并不影响事件B的发生, 即:
也就是说,当两个事件独立时,这两个事件乘积的概率等于这两个事件概率的乘积:
第二节 概率分布
随机变量分布是描述随机变量所有可能取值及相应概率变化规律的函数,也称随机变量分布,简称分布。
概率分布就是一个随机变量取某个定值的可能性大小,是一个随机变量取某个值的概率的规律性
离散性随机变量概率分布
离散性随机变量的概率分布,我们可以有序罗列这个随机变量每一个取值的概率。
连续性随机变量概率分布
连续性随机变量概率分布,如果要罗列的话,我们只能将随机变量的取值分段,然后有序罗列在各段的概率,一般采用连续函数来描述
设 是一个随机变量,如果对任意的实数 ,都有
则称 为连续性随机变量 的分布密度(或密度函数)。
一个连续性随机变量的概率分布是指这个随机变量在所有取值区间上概率取值的分布情况。
连续性随机变量的分布函数性质:
1、 是非降函数,即当 时,有
第三节 几种常用的概率分布
一、正态分布
在概率论和数理统计中,起着非常重要作用的是所谓正态分布,也叫高斯分布
正态分布的密度函数为
标准正态分布
如果把总频数看成是1,随机变量的分布密度是
二者相比:
当 时,分布密度为
其中 称随机变量服从标准正态分布,记作
正态分布曲线特点
(1)曲线呈钟形,以x轴为渐近线;
(2)曲线以直线
(标准正态曲线以直线Z=0 )为对称轴,左右对称,且向左、向右无限延伸,但永不与x轴相交,整个图形在轴的上方。
(3)当(Z=0)时,曲线达到最高点,其最大值是
(4)曲线有两个拐点,分别在 ( )处;
(5)
如果 令 则
我们就把正态分布化为标准正态分布。
标准正态分布的平均数为0,标准差为1,其曲线
如果随机变量 服从标准正态分布,那么
二、t分布
t分布与标准正态分布的形状有些相似,都以0为均值,左右对称。标准正态分布均值为零,方差为1,只有一条曲线;而t分布虽然均值为零,方差却随着样本容量变化而变化
自由度是指可自由变化的变量的个数
T分布曲线特点:
t分布的形态随自由度的变化呈一簇分布形态
自由度越小,t分布的峰狭窄尖峭,尾长而翅高,分布范围越广。当自由度逐渐增大时,t分布逐渐接近正态分布。
当自由度趋于无限大时,t分布曲线与标准正态分布曲线重合
三、F分布
若从两个相互独立的正态总体中随机抽取两个独立样本,以此为基础,分别求出两个相应总体方差的估计值,这两个总体方差估计值的比值称为F比值,即
F比值的抽样分布称为F分布, F比值称为F统计量
F统计量有两个自由度,分子自由度 为第一自由度,分母的自由度
称为第二自由度。因此,F分而与t分布类似,其曲线也是一簇曲线,其形态随两自由度的不同组合而形成一簇大致为正偏态分布曲线。
由于F值是两个总体方差的比值,所以F值均为正值,故F的图象处于正半轴的上方 ,其最小值为0,最大值为无穷大。
F值可通过查值表求得
左右两侧临界值之间的关系为
下图中阴影部分的面积为0.05,这表示服从自由度为9和8的F分布的值小于等于0.24或大于等于4.10的概率为0.05。
强调:
单侧F临界值只可能有一个,或在左侧或在右侧,故单侧F临界值图表是下图中的某一个
四、 分布
设随机变量X服从正态分布,则
服从标准正态分布,令 服从自由度为1的 分布。记作
分布通常是偏正态分布;
分布形态随自由度的变化而形成一簇偏正态 分布,但随着自由度的增大;
分布曲线就会变成一条正态分布曲线;
分布曲线越来越接近正态分布,当自由度趋于无穷大时。
值可通过查 值表求得
第四节 抽样分布
一、抽样分布
要认识抽样分布,必须学会识别以下三种分布
总体分布:总体内的个体频数分布
样本分布:样本内的个体频数分布
抽样分布:某种统计
量的概率分布。
二、平均数抽样分布
1、原总体正态,总体标准差已知的平均数抽样分布服从正态分布,这个正态分布 的 平 均 数
E( ) 等于原总体平均数μ,标准差 等于原总体标准差除以 即
2、原总体正态,总体标准差未知的平均数抽样分布服从自由度为n-1的t分布,这个t分布的平均数就是原总体平均数,这个t分布的标准差为
3、原总体非正态,样本平均数的抽样分布是t分布,那么当样本容量较大(n>30)时,t分布接近正态分布。
重要结论
如果总体呈正态,总体标准差已知,平均数的抽样分布服务正态分布,且
如果总体呈正态,但总体标准差未知,或总体非正态,则平均数的抽样分布服从自由度df=n-1的T分布 ,且
第五节 总体平均数的估计
一、总体平均数的点估计
用样本数值计算出一个估计值用以估计总体参数的估计方法就叫做点估计。
点估计结果的优良性评价标准:
无偏性
如果所有估计值的平均数等于总体参数,则称该估计量是总体参数的无偏估计量
有效性
一般来说估计值围绕真值的变动越小则一次抽样得到的估计值与真值差距小于某定值的可能性就越大
一致性
如某估计量随着样本容量n的增大,其估计值逐渐接近总体参数,则称该估计量是总体参数的一致估计量
充分性
充分性是指一个容量为n的样本统计量,是否充分地反映了全部n个数据所反映总体的信息,这就是充分性
二、总体平均数的区间估计
区间估计是用数轴上的一段距离表示未知参数可能落入的范围,它虽然不具体指出总体参数等于什么,但能指出总体的未知参数落入某一区间的概率有多大
(1) 置信区间与显著性水平
置信区间或称置信间距,是指在某一置信度时,总体参数所在的区域距离或区域长度。
置信度又称显著性水平,意义阶段,信任系数等,是指估计总体参数落在某一区间时,可能犯错误的概率,用符号 表示。
0.95置信区间=0.05显著性水平的置信区间,或等于0.05置信度的置信区间。
0.99置信区间=0.01显著性水平的置信区间,或等于0.01置信度的置信区间。
(2) 区间估计的原理与标准误
区间估计是根据样本分布的理论,用样本分布的标准误(抽样分布的标准差)计算区间长度,解释总体参数落入某置信区间可能的概率。
区间估计存在这样两个问题:成功估计的概率大小;估计范围大小
统计分析中一般规定:正确估计的概率,也即置信水平为0.95或0.99,那么,显著性水平则为0.05或0.01
这是依据0.05或0.01属于小概率事件,而由小概率事件原理:在一次抽样中小概率事件是不可能出现的。
区间估计的原理是样本分布理论。即在进行区间估计值的计算及估计正确概率的解释上,是依据该样本统计量的分布规律及样本分布的标准误
例如 当总体方差已知时平均数的抽样分布为正态分布或接近正态分布,且
平均数的抽样分布的平均数 ;
平均数抽样分布的标准差(标准误)
第七章 显著性检验
在处理调查或实验数据时,经常要讨论统计值之间差异的问题。对于这些差异的讨论一般分为两种情况:
? (1) 样本统计量与相应总体参数的差异;
? (2) 两个样本统计量之间的差异。
假设检验:从样本统计值推论总体参数
第一节 假设检验的基本思想
一、假设与假设检验
在进行某项研究时,有时需要根据已有的理论和经验事先对研究结果作出一种预想的希望证实假设 ,这种假设叫科学假设,用统计术语表示时叫研究假设
假设检验是通过样本对总体的某些特征进行判断
假设检验一般有两个相互对立的假设:即零假设和备择假设
零假设就是关于当前样本所属的总体期待拒绝的假设。零假设一般用H0表示
备择假设是与零假设相互排斥的假设。它是关于当前样本所属的总体相反的假设,是研究者根据样本信息期待证实的假设,是根据样本信息否定了零假设时,应当采取的假设。备择假设一般用H1表示。
假设检验的基本思想是先建立一个假设H0,然后在此假设成立的条件下,看看会产生什么样的后果
二、假设检验中的两类错误
统计学中将H0真实而拒绝H0时所犯的错误称做Ⅰ型错误(弃真错误),由于这类错误的概率为
故称为 型错误
统计学中将H0假而接受H0时所犯的错误称做Ⅱ开型错误(取伪错误),这类错误的概率以 表示,因而又叫做 型错误。
假设检验中的两类错误
真实情况 做 出 的 判 断
接受H0 拒绝H0
H0为真
H0为假
单侧检验与双侧检验
双侧检验的统计假设为:
H0: H1:
单侧检验的统计假设为:
第二节 平均数的显著性检验
平均数的显著性检验是指对样本平均数与总体平均数的差异产生的显著性检验
一、总体正态分布、总体方差已知
总体服从正态分布,标准差已知,那么无论样本容量为多少,样本平均数与总体平均数离差统计量都服从正态分布
检验统计量:
检验的步骤:1)提出假设(2)确定检验统计量并计算其值(3)确定检验形式(4)统计决断
双侧Z检验统计决断规则
与临界值比较 P值范围 检验结果 显著性
P>0.05 保留H0,拒绝H1 不显著
0.01<P≤0.05 在0.05的显著性水平上拒绝H0接受H
1 显著
(*)
P≤0.01 在0.01的显著性水平上拒绝H0接受H1 极其显著
(**)
二、总体正态分布、总体方差未知
总体服从正态分布,标准差未知,那么无论样本容量为多少,样本平均数与总体平均数离差统计量都服从t分布
检验统计量:
(1)小样本的情况
(2)大样本的情况
T分布接近正分布,检验统计量为:
t检验决断规则
与临界值的比较 P值范围 检验结果 显著性
P>0.05 保留H0,拒绝H1 不显著
0.01<P≤0.05 在0.05显著水平上拒绝H0,接受H1 显著
(*)
P≤0.01 在0.01显著性水平上拒绝H0,接受H1 极其显著
(**)
第九章 X检验
检验是对样本的频数分布所来自的总体分布是否服从某种理论分布或某种假设分布所作的假设检验,即根据样本的频数分布来推断总体的分布
利用 分布,可以:
1、对某些总体参数进行统计推断;
2、可以根据样本数据检验其是否与某一假设或某一理论分布拟合;
3、还可以对分类数据进行差异检验或分析
第一节 检验的基本原理
值是各组实际观测频数与理论频数只差的平方除以理论频数所得商的总和。
用公式表示为:
检验的主要作用是基于实际观测次数和理论期待次数之间差异程度的统计量的显著性检验
检验如下两类问题:
1、检验某抽样观测数据的分布是否与某一理论分布相一致,即总体分布的拟合良度检验。
2、检验双向分类列表数据下,两个分类特征之间是彼此相关还是相互独立的问题,这类问题称为独立性检验。
第二节 单向表的检验
把实得的点计数据按一种分类标准编制成的表就是单向表。
单向表的 检验要按着自由度和理论频数的不同分为两种情况进行计算:一种是 ;或 ,且所有的理论频数 的情况,此时检验统计量为:
另一种情况是在 检验中的组数只有两组( ),且至少有一组理论频数 的情况,此时检验统计量要使用亚茨(Yates)连续性校正公式:
单向表的检验解决的问题:从实际抽样调查所得的观测数据,推断其所来自的总体分布是否服从理论上所假定的某一分布
这个问题可以分为两个问题来进行讨论
一、检验实际频数是否符合某一假设频数
二、检验实际频数分布是否符合某种理论分布
第三节 双向表的检验
把实得的点计数据按两种分类标准编制成的表就是双向表
对双向表的数据进行的 检验就是双向表检验,即双因素检验,也叫独立性检验。
双向表
家庭教育环境 学生学业
优良 中等 不良
好 58 137 30 225
中 21 35 2
7 83
差 6 17 19 42
85 189 76 350
假定一批数据以特征 分类分成 类: … ;以特征 分类分为 类: , ,…, ;制成 列联表:
列联表
特征A 特征B
B1 B2 …… Bk
A1
A2
…
Ar n11 n12 …… n1k
n21 n22 …… n2k
……
nr1 nr2 …… nrk a1
a2
…
ar
b1 b2 …… bk
理论频数由下列公式计算
这样 统计量为:
检验统计量 分布的自由度为
独立性检验的主要步骤:
(1) 编制列联表(2) 建立假设 H0:A与B独立 H1:A与B不独立
(3)计算理论频数:
(5)统计决断
查 值表,若 ,则拒绝H0接受H1
表明A、B之间有关系,不是独立的 反之,如果 ,则接受H0拒绝H1 ,就是说A、B之间无关系,是独立的
第四章 四格表的 检验
2×2列联表也称四格表,由于 所以四格表的自由度为1。 值可由下式来计算:
公式中的各字母见下表:
四 格 表
特征A 特征B
B1 B2
A1 a b a+b
A2 c d c+d
a+c b+d n