当前位置：文档之家› 教育统计学-笔记公式

教育统计学-笔记公式

教育统计学王孝玲

第一章绪论

教育统计学是运用数理统计的原理和方法研究教育问题的一门应用科学。它的主要任务是研究如何搜集、整理、分析由教育调查和教育实验等途径所获得的数字资料，并以此为依据，进行科学推断，从而揭示蕴含在教育现象中的客观规律。

统计学和教育统计学的内容：从具体应用角度来分，可以分成：描述统计、推断和实验设计三部分。

描述统计：对已获得的数据进行整理、概括，显现其分布特征的统计方法。通过教育调查和教育实验获得了大量的数据，用归组、编表、绘图等统计方法对这进行归纳、整理，以直观形象的形式反映其分布特征；通过计算各种特征量，来反映它们分布上的数字特征。

推断统计：根据样本所提供的信息，运用概率的理论进行分析、论证，在一定可靠程度上对总体分布特征进行估计、推测。

描述统计是推断统计的基础，推断统计是通过样本信息估计、推测总体，从已知情况估计、推测未知情况。

学习统计学和教育统计的学的意义：一、统计学为科学研究提供了一种科学方法，统计推理的方法是归纳法。二、教育统计学是教育科研定量分析的重要工具。三、广大教育工作者学习教育统计学的具体意义：1、可以顺利地阅读运用统计方法进行定量分析的科研报告。2、可以提高教育工作的科学性和效率。3、为学习教育测量及教育评价打下基础。

随机现象：1、一次试验有多种可能结果，其所有可能结果是已知的；2、试验之前不能预料哪一种可能结果会出现；3、在相同的条件下可以重复试验。

随机现象的每一种结果叫做一个随机事件。

总体：研究的具有某种共同特性的个体的总和。总体中的每个单位称为个体。样本

是从总体中抽取的作为观察对象的一部分个体。

样本上的数字特征是统计量。总体上的各种数字特征是参数。在进行统计推断时，就是根据样本统计量来推断总体相应的参数。

第二章数据的初步整理

教育统计资料的来源：经常性资料、专题性资料（教育调查、教育实验）

数据的种类：按来源分：点计数据和度量数据，按随机变量取值情况分：间断型（取值个数有限的数据，一般为整数）和连续型随机变量（取值个数无限的不可数的数据可用小数表示）。

数据的统计分类：按照研究对象的本质特征，根据分析研究的目的、任务，以及统计分析时所用统计方法的可能性，将所获得的数据进行分组归类。分类标志按形式划分：性质类别和数量类别。

统计表：一般由标题、表号、标目、线条、数字、表注构成。分复合表、简单表、分组表。某一个随机事件在n次试验中出现的次数称为随机事件的频数。

简单频数分布表：求全距、决定组数和组距、决定组限、登记频数。

统计图：表示间断变量的统计图：直条图、圆形图。表示连续变量的统计图：线形图、频数分布图（直方图、多边图、累积频数和累积百分比多边图）

第三章集中量：是代表一组数据典型水平或集中趋势的量。

算术平均数：算术平均数是所有观察值的总和除以总频数所得之商，它是统计学中最易理解最常应用的一种集中量指标。特性：观察值的总和等于算术平均数的n倍，各观察值与其算术平均数之差的总和等于0，若一组观察值是由两部分或几部分组成，这组观察值的算术平均数可以由组成部分的算术平均数而求得。优缺点：1、反应灵敏。2、严密确定3、简明易懂，计算简单4、适合代数运算5、只知一组观察值的总和及总频数就可以求出算术平均数。6、用加权法可以求出几个平均数的总平均数。7、用样本数据推断总体集中量时，算术平均数最接近于总体集中量的真值，

它是总体平均数的最好估计值。8、在计算方差、标准差、相关系数以及进行统计推断时，都要用到它。

缺点是：易受两极端数值的影响。一组数据中某个数值大小模糊不清或不够确切时，就无法计算。它所适用的条件：一组数据中每个数据都比较准确可靠；无两极端数值影响；而且还要通过它计算其他统计量。

中位数是位于依一定大小顺序的一组数据中央位置的数值。各有一半数的一级数据的数据个数一分为二的数值。是百分位数的一种。

百分位数是位于依一定顺序排列的一组数据中某一百分位置的数值。

中位数的应用及其优缺点：不适合代数计算，与算术平均数相比抽样偏差相对较大。很少受两极端数值的影响，由数据的个数所决定，反应不灵敏，适用于：1、一组数据有特大或特小两极端数值时2、一组数据中有个别数据不确切、不清楚时。3、资料属于等级性质时。

第三节众数皮尔逊经验法：X M M d 230-≈。

众数的应用及其优缺点：随频数分布表上的组距变化而变化，极不准确、极不稳定。不适合代数计算，受抽样变动较大，较少受两极端数值的影响，反应不灵敏。使用条件：1、当需要快速而又粗略地找出一组数据的代表值时2、当需要利用算术平均数、中位数、众数三者关系来粗略地判断频数分布的形态时3、利用众数帮助分析解释一组频数分布是否确实具有两个频数最多的集中点时。

当一个频数分布出现两个频数最多一组时，可以通过合并组距的方法视其资料的同质性。若合并后仍有两个集中点，则表明这组数据是由两种性质不同资料混合在一起。

算术平均数、中位数、众数三者关系：当频数分布呈正态时，三者合为一点：0M M X d

==；

当频数分布呈正偏态时，0M M X d >>，负偏态时：0M M X d

加权平均数几何平均数调和平均数

加权平均数是不同比重数据或平均的平均数。

几何平均数：n 个数值连乘积的n 次方根。当一个数列的后一个数据是以前一个数据为基础成比率增长时，要用它求其平均增长率，常用作速率的集中量，在教育方面，求增加率、进步率等。求法是n 个数据连乘积的n 次方根。n n g X X X X 21=

调和平均数：是一组数据倒数的算术平均数的倒数。主要是用来求学习速度。

???

??++=

H X X X n X 11111

第四章差异量

表示一组数据变异程度或离散程度的量叫差异量。差异量大大，表示数据分布越广，越不整齐、差异量越小，表示数据分布得越集中，变动范围越小，（全距、四分位距、百分位距、平均差、方差、标准差、）绝对差异量，（差异系数。）相对差异量全距是一组数据中最大值与最小值之差。

四分位距是用依一定顺序排列的一组数据中间部位50%个频数距离的一半作为差异量指标。2

Q Q

QD -= 四分位距的应用及其优缺点：简明易懂，计算简便，较少受两

极端数值的影响，比全距可靠的多。但它忽略了左右共50%数据的差异，不适合代数运算。当一组数据中用中位数表示集中量时，就要用四分位距表示差异量。第二节平均差每一个数据与该组数据的中位数或算术平均数离差的绝对值的算术平均数。n

Md X MD ∑-=

第三节方差和标准差方差是指离差平方的算术平均数，一组数据中每个数据与该组平均数之差，平方之求其和，再除以数据的个数。()n

X X X

∑-=

σ标准差即方差的平方根2

???

? ?

?-=

∑∑n X

优点：反应灵敏，随任何一个数据的变化而变化，严密

确定，一组数据的方差及标准差有确定的值，计算简单，适合代数运算，可以将几个方差和标准差综合成一个总的方差和标准差，用样本数据推断总体差异量时，方差和标准差是最好的估计量。在避免两极端数值影响方面超过全距，在考虑到全部

离差方面，优于四分位距，在避免绝对值方面优于平均差。缺点是不太容易理解，易受两极端的影响，有个别数值糊涂不清时无法计算。最直接的用途是描述一组数据的离散程度。