当前位置：文档之家› 教育统计与测量评价

教育统计与测量评价

《教育统计与测量评价》复习资料

一、单项选择题

1、观测数据为98、90、70、75、83、80，这组数据的全距是（C、28 ）。

2、两个行为变量的观测值皆为顺序变量，则研究这两个变量之间的相关系数时，宜用（B、等级相关系数）。

3、在一批考试分数中，百分等级为76的分数是37分，这意味着比37分高的考生人数占

全部考生总数比例是（A、24% ）。

4、在正态分布中，已知概率P(0＜Z≤1)＝，试问概率P（Z＜-1）的值为（D、）。

5、投掷一粒骰子，出现“4”点的概率是（A、1/6 ）。

6、测验蓝图设计是关于（B、测验内容和考查目标的抽样方案）

7、面试共有6题并采用放回抽取原则，问两个考生抽取同为B题的概率为（D、1/36 ）。

8、每项评价指标在指标体系中所占的重要性程度，经量化后的值叫（A、权重）

9、教育测量专家格兰朗德认为，一个完整的评价计划，可以用公式加以形象地表达，其公式是（C、评价=测量+非测量+价值判断）

10、复本信度和重测信度这两种方法的最大差别是（C、不是同一份测验）。

11、积差相关系数的创立者是（A、皮尔逊）。

12、已知1X =5,2X =6,3X =7,4X =3,5X =4则∑=4

2i Xi 等于（ A 、16 ）。

13、在一批考试分数中，百分等级为56的分数是65分，这意味着比65分高的考生人数占

全部考生总数比例是（ B 、44% ）。

14、下列分类属于按照测量与评价的内容划分的是（B 、智力与成就测量与评价）

15、某班50名学生中有30名女生，问抽取一个学生恰好为男生的比例是（C 、2/5 ）。

16、测验蓝图设计是关于（ B 、测验内容和考查目标的抽样方案）。

17、Z 分数量表是（ B 、测验内容和考查目标的抽样方案）。

18、已知P （0＜Z ＜）=，则P （|Z|＞）概率值为（B 、）

19、重测信度的用途有时也在于评估所测特质在短期内的（ C 、稳定性）。

20、教育测量专家格兰朗德认为，一个完整的评价计划，可以用公式加以形象地表达，其

公式是（ C 、评价=测量+非测量+价值判断）

21、有一组数据是测量身高的，一组是测量体重的，若比较两组数据的离散程度，则用（ D 、差异系数）。

22、某次考试之后对数据进行统计分析，求得第56百分位数是65分，这意味着考分高于

65分的考生人数比例为（ B 、44％）。

23、下列分类属于按照测量的内容划分的是（B 、智力与成就测量与评价）

24、标准正态分布的平均数和标准差分别是（A、0 和1 ）

25、在正态分布中，已知概率P(0＜Z≤1)＝，试问：概率P（Z＜-1）的值为（B、）。

26、测验蓝图设计是关于（B、测验内容和考查目标的抽样方案）

27、同时掷两个骰子，出现12个点的概率为（D、1/36 ）

28、每项评价指标在指标体系中所占的重要性程度，经量化后的值叫（A、权重）

29、教育测量专家格兰朗德认为，一个完整的评价计划，可以用公式加以形象地表达，其公式是（C、评价=测量+非测量+价值判断）

30、重测信度的用途有时也在于评估所测特质在短期内的（C、稳定性）。

31.学习教育统计与测量对教育工作者十分重要，它是(A.教育研究的重要方法与工具)

32.假如我们希望通过一个统计表就能较方便地了解处于某个分数以下的人数，这时可编制一个( C.累积次数分布表)

33.下列数据中，不能进行加、减、乘、除运算，只可对每一类别计算次数或个数的是A.称名变量)

34.适合显示各统计事项占总体比例的图形是( C.圆形图)

35.下面属于地位量数的是( )

36.提出等级相关法的统计学家是( D.斯皮尔曼)

37.百分等级数值是( D.比率变量)

38.下列布鲁姆认知领域教育目标分类中，层次最低的是( A.知识)

39.利用韦克斯勒智力测验量表测查某校小学二年级学生，平均数为102，标准差为18，某学生得分为120，那么他的离差智商为( )

40.是非题的特点是( C.适用范围有限)

41.标准参照测验的用途( D.用于评价课堂教育与课程编制的有效性)

42.吉尔福特根据研究得出，发散性思维在行为上表现出的特征有流畅性、变通性和( C.独特性)

43.平均数的抽样分布近似服从正态分布所需的样本容量至少为( )

44.统计假设检验中，虚无假设又称为( A.零假设)

45.统计假设检验中关于单侧检验描述不正确的是( A.显着性水平值平分在抽样分布两尾)

46.学习教育统计与测量对教育工作者十分重要，它是( A.教育研究的重要方法与工

具)

47.假如我们希望通过一个统计表就能较方便地了解处于某个分数以下的人数，这时可编

制一个( C.累积次数分布表)

48.下列数据中，不能进行加、减、乘、除运算，只可对每一类别计算次数或个数的是(A.

称名变量)

49.适合显示各统计事项占总体比例的图形是(C.圆形图)

50.提出等级相关法的统计学家是(D.斯皮尔曼)

51.百分等级数值是( D.比率变量)

52.下列布鲁姆认知领域教育目标分类中，层次最低的是( A.知识)

53.利用韦克斯勒智力测验量表测查某校小学二年级学生，平均数为102，标准差为18，某

学生得分为120，那么他的离差智商为)4

54.是非题的特点是(C.适用范围有限)

55.标准参照测验的用途( D.用于评价课堂教育与课程编制的有效性)

56.吉尔福特根据研究得出，发散性思维在行为上表现出的特征有流畅性、变通性和( C.

独特性)

57.平均数的抽样分布近似服从正态分布所需的样本容量至少为( )

58.统计假设检验中，虚无假设又称为(A.零假设)

59.统计假设检验中关于单侧检验描述不正确的是(A、显着性水平值平分在抽样分布两尾)

60.1、一批数据离差之和是（A、0 ）。

61.我们常说的考试分数属于（C、等距）。

62.投1粒骰子，掷出6个点的概率是（A、1/6 ）。

63.按教学中运用的参照点分类，教育测量与评价可分成（A形成性、诊断性和终结性参

照测量与评价）。

64.某次考试之后对数据进行统计分析，求得第66百分位数是44分，这意味着考分高于

66分的考生人数比例为（A、34％）。

65.在正态分布中，已知概率P(0＜Z≤＝，试问：概率P（Z＜）的值为（D、）。

66.复本信度和重测信度这两种方法的最大差别是（C、不是同一份测验）。

67.每项评价指标在指标体系中所占的重要性程度，经量化后的值叫（A、权重）。

68.之所以不能用原始分数评价各科的成绩在于（C、原始分可比性差）。

69.格朗兰德认为评价可以用下列哪个公式表示？（B评价=测量+非测量+价值判断）

二、概念解释

1.教育测量：就是给所考察研究的教育现象，按一定规则在某种性质的量尺上指定值。

2.结构效度：结构效度指的是测验测得心理学理论所定义的某一心理结构或特质的程

度。

3.心理测验：理测验是通过对一组标准刺激所引起的行为样组的客观分析，对人们的心

理特征及个别差异进行估测、描述和诊断的一种方法

4.Ⅱ型错误：在统计假设检验作决策时可能犯的错误有两种类型：一种是虚无假设属真

而被拒绝的错误，这种错误统计上称为I型错误，又称为“拒真”错误；另一种是虚无假设实伪而未被拒绝的错误，统计上称为Ⅱ型错误，又称为“纳伪”错误。

5.标准分数常模：标准分数常模，就是用被试所得测验分数转换成的标准分数来揭示其

在常模团体中的相对地位的组内常模。

6.测验效度：测验效度，就是测验实际上测到它打算要测的东西的程度。

7.统计量：应用样本数据计算的各种特征量数我们称其为统计量。

8.单侧检验：单侧检验只在抽样分布的一个尾侧设有临界值，危机域也只有一块，而这

一块危机域的概率面积就等于显着性水平a的值。

9.散点图：画在平面直角坐标系中表示两种事物之间相互关系及联系模式的一种图示方

法。

10.标准参照测量与评价：标准参照测量与评价是将被试的表现与既定的教育目标和行为

标准相比较，以评价被试在多大程度上达到该标准的一种测量与评价。

11.教育评价：是按照一定的价值标准和教育目标，利用测量和非测量的种种方法系统地

收集资料信息，对学生的发展变化及其影响学生发展变化的各种要素进行价值分析和价值判断，并为教育决策提供依据的过程。

12.教育测量：是针对学校教育影响下学生各方面的发展，侧重于量的规定性予以确定和

描述的过程。

13.测验的效度：测验能测出所欲测特质的程度，相对于某种测量目标而言。

14.等距变量：除了能表明量的大小外还具有相等的单位，而且其零点是相对的。

15.标准化测验：如果测量工具、施测与评分程序、解释分数的参照系（或标准）都已科

学地实现标准化，也就是说，这种代表性行为样本的客观而标准化的测量，就称之为标准化测验。

16.组内常模：组内常模是解释被试原始分数的参照体系，即被试所属那类群体的人（实

际上即常模组被试）在所测特性上测验取值（也就是分数）的分布状况；拿被试分数跟这种分数分布状况作对比，就能揭示出被试在其所属那类群体（即常模组）中的相对地位。

17.学习能力倾向测验：学习能力倾向测验旨在测量一般的学习能力和潜力，即是否具备

较好的进一步学习与研究的潜在能力，而不是已在学校中学到了多少知识。

18.显着性水平：在统计假设检验中，公认的小概率事件的概率值被称为统计假设检验的

显着性水平。

三、问答题

1．试述算术平均数的运算性质及优缺点。

答：算术平均教具有以下几条运算性质：

（1）数据组全部观测值与其平均数的离差之和必定为0。

（2）每一观测值都加上一个相同常数C后，则计算变换后数据的平均数，等于原有数据的平均数加上这个常数C。

（3）每一观测值都乘以一个相同常数C后，这样所得新数据的平均数，其值等于原数据的平均数同样乘以这个常数C。

（4）对每个观测值作线性变换，即乘上相同的常数C，再加上另一常数d，则计算变换数据的平均数，其值等于原数据的平均数作相同线性变换后的结果。

优缺点：

算术平均数具有反应灵敏、确定严密、简明易懂、概括直观、计算简便，并能作进一步的代数运算等优点，是应用最普遍的一种集中量数。

但是，算术平均数需要每一个数据都加入运算，因此，在数据有个别缺失的情况下，则无法准确计算。特别是，算术平均数易受极端数据的影响，一旦在数据分布中出现个别极端数据，就会对平均数产生较大影响，从而使人对平均数产生怀疑。此外，在一些特别情况下，由于各个数据的重要性不同，因此，直接把数据简单相加

以确定算术平均数的方法，不能充分考虑到各个数据的重要性程度。

2．简述实验技能考核需要遵循的原则。

答：实验技能考核需要遵循如下三条基本原则：

（1）实践性为主的原则

即应以动手操作为主，不能停留在笔试形式下考察实验操作知识的方式上。

（2）全面性原则

要尽力考核到实验设计与设计、实验的实施与操作、实验的分析与解释、实验报告撰写等环节。

（3）客观化原则

要建立在行为观察的基础上，客观地评价学生的实验技能。

3．简述统计量与参数的区别与联系。

答：（1）统计量和参数都是反映数据特征的数量，分别相对于样本和总体而言。在总体数据基础上求取的各种特征量数称其为参数，应用样本数据计算的各种特征量数称其为统计量。

（2）总体只有一个，因此总体参数也只有一个，总体参数是常数。样本来自于总体，但样本可有许多个，相应于总体参数，每抽取一个样本就可以求得一个样本统计量，而每一个样本统计量的值都在总体参数的上下波动，都存在一定的差异。每个不同样本的统计量之间也都是不相同的，相对于总体参数而言，有的样本的统计量离总体参数更近，而有的样本统计量会离得更远—些。由此我们看到，样本统计量是一个变量，它随样本抽取的变化而变化，又由于样本的随机性，样本统计量也是一个随机变量。

4．简述统计假设检验的反证法与一般的数学反证法的差异。

答：（1）差异之一是，数学反证法最终推翻假设的依据一定是出现了百分之百的谬误，因此推翻假设的决策无论是从决策逻辑还是从决策内容看都是百分之百正确的。而统计假设检验的反证法最终推翻虚无假设的依据是一个小概率事件，从决策逻辑角度看是百分之百的正确的，但其决策的内容却是有可能出错的。

（2）差异之二是，数学中使用反证法，其最终结果一定是推翻原假设，而统计假设检验这种反证法的最终结果却有可能无充分理由推翻原虚无假设，因为很可能我们依据样本数据计算的检验统计量的取值概率并不是一个小概率，因此也就无理由怀疑虚无假设的正确性。

5.客观题的主要优缺点是什么？

答案要点优：客观；信息量大，覆盖面广；误差小信度高；适合测量明确的知识点。

缺点：难测高层次的心智技能；不易测文字表达和创新思维能力。

6.试述教育测量与教育评价之间的关系。

教育测量与教育评价之间有联系有区别；教育测量侧重于量的规定性方面去把握事物；教育评价关注价值判断，包括优缺点分析；教育测量是教育评价的基础；评价又是教育测量的延伸和功能释能；有些情况下教育测量本身就是系统的教育评价过程。

7.为什么说教育测量与评价在教育中有着重要作用？

在教育系统中对实现教育目标起重要的作用；是课程改革的重要组成部分；教育改革常常把测量与评价的改革或反思作为突破口。

8.请以你熟悉的一门课程试卷为例谈一下怎样制作命题双向细目表？

以教学内容和目标分类为维度并结合某门课程列出命题双项细目表，举例略

9.当前学校的学生课业考评存在哪些主要问题？

过于强调选拔、方法单一、考评抽象和表征化。

10.为什么说教育测量与评价是教师必备的知识技能

正确评价学生是教师的一种职业能力；教师需要测量与评价的方法弥补非正式观察和书面考试的不足；实践证明评价是所有成功教学的基础；发达国家教师教育普遍学习教育测量与评价之类的课程。

11.怎样分析一份试卷的内容效度？

是根据教育教学特性编制的,由评价指标、指标权重和评价标准等构成的工具。

12.什么是教育测量？什么是教育评价？

教育测量是针对学校教育影响下学生各方面的发展，侧重于量的规定性予以确定和描述的过程;教育评价是按照一定的价值标准和教育目标，利用测量和非测量的种种方法系统地收集资料信息，对学生的发展变化及其影响学生发展变化的各种要素进行价值分析和价值判断，并为教育决策提供依据的过程。

13.按解释结果的参照点分类，教育测量与评价可分为哪几类？并具体解释一下。

常模参照测量与评价、标准参照测量与评价和潜力参照测量与评价。

常模参照测量与评价是将被试的水平与测验常模相比较，以评价被试在团体中的相对位置的一种测量与评价类型；标准参照测量与评价是将被试的表现与既定的教育目标和行为标准相比较，以评价被试在多大程度上达到该标准的一种测量与评价；潜力参照测量与评价是将被试实际水平与其自身潜在水平相比较，以评价其有无充分发挥自身潜力为目的。14.简述深刻理解教育测量必须抓住的三个要点。

答：（1）测量的结果就是给所测对象在一定性质的量尺上指定值；

（2）要达到这个目的就要按一定规则来进行一系列工作；

（3）工作如何进行和能在什么性质量尺上指定值，归根到底取决于所测对象本身的性质。15举例说明什么是绝对评分分数。

答：教育工作是一种有组织有目的的活动，要努力追求教育目标的达成。所以，在学校里拿被试在测试上的测值，去跟所测特性的应有标准作比较的事是很多的。很显然，这时测验分数的意义，就完全取决于实得测值与应有标准的关系了。如果达到了要求，就是“合格”的或“已达标”的；如果未达到要求，就是“不合格”或“未达标”的。这里，全然不管其他被试在同一测验上所得测值如何，他们达标与否丝毫不影响被试测验分数意义的确定。这种通过拿被试测值跟应有标准作比较来确定其意义的分数，就叫绝对评分分数。

16.简述影响Ⅱ型错误的主要因素。

答：影响Ⅱ型错误概率大小的因素有三个，

（1）第一个因素是客观的真值与假设的伪值两者之间的差异。

（2）影响Ⅱ型错误概率大小的第二个因素是a值的大小。

（3）影响Ⅱ型错误概率大小的第三个因素是样本容量。

四、计算题（需写出详细计算过程）

1.已知一组数据为20,12,15,18,10；求这组数据的平均数、方差和标准差。（保留2位小数）2-40

答：平均数：X—=（20+12+15+18+10）/5=15

方差：S2=[(20-15)2+(12-15)2+(15-15)2+(18-15)2+ (10-15)2]/5=

标准差：SD=

2.设参加某次考试人数为10657人，其中有6995人的成绩低于90分，试确定卷面90分这个成绩的百分等级PR。（保留2位小数）

答：百分等级PR=6995/10657×100=

3．某数学测验中，甲、乙、丙三位学生的原始分数分别为110分、100分、70分，试求

(1)当该测验平均数为，标准差为时，三位学生的标准分。

(2)按T=10Z+50，三位学生的T 分数分别是多少？

标准分数Z=(X-X —

)/S (1)答：甲：Z 1=/=

乙：Z 2=/=

丙：Z 3=/=

(2)答：

甲：T 1=10Z1+50=

乙：T 2=10Z1+50=

丙：T 3=10Z1+50=

4. 某组成年人身高分别为175、180、177、173、175厘米；某组幼儿园学生身高分别为120、110、115、114、116厘米；问哪一组离散程度大？

( )

解：成年人身高平均值为176厘米，标准差为，CV=1%

幼儿组身高平均值为115厘米，标准差为，CV=2%

%100?=X S CV

所以幼儿组离散程度大。

5、某考试参加人数为2000人，已知成绩呈正态分布，平均分为80，标准差为5。 ⑴问85分以上有多少人？70分以上多少人？

⑵若只能有200人能进入下一轮考试，问能进下一轮考试的分数定多少合适？解：根据标准分数公式σμ-=X Z

⑴Z=1,查表P= 50%%=%，85分以上317人；

Z=-2,查表P= 50%+%=%，70分以上1955人；

⑵P=，Z=,带入公式则进入第二轮考试的分数线为。

6、采用两端组法确定考试题目的区分度和难度，假定44名学生参加考试，其中12名（占总人数44名的27%）高分组学生和12名低分组学生在最后一道论述题（满分值W=15分）上的得分如附表所示，试计算该题目的区分度和难度。[区分度D=P H —P L ；难度D=（P H +P L ）/2]

答：区分度D=P H —P L =；难度D=（P H +P L ）/2=（+）/2=

总人数37名的27%）高分组学生和10名低分组学生在最后一道论述题（满分值W=12分）上的得分如附表所示，试计算该题目的区分度和难度。[区分度D=P H—P L；难度D=（P H+P L）/2]

表2：高分组与低分组论述题得分统计表

区分度D=P H—P L=；难度D=（P H+P L）/2=（+）/2=

8、已知某选拔考试参加人数为1000人，成绩呈正态分布，平均分为75，标准差为10。

⑴若只能有100人进入面试，问面试分数线定多少合适？

⑵若有人考了65分，问该人在团体中处于什么位置（百分等级是多少）？

解:由题意可知求点双列相关

n=10,p=6/10,q=4/10, x P=(75+57+73+65+63+67)/6=,

=(67+56+61+65)/4=

SΧ=

r pb=(x P -x q)/S xˉpq=所以区分度不明显。

总人数52名的27%）高分组学生和14名低分组学生在最后一道论述题（满分值W=10分）上的得分如附表所示，试计算该题目的区分度和难度。[区分度D=P H —P L ；难度D=（P H +P L ）/2]

区分度D=P H —P L =；难度D=（P H +P L ）/2=（+）/2=

10、某次考试中选择题与总考试成绩如下表,求该选择题的区分度。（教育测量学中试题的

区分度以题目得分与试卷总分的相关系数表示）

（公式：pq S Y X r x q

p pb -=）

解:由题意可知求点双列相关

n=10,p=6/10,q=4/10, x P =(75+57+73+65+63+67)/6=,

x q =(67+56+61+65)/4=

S Χ=

r pb =(x P -x q )/S x ˉpq =所以选择题区分度。

11某次高考模拟试卷高一的5名学生做所用时间分别为170、120、110、160、130分钟；高三的5名学生做所用时间分别为50、70、90、55、45分钟；问高一和高三哪一组离散程度大？

解：

所以高三学生离散程度大。

12、教育测量学中试题的区分度以题目得分与试卷总分的相关系数表示，下表是一次测验的有关数据：

已知第一题为选择题，试求其区分度。

（公式：pq S Y X r x q

p pb -=）

解:由题意可知求点双列相关

n=10,p=6/10,q=4/10, x P =(75+57+73+65+63+67)/6=,

x q =(67+56+61+65)/4=

S Χ=

r pb =(x P -x q )/S x ˉpq =所以区分度不明显。

13、某市举行选拔考试，共1000人参加，已知此次考试平均分为60分，标准差为10，问

（1）如果只录取100人，那么录取分数线定为多少合适？

（2）如果某人考了70分，但只能有150人参加面试，问该人是否能进入面试？解：根据标准分数公式σμ-=X Z ⑴28.110

65=-=x Z 面试分数线为 ⑵Z=1,P= 面试人比例为50%%=%；159人。

不能进入面试

五、假设检验

1男女生各一组参加某推理测验，已知该测验呈正态分布且总体方差相等。男生15人，平均分和标准差分别为82和9；女生13人，平均分和标准差分别为85和11。问男女生在该测验得分有无显着差异？

(a=,自由度为26时,t 的临界值为

[ 检验统计量：)11(2)

()(21212222112121n n n n S n S n X X t +-++---=μμ]

附表1: 正态分布表：

1、解：①提出假设H0 ： μ1 = μ2

H1 ： μ1 ≠ μ2

② ③根据显着性水平查表确定临界值t= ④比较统计量与临界值可知未落入危机域，所以男女学生在测验上得分无显着差异。 2对男女大学生进行某测试（已知该测试成绩服从正态分布且总体方差相等）其结果如下，试在α=显着水平上检验男女生在该测试上是否存在显着的差异。

7645

0)151131(2151381)115(121)113()8285()11(2)1()1()

(21212

2221121?=+-+?-+?--=+-+-+--=n n n n S n S n X X t