当前位置:文档之家› 教学测量与评价

教学测量与评价

第一章 教育测评概述
(一)测量的定义
测量是根据法则给事物分派数字。(史蒂文斯)
一、教育测量
测量这一定义包含了三个要素:
1、法则——给事物的属性分派数字的依据
2、事物属性——测量的对象或目标
3、数字——描述事物属性的符号
(二)四种测量量表
量表一般称为测量工具。
1、名称量表—(类别量表)最低水平的一种量表
它只是用数字表明事物的类别或性质不同而已,没有任何数量大小的意义,不能作数量化分析,也不能将之进行加减乘除运算。
2、等级量表—(顺序量表)
用来描述各个类别的数字,不仅具有区分性,而且还具有等级性(或顺序性),因此,量表上的数字之间能表示事物大小的位次关系,但不具有等距性和可加性,也不能进行加减乘除运算。
3、等距量表—
量表上的数值不仅具有区分性、等级性,还有等距性,这类量表上的数值只能作加减运算,不能作乘除运算。
4、比率量表—最高水平的量表
有相等单位和绝对零点,量表数值可以进行加减乘除的四则运算。
(三)什么是教育测量
教育测量就是依据一定的法则,对教育活动中的某一现象给予数量化的描述。

思考:
心理属性是否也可以客观地进行测量呢?

两个理论基础
“凡物的存在必有其数量”(桑代克)

“凡有数量的东西都可以测量”(麦柯尔)
教育测量的特点
测量结果的间接性和推断性
测量对象的复杂性和模糊性
测量目的的针对性
度量单位的相对性

什么是教育评价
思考:
当你看到这个问题时,或者说,当你听到教育评价这个词时,你最先想到的是什么?
实验结果:依人数的多少排列:
师范生:
A、测验 B、等级 C、成绩 D、不公平 E、判断
任课教师:
A、测验 B、测量 C、等级 D、成绩责任制 E、对个人秘密的侵犯
(一)教育评价的界定
1、教育评价就是教育测验
2、教育评价是一种专业判断
3、教育评价是把实际表现与理想目标相比较的活动
4、教育评价是系统收集资料,为决策提供依据的活动
教育评价:教育评价是根据一定的教育目标,运用可行的科学手段,通过系统地收集信息资料和分析整理,对教育活动、教育过程和教育结果进行价值判断,从而为教育决策提供依据的过程。

(二)教育评价的特征
1、教育评价=事实判断+价值判断
2、教育评价是对教育过程及其结果的评价
3、教育评价必须以教育目标为基准
4、教育评价是评价者与被评价者的双边合作活动

三)在区别上理解教育评价
1、教育评价与教育测量
联系:
教育测量是教

育评价的基础,教育测量是对教育进行量的测定,所或得的结果是教育评价所需信息的主要的、可靠的来源,是对教育的状态和价值进行客观判断的前提;
教育测量的结果只有通过教育评价这个环节才能获得实际意义,否则便成了一堆抽象而枯燥的数字。
区别:
两者着眼点不同:教育测量是为了取得数据;教育评价是要分析解释,对教育价值作出判断。
两者特点不同:教育测量是一种纯客观的过程,具有客观性特点;教育评价具有客观性与主体性相结合特点。
两者复杂程度不同:教育测量是对教育数量化的描述,关心量的获得,活动较为单一;教育评价着眼于事物质的判定,含定性与定量分析,活动是多重的。

2、教育评价与教学评价
联系:
教学评价是以教学为对象的教育评价,只是教育评价的一个方面,用逻辑学术语讲,教育评价是一个上位概念,而教学评价仅是一个下位概念。
区别:
教育评价的范围比教学评价要广得多,它不仅关注教学评价,还有学校管理评价、教师评价、学生评价、课程评价、总务评价等等。

3、教育评价与教育督导
联系:
两者皆以党和国家的教育方针、政策、法规为依据;
目的都是为了加强对教育工作的科学管理,全面提高教育质量;
督导工作过程主要有监督、检查、评价、指导、反馈若干环节,评价是诸环节的核心,无论是监督和检查,还是指导和反馈,都离不开评价这个手段。
区别:
评价只是督导工作内容的一部分,只构成督导工作的前提和基础,而不是其全部;
督导工作中所使用的评价即督导评价是一种自上而下的他人评价,只是教育评价的一种形式,而不是教育评价的全部。

(四)教育评价的类别
1、从评价主体上分
他人评价
自我评价
2、从评价标准上分
相对评价
绝对评价
内差异评价
3、从评价功能上分
诊断性评价
形成性评价
总结性评价
4、从评价方法上分
定性评价
定量评价

三、教育测评的发展阶段
(一)教育测量的发展阶段
1、教育测量的萌芽阶段(1864年以前)
(1)中国古代教育测量
A、中国是考试制度的发源地
根据《学记》记载,早在我国的西周时期,就实行了教育考评。所以,教育测量发生的最早源头在中国。
B、中国科举制度的世界地位
科举考试始于隋,兴盛完备于唐,废于清末,是我国实行时间最长的一种选士制度,对我国乃至于对世界的考试制度有重要的影响。
科举制是通过分科考试来选取人才,采用口试、贴经、墨义、策问、诗赋等方法测试考生。

(2)西方教育测量的发展
A、教育测量的诞生
18世纪以前的西方各国,

由于学校尚未普及,学校考试主要是口试。
1720年,英国剑桥大学首先以笔试替代口试,开西方学校考试笔试之先河。
1845年,美国初等学校普及,学生人数激增,对毕业生一一口试已不可能,于是,美贺拉斯曼于1847年引进笔试,取代口试。

B、教育测量的蓬勃兴起
1864年,英国格林威治医院附属学校的教师费舍,收集了许多学生成绩样本,汇集了一本《量表集》,作为度量学生各科成绩的标准,这可以说是客观标准化测量的萌芽。
引起人们对测验问题极大关注的是美莱斯博士的拼字测验。
20世纪初,比纳智力量表推出,比纳被称为智力测量鼻祖。
1904年,美国心理学家桑代克出版《心理与社会测量学导论》,桑代克被称为教育测量鼻祖。
C、教育测量的深入发展
教育测量量表的编制突破了过去单一答案的求同思维题,发展到有了求异思维题和论文题;
教育测量范围由过去偏重于学生学习成绩的测量,发展到涉及课程设计、教材、教育改革方案等的测量;
教育测量由过去单一的常模参照性测验模式,发展到常模参照性测验与目标参照性测验相结合的模式;
教育测量本身的理论研究与技术开发更加深入与完善。

(二)教育评价的发展
1、现代教育评价的产生
教育评价产生于本世纪30年代对美国测量运动的反思与批判。
教育评价产生的标志是“八年研究”。
泰勒提出了教育评价的概念,且提出了以教育目标为核心的教育评价理论,泰勒被称为“教育评价鼻祖”。
2、现代教育评价的发展阶段
初步发展时期(1930—1958年)
这一阶段教育评价仍然受泰勒模式的影响,注重教育目标的研究;
迅速发展时期(1958—1972年)
这一阶段泰勒模式受到挑战,出现了不少新的教育评价理论与模式;
专业化发展阶段(1973年以后)
这时期教育评价发展具有一个显著特点:就是走向专业化。


第二章 教育测量的质量指标
衡量教育测量的质量,可采用四个指标:
信度 ,效度(主要对整个测量而言)。
难度,区分度 (主要对测量的项目而言。)
一、信度概述
(一)什么是信度
信度是指测量结果的稳定性或可靠性程度。
一般地说,一个好的测量必须具有较高的信度,也就是说,一个好的测量工具,只要遵守操作规则,其结果就不应随工具的使用者或使用时间等方面的变化而发生较大的变化。
必须从以下两个方面去理解测量的信度:
信度指实测值(X)和真值(T)相差的程度;
信度指两次重复测量或等值测量之间的关联程度。
(二)信度的估计方法
1、重复信度(再测信度)
指的是同一个量表对同一组被试施测两次所

得结果的一致性程度。
其大小等于同一组被试在两次测验上所得分数的相关系数,一般采用皮尔逊积差相关的公式来计算。
例一
用一个算术四则的速度测验12个小学生,得分记为X,为了考察测量结果的可靠性,于3个月后再测一次,得分记为Y,问测验结果是否可靠?
学生序号 1 2 3 4 5 6 7 8 9 10 11 12
X 20 20 21 22 23 23 232425262627
Y 20 21 21 20 23 23 252526262729

在使用重测法计算稳定性系数时,应注意以下问题:
1、信度的取值范围为[0,1],当信度值较大时,说明前后两次测量结果比较一致;
2、两次测验之间的时间间隔要适宜。应由测验的性质、测题类型、测题数量和被试特点所决定;
3、重测法适用于速度测验而不适用于难度测验;
4、应注意提高被试者的积极性。

2、复本信度
指的是两个平等的测验测量同一批被试所得结果的一致性程度。
其大小等于同一批被试在两个复本测验上所得分数的相关系数。
所谓复本测验是指在性质、内容、题型、题数、难度等方面都一致(或相等)的两份或多份测验。
例二
以A、B两型英语复本测验对初中三年级10个学生施测,为避免由测验施测顺序所造成的误差,其中5个学生先做A型测验,休息15分钟后,再做B型测验;而另5个学生先做B型测验,休息15分钟后,再做A型测验。10个学生A型测验结果记为X,B型测验结果记为Y,其测验的复本信度如何?
学生序号 1 2 3 4 5 6 7 8 9 10
X 19 19 18 17 16 15 15 14 13 12
Y 20 17 18 18 17 15 13 15 12 12


复本信度的优缺点表现:
优点:
1、测验的两个复本,如果在不同的时间使用,其信度既可以反映在不同时间的稳定性,又可以反映对于不同测题的一致性;
2、两个复本在同时使用时,可以避免再测信息的一些缺点,如首测时再测在记忆、练习、效果的影响,间隔期间获得新知识的影响,两次施测的环境不同和被试主观状态不同的影响,以及为了应付测验所作训练的影响等。

缺点:
1、编制两个完全相等的测验是很困难的,如果两个复本过分相似,则变成再测形式,而过分不相似,又使等值的条件不存在;
2、两个复本测验有可能在某种程度上测量了不同的性质,这就会低估测验的信度;
3、被试同时接受性质相似的两个测验,可能减少完成测验的积极性;
4、虽然两个复本测验的题目材料不同,但被试一旦掌握了解题的某一模式,就能触类旁通,有可能失去复本的意义。

3、折半信度(分半信度)
就是将测验分半,再求被试在每一半测验上所得分数的相关系数。
首先根据内容、形式、

题数、平均数、标准差、难度、测题间相关以及分布形态相等的原则,将试题分成两半,或者将从易到难排列的测题,按照测题序号,奇数测题为一组,偶数测题为一组,分成两半;
然后计算每个被试在两个分半测验分数的积差相关系数,再用斯皮尔曼—布朗公式加以校正。
斯皮尔曼—布朗公式为

例三
对初中一年级学生进行地理成绩测验,每答对1题得1分,答错1题得0分,其测验结果如下表,试估计该测验的折半信度?
学生序号 题 序
1 2 3 4 5 6
1 1 0 0 0 0 0
2 0 0 0 1 0 0
3 1 0 1 0 0 0
4 1 1 0 0 1 0
5 1 0 0 1 0 0
6 1 1 1 0 1 1
7 1 1 1 1 0 1
8 1 1 0 1 1 0
9 0 1 1 0 0 1
10 1 1 1 1 1 1

作业
1、用某量表测验10名学生,得分记为X,为了考察结果的可靠性,于15天后用原量表对这10个学生重测一次,得分记为Y,问测验结果是否可靠?
学生序号 1 2 3 4 5 6 7 8 9 10
X 8 10 9 6 10 7 5 7 9 4
Y 9 10 10 6 10 8 4 8 9 4



2、对10名应试者先进行某种测验X,隔适当时间后(半年),再进行内容、范围、难度类似的第二次测验Y,试求测验的复本信度?
应试者 1 2 3 4 5 6 7 8 9 10
X 9 10 10 6 10 8 4 8 9 4
Y 4 9 7 9 4 3 5 3 2 4


3、有一个由100题构成的量表施行于10个高三学生(分数见下表)。测验一次后,学生即毕业离校,现怎样评价测验结果的信度?
学生序号 1 2 3 4 5 6 7 8 9 10
奇X 38 37 38 41 40 36 38 39 40 35
偶Y 37 37 36 39 39 34 38 39 39 36


(三)提高信度的方法

1、影响测量信度的主要因素
(1)被试方面
(2)主试方面
(3)施测情境方面
(4)测量工具方面
(5)两次施测的间隔时间方面

2、提高测量信度的常用方法
(1)适当增加测验的长度
(2)测验的难度要适中
(3)测验的内容应尽量同质
(4)测验的程序应统一
(5)测验的时间要充分
(6)测验的评分要尽量做到客观化,减少评分误差

二、效度的概念
(一)什么是效度
效度是指测量结果的准确性和有效性的程度。也可以说是测量是否达到了预期的目的。
1、效度是一个相对的概念。
(1)测量的效度是相对一定的测量目的而言的
(2)测量的效度是相对测量的结果而言的
2、一

种测量的效度只是高或低的问题
测量结果总是有一定效度的,只是效度高低不同罢了。

(二)效度的估计
效度估计就是多方寻找证据来证明一个测验的有效性程度的过程。
1、内容效度
就是指测验内容对所要测量的内容的代表性程度。也就是说,测验的内容范围、材料与所要测量的内容范围、教育目标是否相符合;测验中测题所引起的行为是否是所要测量的属性的明确反应;测验的结果是否是一个有代表性的行为样本。
为了使测验的内容具有有效性,成为所欲测量内容的一个具有代表性的行为样本,在编制测验时,就要考虑建立内容效度的问题。

2、内容效度的估计
(1)逻辑分析法
其工作思路是请有关专家对测验题目与原定内容范围的吻合程度作出判断。
(2)统计分析法
从同一个教学内容总体中抽取两套独立的平行测验,用这两个测验来测同一批被试,求其相关。若相关高,表明测验内容效度较高;若相关低,表示测验的内容效度较低。
采用求统计量的公式进行计算,其公式有以下三种形式:

例一
在《社会发展史》某一单元教学之前,对学生进行有关这一单元内容的测验。教学之后,再以复本测验施测,两次测验分数如下,试检定测验的内容效度?
学生序号 1 2 3 4 5 6 7 8 9 10
教学前X 34 40 32 30 31 35 44 33 42 36
教学后Y 52 64 50 54 58 63 72 62 62 50

结论
然后根据自由度df=N-1=9,查t值表,寻得0.01显著性水平t的双侧临界值为t(9)0.01=4.781,而实际计算出的[t]=13.9>74.781=t(9)0.01,于是可以说,教学前后学生在两个复本测验上得分的平均数有极显著性差异,从而可以作出判断,《社会发展史》中该单元测验的内容具有有效性,或内容效度较高。
内容效度主要应用于成就测验、学科测验、选拔和分类职业测验。
内容效度不适合用于能力倾向和人格测验。

2、结构效度
是指测验对于人的心理特性或理论概念测量到的程度。通常用某种操作来定义,并用测验来测量。
例如:人的创造力可以分解为人的思维流畅性、灵活性和创造性三大特性,并根据这三大特性编制测验,若有足够的证据来证明该测验确实可以测到这些特性,则认为该测验是个结构效度较高的创造力测验。

(1)结构效度的特点
结构效度的大小完全取决于事先假定的心理特质理论,一旦人们对同一种心理特质有着不同的定义或假设,则会使得关于特质测验的结构效度的研究结果无法比较。
当实际测量的资料无法证实我们的理论假设时,并不一定就表明该测验结构效度高。因为还有可能出现理论假设不成立,或者该实验设计不能对该假设作适

当的检查等情况,这就使得结构效度的获取更为困难。

(2)建立结构效度的步骤
A、提出理论假设;
B、根据假定结构拟定测题,编制测验;
C、以测验结果为根据来验证假设结构中的各种因素是否成立。
(3)结构效度的估计
A、因素分析法
其目的是把一些具有错综复杂关系的因素归结为数量较少的几个综合因素或称共同因素,并以此测验所测之特质对测验分数作出解释。
B、多元特质多重方法矩阵法
是由肯贝尔和菲斯克1959年提出的最受欢迎的一种结构效度的评估方法。
这种方法的设想:若采用两种方法以上的方法去测量两种以上的特质,那么这些测量结果之间可以形成一个多元特质多重方法矩阵。
从理论上说,以不同方法测量同一特质的相关应当为最高;以相同方法测量不同特质的相关次之;以不同方法测量特质的相关为最低。
与内容效度不同,结构效度主要用于智力测验、人格测验等一些心理测验方面。

3、效标关联效度
是以测验分数和效标之间的相关系数来表示测验效度高低的方法。
例如:某年全国高考物理学科的测验效度,可用大学一年级物理学科的测验分数为效标,然后求同一组学生高考物理得分与大一物理得分之间的相关,此相关系数就是该年高考物理测验的效标关联效度系数。当这个相关系数与总体零相关有显著性差异时,相关系数的值(正值)越大,效度就越高;相关系数的值越小,效度就越低。

效标不仅随测验的种类不同而不同,而且可能随时间而改变,现在是一个好的成功的效标,将来就不一定是。所以,为某个测验选择一个最有效的效标,这是最重要的事情。
教育测验的效标,可采用各学科成绩和教师评定的结果;
智力测验的效标,可采用学科成绩、教师评判的结果、学生总成绩、受教育年限、年龄以及其他事物;
能力倾向测验的效标,可采用特殊课程或特殊训练的成绩;
职业兴趣测验的效标,可采用从业人员实际服务成绩或记录;
人格测验的效标,可采用编制者的主观标准,或以被试以后行为或临床资料。

效标关联效度的估计方法
(1)相关法
由于测验分数和效标分数这两个变量的类型不同,二者相关系数的计算方法也就不同。
A、积差相关法:适用于两个变量为连续变量
进行显著性检验:
自由度df=N-2,检验的是两个变量,都减去2;
置信度取0.05,查相关系数界值表,寻找临界值;
结论:r>临界值,说明显著相关,效度高;r<临界值,说明无相关,效度低。

例二
用一套高中数学成就测验对某校高一10个学生施测,其测验分数X如下,并以这些学生的物理学科考试

成绩为效标,试估计高中数学成就测验的效标关联效度系数,且检验数学和物理两成绩变量是否相关?效度如何?
学生序号 1 2 3 4 5 6 7 8 9 10
数 学 X 88 80 68 60 96 32 32 64 64 75
物 理 Y 94 78 56 48 70 38 62 78 70 82

B、等级相关法
如找不到效标分数,可用等级分数(即排名的次数)来替代
适用于连续变量数据小于30,精确度稍差于积差相关

例三
高中一年级学生10个学生数学测验与物理学科成绩如下表,试计算数学测验的效标关联效度系数?
学生序号 1 2 3 4 5 6 7 8 9 10
原始分X 88 80 68 60 96 32 32 64 64 75
数学
等级Rx 2 3 5 8 1 9.5 9.5 6.5 6.5 4
原始分Y 94 78 56 48 70 38 62 78 70 82
物理
等级Ry 1 3.5 8 9 5.5 10 7 3.5 5.5 2

C、点二列相关法
当测验分数和效标分数其中一个变量为连续变量,而另一个为真正的二分变量时,测验的效标关联效度系数用点二列相关系数来表示。
适用于两变量:一列变量为连续变量;另一列变量为二分名义变量。

例四
对16个学生的某一学科进行测验,所得测验分数如下,并从中探求学生的这次考试的成绩与其预习与不预习的关系如何,也就是试估计学科成绩测验的效标关联效度?(其中预习用1表示,不预习用0表示)
学生 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
成绩97 92 75 68 74 99 78 80 70 64 87 96 54 86 93 80
预习 1 0 1 0 1 1 0 1 0 1 0 1 0 1 1 0

2、区分法
该方法的思路是:被试接受测验后,让他们工作一段时间,再根据工作成绩好坏分成两组,然后再回过头来分析这两组被试原先接受测验的分数差异,若这两种人的测验分数差异显著,则说明该测验有较高的效度。

作业
1、用一套高中生成就测验对某校高二15个学生施测,其测验得分如下,并以这些学生校内生物学科的期末成绩为效标,试估计高中生物成就测验的效标关联效度?
学生序号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
测验分数X 42 38 50 40 42 48 39 45 41 43 46 36 54 44 42
校内成绩Y 72 66 85 70 78 83 69 82 72 75 77 82 90 84 80

2、小学五年级12个学生阅读理解能力测验与平时阅读作业成绩如下,试计算阅读理解能力测验的效标关联效度系数?
学生序号 1 2 3 4 5 6 7 8 9 10 11 12
能力测验 32 33 34 34 36 37 38 39 40 41 43 45
平时成绩 8 6 4 9 7 11 3 5 13 14 12 10
3、对20个学生进行机械性向测验,其男(以0表示),女(以1表示)。学生测验得分如下,试估计机械性向测验的效标关联效度?
学生 1 2 3 4 5 6 7 8 9 1011

121314151617181920
分数16 14 14 13 15 18 22 10121617191120111816211315
男女 0 0 1 1 1 0 0 1 1 1 0 1 1 0 1 1 0 0 1 1


三)提高测量效度的方法
1、影响测量效度的因素
测验的构成(要素)
测验实施方面(过程)
被试主观状态方面
估计效度所依循的效标
样本方面

2、提高测量效度的方法
控制系统误差
精心编制测验量表
扩充样本的容量和代表性
合理处理效度和信度的关系
妥善组织测验
适当增加测验长度

三、难度
难度是指试题的难易程度。
一道试题,如果大部分被试都能答对,则该题的难度就小;如果大部分被试都不能答对,则该题的难度就大。
一个题目的难度大小,除了所测的内容本身的难易程度有关以外,还与测验的编制技术和被试的知识经验有关,由于学得不清楚或者因被试没学过,一个本来容易的题可能变难。这就是说测验的难度具有相对性,正因为此,必须让试题通过实践来对难度作出检验。
难度的计算
(一)基本公式
1、客观题难度的计算
P=R/N
R为答对该试题人数,N为参加测验总人数
例1:在100个学生中,答对第一题的30人,答对第二题的60人,求第一、二道题的难度?比较这两道题谁比谁难?

2、主观题难度的计算
例2:某道论述题满分12分,所有考生在这道题上的平均得分为3.6分,求该题的难度?
例3:语文测验第五题最高得分为12分,这道题考生的平均得分是8.5分,求该题难度?
例4:60人参加考试,某题满分为12分,正确得分累积是480分,求该题难度?

(2)极端分组法
步骤:
将测验总分进行高低排序(由高到低)
进行高低分组(各取27%),并计算某题的得分率
求两组的平均值
公式:
P=(PH+PL)/2
PH为高分组答对该题的百分比;
PL为低分组答对该题的百分比。

例5
某区域1000人参加考试,试卷第一题高分组180人答对,低分组60人答对,求该题难度?
如果该题满分为10分,高分组得分总数为2100分,低分组得分总数为830分,求该题难度?
2、难度的分析与控制

(1)难度分析
进行难度分析的主要目的是为了筛选题目。
A、测验题目难度水平的确定
测验题目难度水平的适当与否,取决于测验的目的、性质和题目的形成。
当P值接近于0或接近于1时,即被试在该题上全部答对或全部答错,则该题无法提供个体的信息。而只当P值接近于0.50时,题目才能把被试做最大的程度的区分。但在实际工作中,若每一题的难度值均为0.50,那么此测验很可能只能区分出好与差两种极端被试的差异,却不能对各种被试作更精确的区分。因此,一般各题的难度可在0.50+20之间。
B、测验难度对分数分

布的影响
测验的难度直接依赖于组成测验的题目的难度,通过考察测验分数的分布,可以对测验的难度做出直观检查。
由于多数人的心理特性多数呈正态分布,因此当测验目的在于测量个体差异时,若被试样本具有代表性,则其结果应呈正态分布。
测验分数背离正态分布有两种情况:其一是题目难度普遍较大,被试得分普遍较低,使得低分端出现高峰,呈正偏态;其二是题目难度普遍较小,被试的得分普遍较高,使得高分端出现高峰,呈负偏态。

2、难度的控制
一般说来,影响题目难度的主要因素有:
考察知识点的多少;
考察能力的复杂程度或层次的高低;
考生对题目的熟悉态度;
命题的技巧。
难度控制:
正确估计考生水平;
弄清弄懂各知识点;
掌握命题技巧。

四、区分度
(一)区分度的含义
指测验题目对考生实际水平的区分程度或鉴别能力。
如一道题,学业水平、实际能力都较高的考生都答对了;而学业水平、实际能力都较低的考生都答错了,则可认为该题目有好的区分度。
区分度分析主要以效能为依据,考察考生在每个题目上反应与其在效标上的表现之间的相关程度。
区分度(D)的取值范围介于- 1.00—+1.00之间,值越大,区分度的效果越佳。
区分度D>0为正区分,D<0为负区分,D=0为零区分

(二)区分度的计算
1、极端分组法
(1)客观性试题
D=PH-PL
例6:有道试题,高分组有70%学生通过,低分组有30%的学生通过;而另一道题,高分组有40%学生通过,低分组有70%学生通过,求两题的各自区分度?

(2)主观题
D=(XH-XL)/N(H-L)
XH为高分组得分总数
XL为低分组得分总数
H为该道题的最高分
L为该道题的最低分
N为应试总人数的27%。

例7

高分组 低分组
得分X 人次f 得分X 人次f
5 4 5 0
4 3 4 1
3 2 3 1
2 1 2 3
1 0 1 4
0 0 0 4


2、相关法
点二列相关法

例8:15个学生在数学测验中得分记录如下,计算数学测验中第一题的区分度?
学生 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
测验 65 70 31 49 80 50 35 10 81 69 78 55 77 90 42
第一题 0 1 0 1 1 0 1 0 0 1 1 0 1 1 0

二列相关

例9:已知一测验中某选择题的通过率为0.5,答对者的测验总分平均为76分,答错者的测验总分平均为63分,全体被试20人总分的标准差为16,求该题的区分度?

(三

)提高区分度的方法
1、使题目的难度适中,使整个考试难度适中
题目的难度适中可使区分度达到最大值,因此,使难度适中是提高区分度的重要方法。
2、着重考察复杂的学习结果
使高能学生得高分或低能学生得低分,使分数尽量分布在整个分数量尺上。
3、掌握区分度的评价标准。



第三章教育测验的编制与实施
一、教育测验编制的一般程序
(一)确定测验目标
1、什么是测验目标
测验目标是测验编制者所编制的测验所要达到的某种具体的目的。它明确规定测验所要达到的预期结果或标准。
确定测验目标是编制测验的首要前提。

2、测验目标与教育目标分类
测验目标的确定是以教育目标分类理论为基础的。
(1)布鲁姆的认知目标领域
知识:这是最低等级的认知目标。主要指记忆知识。对学过的知识和有关材料的识别和再现。
理解:这是最低层次的理解。主要是对知识的掌握,其特点是脱离了“死记硬背”。
应用:指的是将学过的材料(知识)应用到新的具体情景中去。
分析:指能将知识进行分解,找出组成要素,并分析其相互关系及组成原理。
综合:与分析相反,指把各个元素或部分组成新的整体。
评价:指根据一定的标准对事物给予价值判断。
布氏上述六类目标是有层次、有顺序的,知识是最低层次,是最基本的要求。其余依次是理解、应用、分析、综合、评价。评价为认知领域的最高层次,是前面五种目标的综合并增加了价值标准。这六类目标,由简单到复杂,由低级到高级依次排列,组成层次结构。
(2)我国认知目标的分类
A、五分法
知识
理解
应用
分析综合
创造
B、四分法
识记
理解
简单运用
综合运用

(二)确定测验内容

测验内容的确定,实际上也就是内容抽样的决定和测验目标的确立相结合而成。
这一结合过程必须通过命题双向细目表来确定。
命题双向细目表由3个要素构成:
测验目标
测验内容
测验目标和测验内容的比例

比例确定标准
每一内容范围的比例应与该内容项目在整个教学领域里的相对重要性相符合,这种相对重要性可由该内容项目的教学课时的多少来体现;
每一目标层次所要求的比例应当与测验编制者认为这个目标对所受测学生的水平所具有的重要性相符。
测验双向细目表,是编制测验的蓝图,它详细说明了测验的内容、测验目标,对试题数量、考试时间安排、测验分数分配等,都起着重要作用,因此,它是编制测验必不可少的一环。

测验材料的收集必须遵循的原则:
1、测验材料要适合测验目的
2、测验材料要能够代表该教材的全部内容

3、测验材料要有普遍性
4、测验材料要适合学生程度并能鉴别学生的学习水平
5、测验材料要能激发学生的进取心

(三)测验设计
1、测验形式的确定
2、测验题目形式的确定
3、测验具体题型的确定与题目编制
4、测验题目量的确定
5、测验时间的确定
6、测验题目的编制
先按试题的形式及内容分类
从易到难排列
二、测验题目编制技术
1、客观性测验题目的编制(约占60%左右)
试题应反映教学内容的重点或教学过程中要求学生掌握的有意义的内容和知识点;
务必使每道试题自成一体,不可互相牵扯;
试题文字力求浅显易懂,题意明确;
试题的答案应该是明确且唯一的;
试题应按教育目标的要求,内容不能超过受测者的知识和能力。

2、主观性测验题目的编制(大约占40%左右)
试题应考查教育内容中的重要问题;
把问题和实际情景结合起来,强调知识的应用;
要给被试发挥自己创造力的余地;
要使答案的复杂程度与被试的成熟程度相符。

三、教育测量分数的整理和分析
编制频数分布表
求组中值
求全矩
求组数
求组限
画频数分布曲线图

分析频数曲线图
1、常态分布
即成绩中等的多,优秀和差的少,俗称“中间大,两头小”。学生的学业成绩呈常态分布,表明能正确、客观地反映学生真实的知识程度和能力水平。这是因为学生智力及其差异,一般是呈常态分配的;另外,教学大纲的制定、教材的编写、考试命题都是从大多数中等程度学生的实际出发,为大多数中等水平的学生经过努力能接受的。
2、正偏态分布
即低分人数很多,高分人数很少。学生的学业成绩呈正偏态分布,表明测试难度过大,考试要求过高,超越大纲和教材的要求;或者学生的基础差,应调整试题的难度或教学进度。
3、负偏态分布
即高分人数很多,低分人数很少。学生的学业成绩呈负偏态分布,表明测试较易,考试要求低于大纲或教材要求;或学生的基础好,应加大试题的难度和教学的进度。

4、驼峰型分布
即低分高分人数很多,中分人数很少。学生的学业成绩呈驼峰型分布,表明试题难度过大和过小的题较多,中等难度的太少;或表明学生基础相差悬殊,好的和差的学生多,中等程度的学生较少。
5、平波型分布
即中低高分人数差不多。学生的学业成绩呈平波型分布,表明大中小几种难度的试题比较接近,或学生的基础相差不大,试题区分度低,需要提高区分度。
6、陡峭型分布
即中分人数很多,低高分人数极少。学生的学业成绩呈陡峭型分布,表明难度中等的试题比例过大,缺乏区分度或学生的基础相差不大,

要提高试题的区分度。

学生的成绩分布曲线的形态多种多样,是教学过程中多种现象的反映,这些现象都是通过原因与结果的连续和交织形成的。造成这种现象的原因是复杂的,往往与教师的教学态度、教学水平、教学经验有关,与学生的学习态度、学习基础、学习方法、学习习惯有关,与学校的思想政治工作和行政管理工作质量有关,与社会因素和家庭教育有关。


逐题分析法
就是对试卷中每一道题的得分和失分情况进行分析,将每题的高分率(指该题高于应得分数的90%的人数的百分比)、及格率、不及格率和零分率统计出来,以便分析学生对每道试题的掌握情况和存在问题。


第四章 教育评价的方法
教育评价方法是指收集、整理、优化信息资料的手段和技术。它是为达到评价目标,根据评价的原则选定的有利于各种评价力量协同工作的一整套活动方式。
一、定性分析方法
是用语言描述形式以及哲学思辨、逻辑分析揭示被评价对象特征的信息收集分析、处理的方法。如:观察法、综合分析法、访谈法、归纳法等。

定性分析法在教育评价中的作用

为定量分析活动提供基础

为定量分析结果提供说明

为被评人员改进工作提供指南
1、观察法
是一种简单易行的方法。它是评价者根据评价对象和指标内涵的要求,有目的有计划地直接进行自然状态或控制条件下观察并获取信息资料的过程。
观察法适用于各种评价,主要是以“听”和“看”为基本手段。
运用观察法的要求:
有针对性
有很强的洞察力,能“眼观六路,耳听八方”,透过现象看本质
作好即时现场记录


以教师课堂教学评价的观察为例
根据评价目的和质量要求,设计好听课记录表格;
根据调查活动的时间安排和参与评价人员的业务素质确定听课人员,听课人员一般应由懂得此门学科的人员或专业人员参加;
听课人员进入课堂听课,并根据授课人的教态、学生的反应等情况,及时作好记录,或填写好听课记录表;
将听课记录表收集起来进行统计处理,对授课人的水平作出综合分析结论。

2、逻辑分析法
逻辑分析的方法是教育评价中运用最多,也是最重要的手段之一。这不仅是因为搜集的评价资料中存在着大量的非数量化的材料,难于进行统计分析,而且即使进行统计分析,其结论的解释、说明等也需要借助逻辑分析的方法作更深层的分析研究。
逻辑分析的方法是运用辩正唯物主义的哲学观,透过事物的现象认识并揭示其本质,从事物的外部联系深入到内部联系,从偶然事件中发现必然规律,并从整体把握事实真相的方法。
其具体的

方法有:分析与综合、抽象与概括、分类与比较、归纳与演绎、具体化与系统化等。

二、定量分析法
是指用数值形式以及数学、统计方法反映被评价对象特征的信息分析、处理的方法。如:算术平均值法、矩阵法、权数分配法、推断统计法。
定量分析法在教育评价中的作用
数量分析是获得评价结论的重要依据
定量分析是表述评价结论最简洁的方法

定量分析的具体方法

1、算术平均值法
2、加权平均值法
3、矩阵法
4、权数分配法
5、推断统计法

三、设计教育评价指标体系的方法
(一)目标与指标
1、目标
目标即目的,泛指人们从事活动所达到的目的。
2、指标
指综合反映某种社会现象状况的一些数字,把这些数字与反映对象某一方面的因素结合起来,就构成了指标。
简单地说,指标就是目标一个方面的规定,它是具体的、可测量的、行为化和操作化的目标。


3、指标体系
任何一指标都不反映全部的目标,它只反映目标的一个方面。或者说,它只反映目标的一个局部,只有系统化的,具有紧密联系的一群指标,才反映全部的目标,称之为指标体系。

目标与指标有和联系与区别?

联系:
(1)目标是指标的根据和基础;
(2)指标是目标的具体化和操作化,是操作化了的目标;
(3)指标反映目标,并通过实践活动积极影响目标的变化。
区别:
(1)目标反映对象的全貌,指标反映对象的局部特征;(2)目标内涵较宽,比较抽象,比较笼统;指标内涵较窄,比较具体,比较清晰;
(3)目标相对于指标来说比较稳定,一经确定变动较少,指标对于目标来说比较灵活,可根据一个时期的侧重点进行调整。


(二)指标体系的结构
1、直线式结构
二级指标11
一级指标1
二级指标12
二级指标21
一级指标2
二级指标22
二级指标31
一级指标3
二级指标32

例1:小学生最优发展的整体评价指标体系

思想素质 科学素质
性格
情趣爱好
小 审美素质 美的感受和鉴赏
学 美的表达和创造
生 学业成绩
最 知识素质 知识结构
优 百科知识面
发 自学能力
展 能力素质 自理生活能力
人际交往和组织能力
体态和机能
身体素质 运动能力
卫生保健


三)教育评价指标体系建立的步骤和方法
1、步骤:
(1)分解目标,提出初拟指标
(2)归类合并,进行筛选
(3)理论论证
(4)专家评判
(5)预试修订

(1)分解目标,提出初拟指标
一般较为注意指标的科学性、完备性,唯恐挂一漏了或包罗不尽。
这些指标不仅是较为粗疏的,数量也可能是比较多的。

2)归类合并,进行筛选
在初拟指标中,有的能反映评价对象的本质,有的则未必;有的算得上主要因素,有的可能只是次要因素。各因素之间出现交叉、重复、包含、矛盾、因果等关系,也难以避免,必须对初拟指标进行归类合并和筛选,以达到“少而精”的要求。

(3)理论论证
经过以上方法筛选所得的指标,是否符合评价要求,还必须从有关学科的科学意义上进行理论论证,论证的主要依据是教育科学、心理学和系统科学。
论证时,在明确指标内涵的基础上,针对教育目标、评价目标、和被评价对象的实际情况逐一进行论证,以求高质量的指标体系。
从整体上讲,指标体系要求层次清楚而不零乱,结构严谨而不松散,对每一条指标,要求内涵明确而不含糊,表述简洁而不累赘。

指标表述的标准

能被理解的:用不含糊、清楚的语言表述。
行为导向的:说明预期的行为。
可以度量的:可以直接测量的。
能被运用的:用可操作的语言下定义的。
意义深远的:能引发高级行为效果。
实际的:在现有的资源、时间、才能和可用技术下能完成的。
重要的:说明重要的和相关的效果。
发展的:随时间演进,在不同角度继续成长。
综合的:包括一切重要效果。
均衡的:制定多种目标的优先顺序。
正确的:表示出组织者的真正意图。
扼要的:用以表达的文字越少越好。
这些标准,供我们表述指标时参考。

(4)专家评判

这是指标设计从设计者手中走向管理实践的重要步骤。专家通常包括评价理论研究者、上级领导、富有经验的教育行政干部、教师等。专家评判可采用个别访问、座谈、问卷征询、现场调查等方式,应根据不同情况选择。

(5)预试修订
指标体系经过筛选、修订,初步确定以后,可以同评定标准相匹配,选点在小范围试验,看是否可行,试验后对指标体系再作修改,然后投入使用。

2、方法
(1)头脑风暴法
是利用头脑积极思维,进行智力碰撞,激发智慧的灵感,从而提出评价指标的一种常用方法。
(2)因素分解法
是一种将评价指标按照评价对象本身的逻辑结构逐级进行分解,把分解出来的主要因素作为评价指标的方法。
应当注意:分解出来的因素,从高到低逐层缩小内

涵,越往下层次指标越明确、越具体、范围越小,越可以观测。
(3)理论推演法
是根据有关学科的理论推演出评价指标的方法。
(4)典型研究法
是通过少数典型事例进行研究而设计评价指标的方法。


3、筛选指标的方法
(1)经验法
是凭设计者的学识修养和工作经验进行筛选的一种简便实用的方法。
一般遵循以下几个要点:
A、理由是否充分或必要
判断每项指标是否是必要的,缺了它有什么不好,保留它有什么理由,被保留的要有充分的依据,在指标体系中,属于非要不可的因素。
B、取主舍次
区分每项指标反映评价对象本质的程度,保留能反映本质的主要因素,舍弃不能充分反映本质的次要因素。
C、从各指标之间的关系上进行比较
内涵相同或近似的合并,内涵交叉的保留其一;有因果关系的,保留“因”而去掉“果”;相互矛盾的保留既符合方针、政策规定又切合当地实际的指标。
D、去难存易,删繁就简
确实难测的指标可以舍弃;指标内涵复杂的,尽量求其单一。

(2)调查统计法
是在调查获取资料的基础上进行统计的方法。其具体的做法是:把初拟指标制成问卷,发给有关专家和有经验的教育工作者,请他们对初拟指标每一项作出判断。
一般分为五档,即很重要、重要、一般、可要可不要、不要。答卷者在每项指标后记上自己判断该项指标相比之下的重要程度(只能定一个档次),然后,收回问卷,统计“很重要”、“重要”两档的人数比例,按评为“很重要”、“重要”人数比例由高到低顺序排列,把低于某数值(一般低于三分之二或四分之三处作为划界)的指标删除,就得到筛选的指标。


例3:学校领导班子评价指标体系的建立
1、首先分4个层次提出了16项指标
(1)政治素质(政治理论和政策水平、思想品德修养、事业心和责任感)
(2)业务素质(文化专业达标、教育理论修养、管理实践经验)
(3)工作效能(职务与能力相称、分工明确和各尽其责、团结协作、指挥灵便、工作效率高)
(4)工作作风(深入实际、发扬民主、决策果断、以身作则、开拓精神)

2、把以上16项指标,分为五档(很重要、重要、一般、可要可不要、不要),分别征询意见,获得以下结果:
政治素质(事业心和责任感1、政治理论和政策水平3、思想品德修养11)
业务素质(教育理论修养2、管理实践经验10)
工作效能(团结协作5、分工明确和各尽其责8、工作效率高9)
工作作风(决策果断4、以身作则6、开拓精神7、发扬民主12)



第五章 教育评价心理及其调控

一、评价心理的概念
所谓评价心理

,是指参评者对评价现实的体验或反映。
参评者:不仅包括主评者或主评团体,还包括被评者或被评团体。
评价现实:是指评价过程的实践活动和评价过程的各种关系交往等现实活动。

提问:评价心理=心理评价?
心理评价:是指评价者对心理现象的价值判断。
1、二者研究对象所在的范畴不同
评价心理旨在研究有关评价活动中主评者或主评团体、被评者或被评团体以及评价过程中的各种心理的变化的影响。它的研究对象归根到底是心理学上的问题。
心理评价旨在对人的各种心理活动进行价值认识和价值判断。它的研究对象归根结底不是心理问题,而是价值论问题。

2、二者的实际功用不同
评价心理的研究是为了能够控制评价活动中参评人员的态度、情感和意志等心理因素的影响,调节人的主观心态,从而保证评价尽可能地公正、客观。
心理评价是为了区分各种心理品质的优劣,以引导人们克服自卑、妒忌和偏见等不良心理品质,培养健康的、积极向上的心理品质。



提问:为什么人的主观状态、心理因素会影响评价的客观性?为什么不能“铁面无私”、“秉公执法”呢?

评价是依据一定目标对评价对象进行的价值判断的活动。
这一价值判断是建立在个人对客体的感性认识基础之上的价值判断,主要取决于主体的情感和意志,决定于主体对它们的态度。
这朵花是白的—这是一个事实判断。
如2个命题
这朵花是美的—这是一个价值判断。
可见,评价活动是一种主体性很强的活动,评价中必然有主体的态度、情感、意志等心理因素的参与,所以,那种绝对意义上、理想的“铁面无私”、“秉公执法”、“绝对客观”不可能产生。

二、评价心理的调控

评价心理调控:是指用一定的手段和方法,对评价者和被评价者可能出现的心理行为进行调节、控制和利用,使评价工作顺利开展。
(一)调控评价心理的意义
1、通过心理调控,可以使教育评价的准备更加合理充分
2、通过心理调控,可以保证教育评价活动的实施得以顺利进行,更好地完成各环节的任务
3、通过心理调控,可以使评价的功能得以全面发挥,圆满实现评价的目的

(二)评价者心理与调控
1、评价者的心理现象
(1)准备过程的心理现象(角色心理、心理定势、新奇感、时尚效应和期望效应)
(2)施评过程的心理现象(自尊心理、首因效应、近因效应、晕轮效应、参照效应、理想效应、时序效应、成见效应、宽大效应和附和权威心理)
(3)结果处理过程的心理现象(类群效应、从众心理、逆反心理

、本位心理和模式效应)


2、评价者心理的调控
(1)评价者素质能力的调控
把好选拔关
评价技能培训
思想品德教育
(2)管理上的调控
(3)通过心理“换位”使评价者自觉进行调控
(4)通过完善规章制度加以调控

三、被评价者心理与调控
1、被评价者的心理现象
(1)被评价者自我评价心理现象(自我认可疑惧心理和被审心理)
(2)受评过程心理现象(应付心理、迎合心理和自卫心理)
(3)结果反馈心理现象(敏感心理、护短心理、嫉妒心理和对评价进行评价心理)

2、自我评价的心理机制
自我评价不但是评价过程的必要环节,而且自我评价对评价结果有着相当大的影响,需要了解被评价者自我评价形成的心理机制。
(1)根据别人对自己的评价来评价自己
(2)通过与他人的对比来评价自己
(3)通过自我分析来实现自我评价

3、被评价者心理的调控
(1)提高对评价的认识
搞好评价动员
征求群众对评价方案的意见,采纳合理的建议,打破评价的神秘感
讲明评价的计划和日程安排,使被评价者心中有数
建立和健全评价制度
被评价单位的领导和骨干要为群众作出榜样,以正确的态度积极投入评价工作
(2)采用多种评价形态,控制评价效应(如:转移法、暗示法、深呼吸法等)
(3)保持评价者和被评价者良好的心理交往状态
(4)适当进行自我评价
正确对待别人对自己的评价
把握自己与别人类比的可比性
对自己的评价要全面
学会把别人的评价、与别人的类比、自我评价统一起来
(5)结果反馈方式要灵活多样

被评价者4种心理状态

1、评价者情绪好与被评价者情绪好相结合
2、评价者情绪好,被评价者情绪不好
3、评价者情绪不好,被评价者情绪好
4、评价者与被评价者情绪不好
可见,不论在什么情况下,评价者的情绪和态度是至关重要的。有素养的评价者,应该始终保持良好的情绪,使双方心理交流处于良好状态。这样才有可能采取主动,对被评价者的心理实施调控,使评价工作得以顺利进行。





相关主题
文本预览
相关文档 最新文档