当前位置:文档之家› 信度理论

信度理论

信度理论
信度理论

心理学中的各种信度和效度

心理学中的各种信度和效度 一、信度 所谓信度,指的是测量结果的稳定性程度,其操作定义是,信度乃是一个测验X与它的任意一个“平行测验X'的相关系数。无关因素、测验的长度、测验试题的区分度、被试团体的代表性都会影响信度。 (一)重测信度 1、定义:利用同一量表,让同一被试群体在不同时间两次施测之后的相关值。这一信度值表示的是测验结果的稳定性,故也称之为稳定性系数。 2、形式:施测——经过适当时间——再施测 3、举例:假设有一份主观幸福感调查表,先后两次施测于10名学生,时间间隔为半年,结果如下表所示,求该测验的重测信度。 4、使用的前提条件 (1)所测量的心理特质必须是稳定的。 (2)遗忘和练习的效果基本上互相抵消。 (3)在两次施测的间隔期内,被试在所要测查的心理特质方面没有更多的学习和训练。5、注意事项 (1)有些测验不宜采用重测法估计信度,如测量推理和创造力的测验。那些不易受重复使用影响的测验才能用再测法估计信度。如感觉运动测验、人格测验。 (2)两次测验间隔的时间要适当,并注意提高被试的积极性 (3)测验手册中报告重测信度时应说明两次施测的间隔,以及在此期间内被试的有关经历(4)时间间隔的把握:适宜时间间隔依照测验目的、性质及被试特点而定,可以是几分钟甚至几年。例如对于年幼儿童的间隔要小;年长群体的间隔可大。但智力测验的间隔不能太短,成就测验的间隔不能太长。一般间隔时间不超过六个月,既不能让被试记住上一次测验的内容,又不能让其特质发生变化,或对所学知识产生遗忘。 6、重测信度的评价: (1)优点:能够提供有关测验结果是否随时间而变异的资料,可作为预测受测者将来行为表现的依据。 (2)缺点:易受练习和记忆的影响,前后两次施测间隔的长短必须要适度。 (二)复本信度

信度与效度的关系

研究信度与效度的关系 一、信度与效度的定义 信度即可靠性,它指的是采取同样的方法对同一对象重复进行测量时,其所得结果相一致的程度,或者说,信度是指测量结果的一致性或稳定性。 效度即准确度,它是指测量工具或测量手段能够准确测出所要测量的变量的程度,或者说能够准确、真实地度量事物属性的程度.二、信度与效度的关系 (一)教育科学研究中信度与效度的关系 信度是研究结果所显示的一致性、稳定性程度,也是对研究结果一致性和稳定性的评价标准。一个具有信度的研究程序,不论其过程是由谁操作,或进行多少次同样的操作,其结果总是非常一致的.效度是一个研究程序的性质和功能,也是对研究结果正确性的评价标准,一个有效度的研究程序,不仅能够明确地回答研究的问题和解释研究结果,而且能够保证研究结果在一定规模的领域中推广。把两者的作用结合起来看,信度和效度是一项教育科学研究活动和结果具有科学价值和意义的保证。研究的信度是研究的效度的一个必要的前提,没有信度,效度不可能单独存在,也就是说,一项研究不可能没有信度却具有效度。 (二)人力资源招聘信度与效度的关系 影响测评信度的因素有很多,主要是系统误差和随机误差.包括测评者的专业性和素质、被测评者本人的心理、侧评工具的稳定性、

环境的稳定性等都会影响测评的可信度。影响测评的效度因素也有很多,如测评工具、测评过程及测评者因素、被测评者状态、效标因素和信度因素等。在实际招聘与录用评估过程中要把握各相关方面,不仅要有专业的测评人员,同时也要在稳定的环境中为被测评者提供一个放松真实的氛围。信度和效度是人才侧评与选拔质量的重要指标.图形形式表现分析得出的信度和效度的三种关系,则会是以下这些样式,如图8—l .图8-2和图8—3所示。所以,:高信度是高效度的必要条件,但非充分条件.即信度高不一定其效度就高,但要想获得较高的测评效度,其信度必定要高, (三)用结构式问卷来测量家长“溺爱孩子”的行为中信度与效

问卷的信度与效度

调查问卷的信度效度分析方法 问卷调查法是教育研究中广泛采用的一种调查方法,根据调查目的设计的调查问卷是问卷调查法获取信息的工具,其质量高低对调查结果的真实性、适用性等具有决定性的作用。为了保证问卷具有较高的可靠性和有效性,在形成正式问卷之前,应当对问卷进行试测,并对试测结果进行信度和效度分析,根据分析结果筛选问卷题项,调整问卷结构,从而提高问卷的信度和效度。信度和效度分析的方法包括逻辑分析和统计分析,本文主要讨论后者。 一、信度分析 信度(Reliability)即可靠性,它是指采用同样的方法对同一对象重复测量时所得结果的一致性程度。信度指标多以相关系数表示,大致可分为三类:稳定系数(跨时间的一致性),等值系数(跨形式的一致性)和内在一致性系数(跨项目的一致性)。信度分析的方法主要有以下四种: 1、重测信度法 这一方法是用同样的问卷对同一组被调查者间隔一定时间重复施测,计算两次施测结果的相关系数。显然,重测信度属于稳定系数。重测信度法特别适用于事实式问卷,如性别、出生年月等在两次施测中不应有任何差异,大多数被调查者的兴趣、爱好、习惯等在短时间内也不会有十分明显的变化。如果没有突发事件导致被调查者的态度、意见突变,这种方法也适用于态度、意见式问卷。由于重测信度法需要对同一样本试测两次,被调查者容易受到各种事件、活动和他人的影响,而且间隔时间长短也有一定限制,因此在实施中有一定困难。 2、复本信度法 复本信度法是让同一组被调查者一次填答两份问卷复本,计算两个复本的相关系数。复本信度属于等值系数。复本信度法要求两个复本除表述方式不同外,在内容、格式、难度和对应题项的提问方向等方面要完全一致,而在实际调查中,很难使调查问卷达到这种要求,因此采用这种方法者较少。 3、折半信度法 折半信度法是将调查项目分为两半,计算两半得分的相关系数,进而估计整个量表的信度。折半信度属于内在一致性系数,测量的是两半题项得分间的

信度理论习题

信度理论习题1 以下几题来自近几年SOA的course4和courseC。 1、(2005 May course C 第2题)You are given: (i) The number of claims follows a negative binomial distribution with parameters r andβ=3 . (ii) Claim severity has the following distribution: The number of claims is independent of the severity of claims. Determine the expected number of claims needed for aggregate losses to be within 10% of expected aggregate losses with 95% probability. 2、2005FallcourseC第35题.You are given: (i) The number of claims follows a Poisson distribution. (ii) Claim sizes follow a gamma distribution with parameters α(unknown) and θ=10,000 (iii) The number of claims and claim sizes are independent. (iv) The full credibility standard has been selected so that actual aggregate losses will be within 10% of expected aggregate losses 95% of the time. Using limited fluctuation (classical) credibility, determine the expected number of claims required for full credibility. ((A) Less than 400 (B) At least 400, but less than 450 (C) At least 450, but less than 500 (D) At least 500 (E) The expected number of claims required for full credibility cannot be determined from the information given. 这道题limited fluctuation (classical) credibility就是指我们课堂上讲的有限波动信度,这道题要求我们求满足完全可信条件所需的最小理赔次数。 3、1104-第21题 You are given: (i) The number of claims has probability function: (ii) The actual number of claims must be within 1% of the expected number of claims with probability 0.95. (iii) The expected number of claims for full credibility is 34,574. Determine q. 4、1100中第14题.For an insurance portfolio, you are given: (i) For each individual insured, the number of claims follows a Poisson distribution. (ii) The mean claim count varies by insured, and the distribution of mean claim counts follows a gamma distribution. (iii) For a random sample of 1000 insureds, the observed claim counts are as follows: (iv) Claim sizes follow a Pareto distribution with mean 1500 and variance 6,750,000. (v) Claim sizes and claim counts are independent. (vi) The full credibility standard is to be within 5% of the expected aggregate loss

信度与效度分析步骤(可编辑)

信度与效度分析步骤(可编辑) 如何用spss做问卷的结构效度分析, 因子分析里面Descriotives里面KMO和巴特利检验就可以了吗,除此之外,还要做什么啊,请高手赐教点简单易懂又能说明效度问题的,谢谢啦~问题补充: 提取因子的个数怎么确定,是选特征值大于1的吗,还有,因子载荷怎么算,是 在输出结果中直接可以看到吗,本人刚接触spss,请多多指教~ 首先必须要做KMO和Bartlett球形检验,这个你应该会了吧,如果这两个检验 合格的话说明数据是适合做因子分析的。 然后提取因子后,看主因子解释总变异的百分比和个因子的因子载荷,主因子解释总变异一般若大于60[%]的和因子载荷大于0.6的话说明结构效度很好。 pS: ,如果题目没有规定就是选特征值大于1的,如果题目事先要提取几个因子,那么在操作的时候,用SPSS那个因子分析的选项里面有一个地方可以著名,因子载荷在输出的结果直接可以看到(rotated compoment matrpx),一定要是旋转后的因子载荷 用spss进行效度分析? 我要对我的问卷调查数据做一个信度和效度分析。信度分析我会了,就是看Cronbach’s Alpha 系数。效度分表面效度、准则效度和构建效度,前面两项只要说明一下,但是构建效度要用SPSS分析,我想是在因子分析里面吧,就是不知道哪个值代表效度。 因子分析的效度分析主要的指标可以看,因子提取的方差累积贡献率,如果因子提取的越少且方差累积率又不低的话(一般如果2个因子达到40[%]以上的贡献率就算可以的了),就可以认为因子分析的效度还可以。

除此之外,你可以用因子分析里面Descriotives里面KMO和巴特利检验(battele,不知道是不是这样写的),KMO的值如果 0.5,则说明因子分析的效度还行,可以进行因子分析;另外,如果巴特利检验的P 0.001,说明因子的相关系数矩阵非单位矩阵,能够提取最少的因子同时又能解释大部分的方差,即效度可以。 问:问卷效度测验如何应用于SPSS 问卷效度测验如何应用于SPSS,然后因为做效度检验貌似要用皮尔逊相关还是因子分析,所以不懂如何把这些应用于SPSS,不想要变量,想要整体,一个整体。 用因子分析,就已经是在检验变量的整体了 因子分析就是用少数几个因子来描述许多指标或因素之间的联系,以较少几个因子反映原资料的大部分信息的统计方法。 三、因子分析的SPSS过程 第一步:准备数据文件,打开对话框,加载观测变量。数据文件主要是由较多的(一般在10个以上)可观测变量组成,个案数应比较大。然后点击“Analyze” ,选择“Data Reduction” 中的“Factor”打开因子分析对话框,将参与分析的所有观测变量加载到“Variables”下边的方框中。 第二步:点击“Descriptives…”设置描述性统计要求。这里关键的是要求输出因子分析适合度的检验,一般要求输出:计算相关系数矩阵(选中Coefficients)、相关系数显著性水平矩阵(选中Significance levels)、反像相关矩阵检验 ( 选中Anti-image ) 、KMO 和巴特利特球形检验( 选中 KMO and Bartlett’s test of sphericity)。 第三步: 点击“Extraction”打开对话框设置因子提取方式。在界定因子提取方法中需要设置以下几个方面的参数:

第五讲 心理学研究的信度和效度

第五讲心理学研究的信、效度 长江大学教育科学系严磊 研究设计的主要目标是特高整个研究的科学性水平,即保证研究结果、结论能真实的反映人的心理活动规律和教育规律。信度与效度不但是研究设计应当遵循的标准,而且也是评价研究设计质量乃至整个研究结果科学水平。信度、效度源于心理与教育测验领域,现在心理学者将诶用了测量领域的信度与效度概念,并把研究的信度和效度作为设计与评价各种研究的标准,以提高心理与教育科学中各类研究的客观性、可靠性和科学性。如今,有关研究信度和效度的理论和方法已经为心理、教育研究者普遍接受,成为研究和实验设计的关键,也成为心理、教育研究方法发展的里程碑。 一心理测量的信度和效度射击打靶 1.真分数假设 假设一:在所讨论的问题范围内,真分数不变,亦即个体具有恒定的特质,其分量一定,取值是常数。 假设二:误差是完全随机的。这里有二层意思,一是测量误差是平均数(期望值)为零的正态随机变量;二是测量误差跟被测心理特质即真分数间相互独立。 假设三:观察分数是真分数与误差分数的和。 2.测量的信度 信度(reliability)是指测量结果的稳定性和可靠性程度。 重测信度、复本信度、分半信度、评分者一致性信度 3.测量的效度

一研究的信度 二研究的信度 1.研究信度的概念 研究的信度指研究所的事实、数据的一致性和稳定性程度。一向好的心理与教育研究,其结果必须稳定可靠,即重复研究的结果要保持稳定、一致,否则便可不信。 根据影响信度的误差来源,信度可分为两大类:稳定性和同质性。稳定性指研究结果跨时间、跨情境的一致性。同质性指研究工具本身各项目内容的一致性。举例:用同一思维研究工具在前后相隔较短的时间内测查某一年级的儿童两次,结果发现两次测查结果不一致,第一次测查结果表明被试未达到逻辑思维水平,第二次结果发现他们已经达到逻辑思维水平。 2.判定研究信度的方法 重复法运用重复测量、重复研究的方法,在相同条件下用相同方 法进行两次以上的研究,然后考察它们是否取得相同结果。 重测信度 相似法通过比较同质或类似研究工作、或同类研究的结果的一致 性程度,来判断研究工具或研究结果的可靠性。 复本信度 独立评判法即两个或两个以上的研究者同时对一组被试的行为、操作 水平等各种表现进行独立判断或评价,然后比较它们之间 的一致性,此法可以判定研究者之间一致性的程度。 评分者一 致信度 举例: 相似法:将某一特定研究的结果与国内外同类研究的结果进行比较,是判定研究的信度的常用方法。新编智力量表与韦克斯勒智力量表的比较。 独立评定法:采用观察法、问卷法、访谈法、测验法、实验法等方法进行的研究中,日益注重观察者、评定者和计分者之间的信度。攻击性行为,助人行为。二研究的效度

信度和效度

信度和效度 社会学系02研王丽云 当我们建构和评估测量时,我们通常使用信度和效度这两个技术性指标。 简单地说信度就是指测量数据和结论的可靠性程度,也就是说测量工具能否稳定地测量到它要测量的事项的程度。 我们可以举例说明信度的问题:如果想知道某人的体重,我们可以叫两个人来估计,一个人的估计为150镑,另一个人的估计为300镑,那么我们就可以认为,叫别人来估计体重是非常不可信的方法。如果用磅秤,连续测量两次的结果都是相同的,因而我们可以说,在测量体重方面,用磅秤的方法要比叫人来估计更可信。我们可以用信度系数来表示信度的大小。 我们知道在进行测量时,误差是难免的,这就使得真实值和测量值之间是不可能完全一致。我们可以这样来表示真实值和测量值之间的关系。 X=T+B+E T表示真实值,B表示偏差即系统误差,E表示测量误差即随机误差。由于系统误差很难分解,因而有些书中的分解式将系统误差包括在真实值之中,因而X可以简单地概括为X=T+E 对于测量误差E,一般假定他的期望值是0,却与真实值相独立,在此假定下,可以证明:E(x)=E(T)实得分数和真分数的总体均值相等。σ2x=σ2T+σ2E实得分的方差等于真分数的方差与误差方差

之和。 信度一般规定是真分数的方差在总体方差中所占的比例,即:信度系数Rxx=σ2T/σ2X=1-(σ2E/σ2X) 信度系数越大,表明测量的可信程度越大。在实际应用中,信度主要有以下几种类型: (一) 重测信度 这种方法通常是重复同样的测量来检验信度信度系数可以用相关系数来表示。假如我们第一次测量时的观测值是X,第二次的观测值是Y,那么重测信度就等于X与Y的相关系数。 但重复测量时,我们要注意两次测量的时间间隔要恰当。如果时间间隔太久,可能会发生一些变故,影响到被调查者的态度,那么前后的测量就会有很大的差异。 (二)复本信度 复本是针对原本而言的,它使原本的复制品。 对一项调查的问题,让被调查者接受问卷测量,并同时接受调查问卷的副本的调查,然后根据结果计算原本和复本的相关系数,就得到复本信度。 (三)折半信度 通常是在无副本且不准备重测的情况下,我们就用折半信度来计算信度系数。 举例来说,如果有一份问卷,其中有十个问题涉及到女性歧视现象。利用折半信度时,可将是个问题随机分成两组,每组有五个问题,

信度与效度的关系

信度与效度的关系 信度是效度的必要条件,但不是充分条件。一个测量工具要有效度必须有信度,没有信度就没有效度;但是有了信度不一定有效度。 信度低,效度不可能高。因为如果测量的数据不准确,也并不能有效地说明所研究的对象。 信度高,效度未必高。例如,如果我们准确地测量出某人的经济收入,也未必能够说明他的消费水平。 效度低,信度很可能高。例如,即是一项研究未能说明社会流动的原因,但它很有可能很精确很可靠地调查各个时期各种类型的人的流动数量。 效度高,信度也必然高。 信度:测量的数据准确性

效度:结果的符合程度 1请问为什么随机分派前后测就可以控制选择、被试缺失的干扰了。而随即分派后侧就不能对被试缺失加以控制了。它们的不同只是多了一次前侧,怎么会对被试产生影响呢? 2消除无关变量的方法平衡法和恒定法,有何区别呢,我总是有点弄混,能各举个例子吗? 1、在一个延续时间较长的研究中,被试的更换、淘汰或者中途退出可能会对研究结果产生深刻的影响。所以如果只有后测,两组或多组相等的假设就无法保证,很难控制被试的情况。而前后测可以解决这个问题。 2、恒定法。恒定法就是采取一定措施,使某些无关变量在整个研究过程中保持恒定不变。它也是控制无关变量的基本方法。平衡法。平衡法就是对某些不能被消除,又不能或不便被恒定的无关变量,通过采取某些综合平衡的措施或方式,使其影响通过平衡而抵消,达到控制它们的方法。平衡法主要采用对比组方法和循环法。

先体会一下两者定义。简单的说: 恒定法:前后不变,比如上课时间、学生作业 平衡法:分组实验中,各组作用相同,比如教师水平,学生数目,知识基础。 在实验设计主要格式中,带有随机分配的优点是可以控制选择与成熟的交互作用,是什么意思啊?这里的成熟是指的被试身心的成熟程度吗? 支持(0) 中立(0) 反对(0) 单帖管理 举报帖子 使用道具 | 引用| 回复 zdjy 小大2楼个性首页| 博客| 信息| 搜索| 邮箱| 主页| UC

信度与效度完成补充版

1、理论综述(已完成) 2、描述量表的设计(分成7部分,每一部分都有哪些题目) 3、报告量表的信度和效度,说明量表的合理性。 4、报告结果(总结出5点左右的结论,用数据和图表支撑结论,希望尽量丰满) 5、找到影响有效实践教学效果的基本因素(找到3点左右,用数据和图表支撑结论) 三、报告量表的信度和效度,说明量表的合理性。 1、信度 Cronbach’s α系数是Cronbach 于1951年创立的,是指测验内部的项目在多大程度上考察了同一内容,评价的是量表中各题项得分间的一致性。同构型信度低时,即使各个测试题看起来似乎是测量同一特质,但测验实际上是异质的,即测验测量了不止一种特质。α信度系数法是目前最常用的内部信度系数。 实际上,α系数是所有可能的分半信度的平均值,α系数是估计信度的最低限度,α系数高时,信度就高,α系数低时,信度不一定低。低信度:α<0.35, 中信度: 0.35<α<0.70,高信度: 0.70<α。一般来说,问卷的α系数在0.8以上该问卷的信度较好,达0.85以上,表明问卷信度良好。 克朗巴哈α信度,是对折半信度的改进,检验公式是:)1(1k k 2 2 i σσα∑--= ,其中 K 表示问卷中的题目数, 为第i 题的调查结果方差, 为全部调查结果的方差。 信 度系数是目前最常用的信度分析法。 本次量表的信度通过计算由下表报告: 信度 格朗巴哈α(Cronbach's Alpha ) 问题个数 0.96 56 本问卷的信度达0.85以上,表明问卷信度良好。 2、效度 所谓问卷设计质量的效度检验,指的是问卷测量结果有效性的分析,即对设计问卷的测量结果反映它所应该反映的客观现实的程度的检验。具体来说,效度检验必须针对其特定的目的功能及适用范围,从不同的角度收集各方面的资料分别进行。常用的效度检验有内容效度、结构效度、难易效度、准则效度等。

试题的难度、区分度、信度和效度

试卷的难度、区分度、信度和效度 一.试卷的难度 (一)什么是难度 难度是指试卷的难易程度,是评价考试的一个非常重要的一个指标。一个题目,如果大部分考生都能答对,那么这个题目的难度就小;如果大部分考生都不能答对,那么这个题目的难度就大。 客观题难度计算公式:P(难度指数)=试卷答对人数/考生人数;主观题难度计算公式:P=试卷平均得分/试卷满分。试卷难度计算公式:P=为平均分,K 为试卷满分值。易、中、难的标准为:易:P≥0.7,中:0.4≤P≤0.69,难:P≤0.39;P值越大,难度越低,P值越小,难度越高。一般来说,难度值平均在0.5最佳,难度值过高或过低,都会降低测验的信度。 (二)难度的计算 (1)客观性试卷难度P(这时也称通过率)计算公式: P=k/N(k为答对该题的人数,N为参加测验的总人数) (2)主观性试卷难度P计算公式: P=X/M(X为试卷平均得分;M为试卷满分) (3)适用于主、客观试卷的计算公式: P=(P H +P L )/2(P H 、P L 分别为试卷针对高分组和低分组考生的难度值) 步骤为:①将考生的总分由高至低排列;②从最高分开始向下取全部试卷的27%作为高分组;③从最低分开始向上取全部试卷的27%作为低分组;④计算。 (三)试卷难度的一般要求 就高考来说,难度以适中为宜,单个试卷的难度以0.3--0.7之间为好,整卷以0.5--0.6之间为最佳。一般将难度值大于和等于0.7的试卷定为容易题;大于0.4和小于0.7的定为中档题;小于和等于0.4的试卷定为难题。命题时难度一般要按一定比例分配,如3:6:1或3:5:2。 二.试卷的区分度 (一)什么是区分度 区分度是指考试卷目对考生心理特征的区分能力。区分度高的试卷能将不同水平的考生区分开来,水平高的考生得高分,水平低的考生得低分。区分度高的

如何保证人才测评的信度和效度

如何保证人才测评的信度和效度 人才测评的主要工作是通过各种方法对被试者加以了解,从而为企业组织的人力资源管理决策提供参考和依据。经过长期的发展和适应不同情况的需要,形成了多种人才测评方法。而人才素质测评作为一项重要的人事技术,已经为越来越多的企业人力资源部门所接受,而如何保证能力素质测评中的信度和效度,也越来越受到关注。下面,就具体案例讲讲如何保证能力素质测评的信度和效度。 一、案例背景 N公司是一家外资工程管理公司,成立于1998年,总部设在上海。随着WTO的开放和工程项目的增多,工程公司在国内如雨后春笋般成长起来,就此拉开了人才竞争的序幕。尤其是上海,工程项目管理人才的争夺十分激烈,N公司老总越来越感觉到市场的压力和人才的短缺。为了应对市场压力,保留现有中高层骨干人才,并让他们“适人适位”,N公司请来了北大纵横管理咨询公司,希望通过专业评估解决这个问题。 二、建立人才能力素质模型并实施测评 (一)中高层能力素质模型及测评方法的确定 鉴于本次测评的对象是N公司的中高层管理人才和精英人物,测评的目的是为了保留人才、适人适岗,因此经过双方共同探讨,项目组在北大纵横经理人能力素质指标体系的基础上,结合N公司的实际情况,选择个人驱动力、判断能力、分析能力、决策能力和水准、创新能力、客户服务能力、影响力、项目管理能力、任务分配能力等作为测评因素。同时,采用广泛用于企业人员素质测评、方案比较、科学技术成果评比等方面的层次分析法,来确定各测评因素在管理素质和业务素质上的权重。 通过向N公司老总介绍人才测评的方法及工具,大家一致选定评价中心技术进行本次人才测评,并主要运用三类测评工具:心理测验、深度面谈和情景模拟测验。 (二)测评实施程序 1、设计测评题目。咨询顾问和N公司相关人员一起,围绕测评因素,结合N公司实际情况进行测试题目的设计,并给出评分标准和评分参考。本次心理测试采取16PF人格要素测试,人机对话;深度面谈设计了20个题目,涵盖了测评的各个维度;情景模拟采用案例分析和主题演讲两种测评工具,其中案例分析题库包含12题,主题演讲题库包含15题,被测人员可以从各题库中抽取一题进行测试。 2、成立测评小组。其中,测评小组成员由N公司内部专家、外部专家,以及北大纵横项目组组成。在测评实施前,对测评小组进行培训,使大家能全面了解测评的程序、评分标准及方法。 3、实施测评。深度面谈和情景模拟测试是由测评小组根据测试题目对被测评人进行提问,被测评人根据提问回答问题,与测评小组进行双向沟通后,由测评小组根据评分标准对被测评人的表现现场打分,填入评分表;16PF人格要素测试要求被测试人进行40分钟的人机对话,由测评小组保存有效答卷。 由于不同的测评者其衡量的尺度会存在差异,为保证各个被试者成绩排序的正确性,在测评时,向测评者提供“成绩比较表”,供其记载各个被试者的各项测试的评分,便于他们进行比较。 4、分析测评结果并统计成绩。采用肯德尔和谐系数法对每个被测评者在各个测评要素上的得分进行评分者信度分析,并结合各测评要素在管理素质和业务素质方面的权重,计算出被测评人在业务素质和管理素质上的得分。测评结束后,测评小组对被测人员进行了问卷调查,了解他们对测评效果的看法。 三、测评为保证信度和效度所采取的措施 (一)保证测评信度采取措施分析 1、16PF测试采取的是计算机标准化题目的方式,计算机答题、计算机处理结果。被测试人员全部独立进行测试,并在规定时间内完成了测试。 2、深度面谈使用了20个题目,围绕测评因素的各个维度对被测评者进行考察。面谈进行顺利,被测人员都能较积极配合回答问题,和主试人进行较好的双向交流。 3、情景模拟采用案例分析和主题演讲两种测评工具,被测人员从两个题库中各抽取1题,测评小组根据其表现进行现场评估。测评得到了被测人员的积极配合,都能就问题提出自己的见解。 4、为增加评分者信度,本次测评工作专门成立了测评小组,并在测评前熟悉了整个测评程序和操作;各类能力素质附有评分标准,各类试题附有评分参考,力图对被测试者的表现进行量化分析;测评中,向测评者提供“成绩比较表”,

难度、信度、区分度

难度 概念 难度即测试题目的难易程度.一般在能力方面的测试中,它作为衡量测试题目质量的主要指标之一.它是衡量试题质量的一个重要指标参数,它和区分度共同影响并决定试卷的鉴别性。难度的计算一般采用某题目的通过率或平均得分率。测试的难度水平多高才合适,这取决于测试的目的、项目的形式和测试的性质。 两种定义 (1)P=1—x/w x为某题得分的平均分数,w为该题的满分。这种定义法,难度值小时表明试题容易,值大时表明试题难,最小值为0,最大值为1。 (2)P=x/w 这种定义法,难度值小时表明试题难,值大时表明试题容易,最小值为0,最大值为1。 难度的计算 (1)主观性试题的难度 A 基本公式法:P=1—x/w B 极端分组法P=1—(XH+XL)∕2W XH:高分组的平均得分(前27%),XL:低分组的平均得分(后27%)。 (2)客观性试题的难度

A 基本公式法:P=1—R/N R 为答对人数,N 为全体人数。 B 极端分组法:P=1—(PH+PL)∕2 PH=RH/n 叫高分组通过率,RH:高分组答对人数,n:总人数的前27%。PL=RL/n 叫低分组通过率,RL:低分组答对人数。 区分度 区分度是高考试题分析的一个指标,反映了试题对考生素质的区分情况。其数值在-1~1之间,数值越高,说明试题设计的越好。 参数含义 反应一个题目的鉴别能力,由其可得到三方面的信息:题目能否有效的测量或预测所要了解的某些特性或正态;题目能否与其他题目一致的分辩被试;以及被试在该题的得分和测验总分数间的一致性如何。区分度取值介于(-1,+1)。 输入 高分组(即得分最高的27%)被试在该题上的通过率(P H),低分组(即得分最低的27%)被试在该题上的通过率(PD) 操作 D=PH-P L PH:等于“假设被试群体是高分组时算出来的难度值”

问卷信度效度检验

从统计数据质量角度谈调查问卷的设计质量 一、引言 从保证统计数据质量的统计工作过程看,统计数据质量可以被划分为统计设计质量、统计调查质量、统计整理质量、统计分析质量以及数据发布传输质量等。统计设计质量是保证统计数据质量的首要环节,在统计数据质量保证体系中起着关键性作用。统计设计质量一般包括调查问卷设计质量与调查方案设计质量,其中调查问卷设计质量指的是:通过问卷测量得到的,反映调查对象客观现象的统计数据的准确性和有效性,即调查问卷设计质量的好坏,需要通过问卷测量能力的高低来检验。 在市场调查中,为了深入地研究一些本质的或理论性的现象,问卷调查法被广泛运用,除了调查时采用的抽样方法以及所抽取的调查对象是否具有代表性之外,调查者最关心的就是调查问卷的测量能力。问卷测量能力包含了两个方面的内容,即问卷测量结果的准确性和有效性。准确性和有效性是统计数据质量蕴涵的最主要的两个特性,一个好的调查问卷设计不仅可以保证在多次重复使用下得到可靠的数据结果,即准确性;也可以保证所得测量结果能够反映它所应该反映的客观现实,即有效性。 所以我们可以通过对问卷测量能力的分析来检验问卷的设计质量,对问卷设计进行质量控制,进而发现问卷设计中应注意的问题。在此基础上,通过不断改进问卷设计,提高其测量能力,最终将有助于我们得到高质量的调查数据。 二、调查问卷的设计质量检验 信度和效度的概念来源于心理测试中关于测验的可靠性和有效性研究,当建构和评估测量时,通常使用信度和效度这两个技术性指标。因此我们采用问卷的信度和效度分析来评估其测量能力,进而实现对问卷设计质量的检验。 1.问卷设计质量的信度检验 所谓问卷设计质量的信度检验,指的是对问卷测量结果准确性的分析,即对设计的问卷在多次重复使用下得到的数据结果的可靠性的检验。在实际应用中,信度检验多以相关系数表示,常用的方法有:重测信度,复本信度,折半信度,克朗巴哈信度,评分者信度等。国内外已经有很多关于这些信度分析方法介绍的文献,在这里,笔者不再一一详述,仅列出相关公式作为参考。 (1)重测信度,也叫稳定系数,对同一组调查对象采用同一调查问卷进行先后两次调 查,采用检验公式,其中为两次调查结果的协方差,为第一次调查结果 的协方差,为第二次调查结果的协方差。系数值越大说明信度越高。 (2)复本信度,也叫等值系数,对同一组调查对象进行两种相等或相近的调查,要求两份问卷的题数、形式、内容及难度和鉴别度等方面都要尽可能的一致。检验公式同稳定系数公式,系数越大,说明两份问卷的信度越高,具体调查时使用哪一份都可以。 (3)折半信度,也叫内在一致性系数,将调查的项目按前后分成两等份或按奇偶题号分成两部分,通过计算这两部分调查结果的相关系数来衡量信度。当假定两部分调查结果得 分的方差相等时,检验用Spearman-Brown公式来表示:,其中表示折半信度系数;当假定方差不相等时,采用Flanagan 公式:,其中、分别 表示两部分调查结果的方差,表示整个问卷调查结果的方差。如果折半信度很高,则说明这份问卷的各项题之间难度相当,调查结果信度高。 (4)克朗巴哈信度,是对折半信度的改进,检验公式是:,其中

提高结构化面试的信度和效度

结构化面试的信度与效度 结构化面试由于其相对较高的信度与效度,被各类企事业单位广泛应用于人员招聘与选拔过程中。面试官在评价应聘者时存在个体差异,直接表现为宽大效应或严格效应,这对雇佣决策提出了严峻挑战。本文分析了正式反馈对提高结构化面试有效性的积极作用,提出了优化结构化面试的对策与建议。 近些年来,人员测评在新员工甄选中发挥越来越大的作用,测评的科学性与实用性得到更多的关注。结构化面试是根据对职位的分析,确定面试的测评要素,在每一个测评的维度上预先编制好面试题目并制定相应的评分标准;面试过程遵照一种客观的评价程序,对被试者的表现进行数量化的分析;给出一种客观的评价标准,不同的评价者使用相同的评价尺度,以保证判断的公平合理性。 已有研究表明,结构化面试的效度仅次于评价中心,高于工作抽样、能力测验、个性测验等方法。在人才选聘面试结束后,面试官(评分者)之间对候选人的打分千差万别,往往导致合并的分数无法使用。如何使结构化面试中面试官的评分更加有效,成为员工甄选过程中面临的现实问题。 一、结构化面试的信度与效度 结构化面试强调面试内容与工作相关、面试流程标准化、评分结构化。结构化面试中,面试官的评分直接决定了最终的录用结果。结构化面试依靠面试官专业、准确的评分来实现,关键在于克服面试官评分的随意性与主观性。 结构化面试信度是指不同的面试官(评分者)面试同一个被试得出结论的一致性程度。面试信度低,意味着面试官评分一致性低,面试结果就不可靠。结构化面试的信度包括两个方面:一是面试要素内部信度,是指面试测评要素之

间的一致性;二是评分者间的信度,即评分者之间评分的一致性。 结构化面试的效度是指面试测量的准确性,即面试所测评到的结果与所考察内容的相符程度。结构化面试的效度一般采用预测效度,即面试结果能否预测应聘者未来实际工作绩效水平。总体来看,结构化面试平均效度系数是非结构化面试的两倍,提高面试效度最好的方法是提高结构化程度。 二、结构化面试信度与效度的影响因素 结构化面试是一种表现性评价方式,其评价结果的信度是进行有效推论和决策的前提。在结构化面试中通常由多个面试官进行打分,而面试官之间评价的不一致是影响评价结果应用的重要因素。尽管可以通过明晰评分细则、优化结构化面试题目等方式予以控制,但是评分者之间的不一致性难以避免。 面试信度与效度存在情景特异性与考官特异性。结构化面试误差主要来源包括:面试题目有效性、面试评委培训、评分维度设定、面试实施环节等。其中由于面试官带来的评分误差主要包括:与我相似效应、对比效应、第一印象偏差、晕轮效应、刻板印象、顺序效应等,其结果是个别考官的评分偏高或者偏低于其他面试官的评分。当评价的结果高于应聘者的实际得分时称为宽大效应,低于应聘者实际得分时称为严格效应。 结构化面试的效度与信度提高措施包括以下四项: 一、关注面试内容,标准化信息获取内容、提高面试结构化程度与提问的一致性、提问限制与工作内容相关等; 二、重视考官的培训,通过培训使考官了解可能的评分误差,降低实际操作中的各种误差; 三、极小化各组中同一专业面试官的数量,以及极小化各组中面试官数量与

如何进行问卷效度与信度分析

如何进行问卷信效度分析 问卷调查法是教育研究中广泛采用的一种调查方法,根据调查目的设计的调查问卷是问卷调查法获取信息的工具,其质量高低对调查结果的真实性、适用性等具有决定性的作用。为了保证问卷具有较高的可靠性和有效性,在形成正式问卷之前,应当对问卷进行试测,并对试测结果进行信度和效度分析,根据分析结果筛选问卷题项,调整问卷结构,从而提高问卷的信度和效度。信度和效度分析的方法包括逻辑分析和统计分析,本文主要讨论后者。 一、信度分析 信度(Reliability)即可靠性,它是指采用同样的方法对同一对象重复测量时所得结果的一致性程度。信度指标多以相关系数表示,大致可分为三类:稳定系数(跨时间的一致性),等值系数(跨形式的一致性)和内在一致性系数(跨项目的一致性)。信度分析的方法主要有以下四种: 重测信度法:这一方法是用同样的问卷对同一组被调查者间隔一定时间重复施测,计算两次施测结果的相关系数。显然,重测信度属于稳定系数。重测信度法特别适用于事实式问卷,如性别、出生年月等在两次施测中不应有任何差异,大多数被调查者的兴趣、爱好、习惯等在短时间内也不会有十分明显的变化。如果没有突发事件导致被调查者的态度、意见突变,这种方法也适用于态度、意见式问卷。由于重测信度法需要对同一样本试测两次,被调查者容易受到各种事件、活动和他人的影响,而且间隔时间长短也有一定限制,因此在实施中有一定困难。 复本信度法:复本信度法是让同一组被调查者一次填答两份问卷复本,计算两个复本的相关系数。复本信度属于等值系数。复本信度法要求两个复本除表述方式不同外,在内容、格式、难度和对应题项的提问方向等方面要完全一致,而在实际调查中,很难使调查问卷达到这种要求,因此采用这种方法者较少。 折半信度法:折半信度法是将调查项目分为两半,计算两半得分的相关系数,进而估计整个量表的信度。折半信度属于内在一致性系数,测量的是两半题项得分间的一致性。这种方法一般不适用于事实式问卷(如年龄与性别无法相比),常用于态度、意见式问卷的信度分析。在问卷调查中,态度测量最常见的形式是5级李克特(Likert)量表。进行折半信度分析时,如果量表中含有反意题项,应先将反意题项的得分作逆向处理,以保证各题项得分方向的一致性,然后将全部题项按奇偶或前后分为尽可能相等的两半,计算二者的相关系数(rhh,即半个量表的信度系数),最后用斯皮尔曼-布朗(Spearman-Brown)公式,求出整个量表的信度系数(ru)。 α信度系数法:Cronbach?α信度系数是目前最常用的信度系数。其中,K为量表中题项的总数,?为第i题得分的题内方差,?为全部题项总得分的方差。从公式中可以看出,α系数评价的是量表中各题项得分间的一致性,属于内在一致性系数。这种方法适用于态度、意见式问卷(量表)的信度分析。 二、效度分析 效度(Validity)即有效性,它是指测量工具或手段能够准确测出所需测量的事物的程度。效度分为三种类型:内容效度、准则效度和结构效度。效度分析有多种方法,其测量结果反映效度的不同方面。常用于调查问卷效度分析的方法主要有以下几种: 单项与总和相关效度分析:这种方法用于测量量表的内容效度。内容效度又称表面效度或逻辑效度,它是指所设计的题项能否代表所要测量的内容或主题。对内容效度常采用逻辑分析与统计分析相结合的方法进行评价。逻辑分析一般由研究者或专家评判所选题项是否“看上去”符合测量的目的和要求。统计分析主要采用单项与总和相关分析法获得评价结果,即计算每个题项得分与题项总分的相关系数,根据相关是否显着判断是否有效。若量表中有反意题项,应将其逆向处理后再计算总分。 准则效度分析:准则效度又称为效标效度或预测效度。准则效度分析是根据已经得到确定的某种理论,选择一种指标或测量工具作为准则(效标),分析问卷题项与准则的联系,若二者相关显着,或者问卷题项对准则的不同取值、特性表现出显着

什么是测试的信度和效度,如何保证测试的信度和效度

什么是测试的信度和效度,如何保证测试的信度和效度 棋盘中小张倩倩 在教育研究中,信度与效度是很常见的两个概念。但每次看到或听到这两个名词,我的脑袋老反应不过来,看来基础就是不扎实。我在这里就谈谈我浅显的认识。 一、信度 所谓的信度,是指使用相同指标或测量工具重复测量相同事物时,得到相同结果的可能性。如果说某个指标或测量工具的信度高,那它提供的测量结果就不会因为指标、测量工具或测量设计本身的特性而发生变化;反之亦然。根据测量过程中不同的误差来源,可分为再测信度、复本信度和折半信度。 再测信度,是用同一测量工具在不同的时间对同一群受试者前后测量两次,然后计算两次测量分数的相关系数,相关系数越大说明两次测量的一致性越高。相隔的时间不应该太长。 复本信度,是用两个完全等值的(平行的)复本对同一群受试者进行测试,计算两种复本测量分数的相关系数,相关系数越大说明两个复本构成带来的变异越小。如考试中使用的A、B卷 折半信度,只用一个测量工具对同一群受试者实施一次测量,但将奇数题和偶数题分开计分,再计算奇数试题和偶数试题分数之间的相关系数。 二、效度 所谓的效度,是指测量工具能够测出其所要测量的特征的正确性程

度。效度越高,即表示测量结果越能显示其所要测量的特征。如果说根据某项特征能够区分人、物或事件,那么说某个测量该特征的测量工具是有效的,就是指它的测量结果能把具有不同特征的人、物或事件进行有效的区分。常用的有变面效度、内容效度和效标效度。 表面效度是指测量效果和人们头脑中的印象或学术界形成的共识之间的吻和程度,吻合程度高,表面效度就高。 内容效度是指测量在多大程度上涵盖了被测量概念的全部内涵,测量工具代表概念定义的内容越多,内容效度就越高。 效标效度是指测量结果与一些标准之间的一致性程度,这些标准能够精确表示被测概念。 三、信度与效度的关系 信度是效度的必要条件,但不是充分条件。一个测量工具要有效度必须有信度,没有信度就没有效度;但是有了信度不一定有效度。 信度低,效度不可能高。因为如果测量的数据不准确,也并不能有效地说明所研究的对象。 信度高,效度未必高。例如,如果我们准确地测量出某人的经济收入,也未必能够说明他的消费水平。 效度低,信度很可能高。例如,即是一项研究未能说明社会流动的原因,但它很有可能很精确很可靠地调查各个时期各种类型的人的流动数量。 效度高,信度也必然高。

相关主题
文本预览
相关文档 最新文档