当前位置:文档之家› 第五章信度理论1

第五章信度理论1

第五章信度理论1
第五章信度理论1

第五章 信度理论

本章研究信度理论。根据信度理论厘定的信度保费,是非寿险保费计算的一个重要方法。从二十世纪初到现在,信度理论先后经历了两个发展阶段:一是早期的有限扰动信度理论;二是现代的以贝叶斯理论为基础的最精确信度理论。我们将依次介绍这些理论,以及根据这些理论厘定的信度保费,并以现代信度理论中的Buhlmann 方法为重点。此外,我们还将介绍风险异质的识别和处理方法,以及无赔款折扣优惠系统。本章所说的保费指纯保费,附加费和利润等暂不考虑。

§5.1 有限扰动信度理论

令X 表示某一险种的实际损失。X 可以代表该险种的索赔次数,索赔频率或赔款额。

X 是个随机变量。关于这一险种的实际损失X ,我们有前期历史经验数据n 1x ,,x 。它们可以是其他保险人同类损失数据,也可以是某个保险人过去的损失数据。显然,这些数据不可能全都相等,他们之间有扰动,存在着误差。有限扰动信度理论(limited fluctuation credibility theory)假设这些误差都纯粹是由随机性引起的。这也就是假设n 1x ,,x 是来自于总体X 的,独立同分布的样本。 5.1.1 完全可信性

设损失X 的期望为μ=]X [E 。根据期望值原理,将下一期保费厘定为μ。一般来说,

μ是未知的。完全可信性(full credibility)理论基于有限扰动信度理论的假设,认为当样本容

量n 足够大时,可将下一期保费定价为历史经验数据的平均:n x x P n 1i i ∑===。这就要

求x 和μ充分接近,即要求x 和μ的相对误差,()μμ-x 充分地小。为此有下面的完全可信性条件(standard for full credibility),它定量地描述()μμ-x 是如何充分地小的。

定义5.1.1 (完全可信性条件)当样本容量n 足够大,以至于x 至少有α-1的概率水平在

γμ±μ之间,即

α-≥???

?

??γ≤μμ-1x P (5.1.1) 则称n 满足完全可信性条件。其中α和γ预先给定。可根据实际情况和人们的经验给定α和

γ的值,他们都取比较小的值。

设风险X 的方差为2]X [Var σ=。则由中心极限定理知,()σμ-x n 的渐近分布为标准正态分布()1,0N 。据(5.1.1)式,我们有

()(

)

α-≥σγμ≤σμ-1n x n P

所以21U n α-≥σγμ,其中21U α-是标准正态分布()1,0N 的21α-分位点。从而,完全可信性条件(5.1.1)式简化为

()02

0]X [E ]

X [Var n λ=???

? ??μσλ≥ (5.1.2) 其中()2210U γ

=λα-。

例5.1.1 (Poisson 分布) 假设X 代表索赔次数,且服从Poisson 分布:()λP 。则有

λ==]X [Var ]X [E 。若取10.0=α和05.0=γ,那么645.1U U 95.021==α-,()41.108205.0645.120==λ。由完全可信性条件(5.1.2)式,我们有

()

λ=

λλ=λ≥41

.1082]X [E ]

X [Var n 020

即41.1082n ≥λ。λ通常用样本均值x 来估计。所以在λ未知时,如果

41.1082x x x n n 1≥++= ,我们认为完全可信性条件成立。

5.1.2 部分可信性

当样本容量n 不足够大,完全可信性条件不满足时,就无法利用完全可信性理论,将下一期保费厘定为历史经验数据的平均x 。为解决这一问题,人们提出了部分可信性(partial credibility)理论,认为可以将下一期保费定价为x 与M 的加权平均()x z M z 1P +-=,其中M 是人们根据实践经验,通过合理的推测和判断得到的下一期保费的定价,z 称为信度因子(credibility factor),他表示x 在保费P 中的权重。信度因子z 的值在0和1之间。Z 的大小表示x 在保费厘定中的可信性程度。

样本容量n 不足够大,以至于完全可信性条件(5.1.1)式不成立。这意味着

()()α-<γ≤μμ-1x P 。显然,概率()()γ≤μμ-x z P 的值随着z 的减少而增加。部分

可信性理论取信度因子z 使得()()

γ≤μμ-x z P 正好等于α-1,即

α-=???

?

??γ≤μμ-1x z P 从而有

()()(

)

α-=σγμ≤σμ-1z n x n P

利用中心极限定理,求得信度因子

(

)(

)

μσλ=

σγμ=α

-02

1n

U n z (5.1.3)

若记()2

00n μσλ=,则由(5.1.2)式知道,完全可信性条件成立时,样本容量至少为0n 。(5.1.3)式告诉我们,信度因子0n n z =

,它是样本容量n 和完全可信性条件成立时最少的

样本容量0n 的比值的平方根。z 随着n 的增大而增大。这表明n 越大,承保人越能依靠前n 期历史经验数据预测下一期保费。当0n n ≥时,完全可信性条件成立,我们取信度因子

1z =。综上所述,部分可信性理论取信度因子z 为

??

?

??????

?λ=??????????λσμ=??????????=1,n ]X [Var ]

X [E min 1,n min 1,n n min z 000 (5.1.4) 在推出一个新的险种,或者没有历史经验数据的时候,人们只得参考其他相类似的险种,或其他地区的经验,通过合理的推测和判断给出定价。这时取信度因子z = 0,保费P = M 。

例5.1.2 假设某一险种,根据人们先前的经验,给出的定价M = 10,000(元)。完全可信性条件成立时,样本容量至少为175n 0=。现有100历史经验数据,它们的均值500,12x =。则信度因子{}

756.01,175100min z ==,保费

()890,11500,12756.0000.10756.01P =?+?-=

§5.2 风险的异质性

有限扰动信度理论假设历史经验数据的误差纯粹是由随机性引起的。而实际情况有可能不是这样的。历史经验数据的误差除了由随机性引起外,还有可能与某些因素有关。例如,投保载人轿车险的轿车,其品牌和款式不全相同。不同品牌和款式轿车,其历史经验数据的差别比较大。载人轿车险的历史经验数据的误差除了由随机性引起外,还与轿车的品牌和款式有关。载人轿车险的风险非同质。 5.2.1 风险的异质性

首先让我们看一个例子。

例5.2.1我国某家保险公司1996年的35,072辆投保车辆的索赔次数的统计结果见下表:

表5.2.1

通常假设索赔次数X 的分布为Poisson 分布()λP ,索赔次数为k 的概率等于

() ,2,1,0k ,e !

k k X P k =λ==λ

- (5.2.1)

λ的大小反映了保单持有人的风险状况。风险状况越差,λ的值越大。有限扰动信度理论假

设,35,072辆投保机动车的风险状况是一样的,有相同的λ。这也就是假设,这些观察数据同分布,他们是来自于Poisson 分布()λP 的样本。经计算得到,样本均值x 为

3176.0072

,354573443,12789,5x =+?+?+=

由此得λ的估计值3176.0?=λ

。所以在35,072辆投保机动车中,索赔次数为k 的拟合频数为

,2,1,0k ,e !k 3176.0072,353176

.0k =???

? ??-

实际观测频数和拟合频数的拟合情况见下表

拟合的情况不是很好,尾部(索赔次数比较大)的拟合情况更差。其原因就在于,35,072 辆投保机动车的风险状况实际上并不完全一样。这些机动车辆的品牌和款式很可能不全相同。由于风险具有异质性(heterogeneity),我们不能假设这些观察数据同分布。他们来自于不同的Poisson 分布。

首先考虑最简单的情况,假设这些观察数据来自于两个不同的Poisson 分布()1P λ和

()2P λ的混合,其中来自于()1P λ的比例为p ,来自于()2P λ的比例为p 1-,21λ≠λ。通

过计算(计算从略)算得,p ,1λ和2λ的估计值分别为8876.0p ?=,1719.0?1=λ,4694.1?2

=λ。在35,072辆投保机动车中,有130,318876.0072,35=?辆来自于()1719

.0P ,他们的风险状况较好;有942,3)8876.01(072,35=-?辆来自于()4694.1P ,他们的风险状况较差。在35,072辆投保机动车中索赔次数为k 的拟合频数为

4694

.1k 1719.0k e !k 4694.1942,3e !k 1719.0130,31--???

? ??+???? ??, ,2,1,0k =

实际观测频数和拟合频数的拟合情况见下表

两个Poisson 分布混合时的拟合的情况比单个Poisson 分布好得多,尤其是在尾部。尾部概率不能低估,更不能忽略不计。虽然尾部概率很小,但它是发生大损失的概率。保险公司对尾部概率(大损失的小概率)要谨慎从事。三个或更多,甚至无穷多个Poisson 分布的混合也可被使用,拟合的情况将会更好(见练习4)。

如果这家保险公司不考虑风险的异质性,依据总的样本均值3176.0x =,对所有的保

单持有人收取同样的保费,则对风险状况为()1719

.0P 的保单持有人是不公平的,而便宜了那些风险状况为()4694

.1P 的保单持有人。市场很快就会对此有所反应,风险状况为()1719.0P 的保单持有人会转向其他的保险公司购买保险,而那些风险状况为()4694.1P 的

车主就会到这家便宜的保险公司来购买保险。如果这家保险公司不提高保费,那么就这个险种而言,很快就会收不抵赔,财务情况发生困难。所以保险公司考虑风险的异质性,按风险类别分别收取不同的保费是非常必要的。

关于按风险类别分别收取不同保费的问题,一般来说有以下两种处理方法。由于汽车有家用载人、出租汽车、企业载货、公共交通等的区别,他们的风险状况非常不同,所以保险公司按不同的类别设计了不同的险种。这是第一种处理方法。同是家用载人轿车,其风险状况和被保险人的年龄、性别、驾驶经验、汽车的品牌和款式、每年行驶的里程数、使用年数以及停放地点有关。如果保险公司按被保险人和汽车的不同情况将家用载人轿车险种再进一步细分成不同的险种,这样的处理方法势必增加公司的管理费用,至少在经济上是不合算的。人们通常采用的解决方法是,对购买家用载人轿车险种的投保人,根据他们不同的风险特征,

收取不同的保费。收取的保费既要考虑该投保人的风险特征,又要考虑家用载人轿车险种总的赔付情况。这第二种处理方法就是本章将要讨论的方法。

在上例,我们假设这些观察数据来自于两个不同的Poisson 分布()1719.0P 和()4694.1P 的混合,其中来自于()1719.0P 的比例为8876.0,来自于()4694.1P 的比例为1124.0。这

相当于假设,这些观察数据来自于Poisson 分布()λP ,λ可能等于0.1719,也可能等于1.4694,λ等于0.1719的概率为0.8876,λ等于1.4694的概率为0.1124。这相当于说λ服从离散型

分布,其分布律为

表5.2.2

此外,λ也可以服从更加复杂一些的分布,例如取三个,或更多值的离散型分布,甚至连续型分布。就本例索赔次数数据而言,若λ取连续型分布,则由第二章的表2.2.1知,通常假设λ服从伽玛分布,其密度函数为

()()

γλ

--ααλαΓγ=λπe 1,0>λ (5.2.2)

其中0>γ,0>α,γ和α是伽玛分布的两个参数。伽玛分布的密度函数的图形如下:

(a-1)/b

图 5.2.1

伽玛分布的均值和方差分别是γα和2γα。从图5.2.1可以看到,在1≤α时,伽玛分布的密度函数严格单调下降。而在1>α时,函数是单峰的,峰值(即众数)位于γ-α=λ)1(处。所以如果取1≤α的伽玛分布作为λ的分布,则该险种的投保人,风险状况越好的越多,越差的越少。而如果取1>α的伽玛分布作为λ的分布,则风险状况居中的投保人多,且两边风险状况好的和差的投保人都越来越少。 5.2.2 结构函数

设随机变量X 表示某一险种的实际损失。X 可以代表该险种的索赔次数,索赔频率或赔款额。X 的风险大小一般用θ来度量。θ称为风险参数。θ犹如上面所述的Poisson 分布中的λ。若风险同质,θ取某个固定的值。若风险异质,θ服从某个分布,其密度记为()θπ。在θ服从离散型分布时,()θπ表示分布律;在θ服从连续型分布时,()θπ表示密度函数。在信度理论中,()θπ称为结构函数(structure function),而在贝叶斯统计推断中,()θπ称为先验分布。在信度理论中,在θ给定后,X 的条件概率密度记为()θ|x f ,并称X 的边际密度()()()θθπ?θ=d |x f x f 为混合分布,如果θ是离散型取值,其中的积分应理解为求和。

结构函数是描述和处理风险异质性的一个重要方法。结构函数的选取,取决于我们对实际情况和贝叶斯统计推断的了解程度。比如,关于索赔次数数据,通常假设在λ给定后,X 的条件分布为Poisson 分布()λP 。根据贝叶斯统计推断的理论,人们取λ的结构函数为伽玛分布。同时人们发现取伽玛分布为结构函数能很好地描述风险的异质性。事实上,如何识别风险的异质性,以及在风险异质时,如何区分风险类别,如何构造结构函数都是实践性很强的问题,依赖于人们的经验,对险种、风险、投保人和市场等的了解程度,依赖于我们收集到的数据的质量和数量。

第一章的(1.1.17)式在识别索赔次数数据的风险异质性时是很有用的。我们把它作为一个定理,重新叙述如下:

定理5.2.1 风险异质时,总的方差等于条件方差的期望与条件期望的方差之和:

()()()()()θ+θ=|X E Var |X Var E X Var

5.2.3 索赔次数数据的风险异质性的识别

下面以我国某家保险公司1996年的35,072辆投保机动车的索赔次数的统计结果(见表5.2.1)为例,介绍贝叶斯统计推断以及统计估计和检验,在识别和处理风险异质性问题中的

应用。

必须指出的是,这里的风险指的是索赔次数,不是赔款额。索赔次数的分布往往假设为Poisson 分布,而赔款额的分布有多种假设。不同的险种,有不同的赔款额的分布假设。所以赔款额数据的风险异质性问题的讨论较索赔次数复杂和困难。本书将不讨论这个问题。由于赔款额数据常常和索赔次数数据在一起,所以通过讨论索赔次数数据,在一定程度上可以识别和处理赔款额数据的风险异质性问题。但必须指出的是,赔款额数据和索赔次数数据是有区别的。比如,某家保险公司发现,女驾驶员发生事故比较多。所以就索赔次数看,对女驾驶员似乎应征收更多的保费。但在男驾驶员发生事故中,损失往往比较大。所以总的来看,还是男驾驶员的赔款额大。对女驾驶员征收的保费应该比男驾驶员少。当然,若平均赔款额相等,则在识别和处理风险异质性时,索赔次数数据的讨论和赔款额数据的讨论是相互等价的。

在风险异质时,按贝叶斯统计推断的理论,Poisson 分布()λP 称为在λ给定后,索赔次数X 的条件分布,而(5.2.1)式是索赔次数为k 的条件概率,记为

() ,2,1,0k ,e !

k |k X P k =λ=λ=λ

- (5.2.3)

()()λ=λ=λ|X Var |X E

λ的结构函数记为()λπ。则

()()()()λ=λ=E |X E E X E

根据定理5.2.1,我们有

()()()()()()()()λ+λ=λ+λ=|X E Var E |X E Var |X Var E X Var

()()()()X E |X E Var X E >λ+=

所以在风险异质时,方差比均值大。而在风险同质时,λ取某个固定的值,比如0λ。风险X 服从Poisson 分布()0P λ。则()()0X V ar X E λ==。所以在风险同质时,方差等于均值。方差比均值大,还是方差等于均值,这是风险异质和同质的一个显著区别。所以识别风险异质性的问题,可以转化为方差是否比均值大的问题。若方差比均值大,则认为风险有异质性。

由表5.2.1所列的数据,算得样本均值和样本方差分别为

3176.0072

,354573443,12789,5x =+?+?+=

4913.03176.0072

,354573443,12789,5s 2322

=-+?+?+=

根据统计假设检验的理论,我们只有在样本方差比样本均值显著地大的时候,才认为方差比均值大。

可以证明(证明从略):在风险同质时,()

1x s n 2-的渐近分布为正态分布()2,0N 。由此渐近正态性,我们得到了识别风险异质性的检验方法,如下所述。

首先给定检验的水平α,10<α<。常取α为一些标准化的数,如10.0,05.0,01.0等。如果

???

? ??+≥α-12U n 2

1x s (5.2.4) 我们在水平α下,认为方差比均值大,风险有异质性。如本章第一节所述的,α-1U 是标准正态分布()1,0N 的α-1分位点。在01.0,05.0,10.0=α时,28.1U 90.0=,64.1U 95.0=,

33.2U 99.0=。

由表5.2.1所列的数据,算得的样本均值和样本方差分别为3176.0x =和4913.0s 2

=。由于35072n =,所以在01.0,05.0,10.0=α时,(5.2.4)式都是成立的。故我们认为方差比均值大。表5.2.1所列的数据具有异质性。 5.2.4索赔次数数据风险异质时的结构函数

下面讨论在索赔次数数据具有异质性时,如何构造结构函数的问题。λ的结构函数可取为离散型分布,也可取为连续型分布。连续型分布似乎比离散型分布复杂,其实不然。即使当λ的结构函数为仅取两个值的离散型分布

基于历史经验数据,计算1λ,2λ和p 的估计值的过程是很复杂的。若取λ的结构函数为连续型分布,则由贝叶斯统计推断的理论,我们将这个连续型分布取为伽玛分布,其密度函数

()λπ如(5.2.2)式。那么基于历史经验数据,计算伽玛分布参数γ和α的估计值的过程相当简

单。所以在索赔次数数据具有异质性时,λ的结构函数通常取为伽玛分布。这时,由(5.2.2)和(5.2.3)式,索赔次数等于k 的边际概率等于

()

()

?λλαΓγλ==∞γλ

--ααλ

-0

1k d e e

!

k k X P ()()k

111!k k ???

?

??+γ???

?

??+γγαΓα+Γ=α

, ,2,1,0k = (5.2.5) 这是负二项分布,是索赔次数X 的混合分布。令

()()k

k 111!k k p ???

?

??+γ???

?

??+γγαΓα+Γ=α

, ,2,1,0k = 则k p 有递推迭代计算公式:()())?+γα+-?=-1k 1k p p 1k k , ,2,1,0k =,即

()()()()()()()()()????

?

??

??+γα+=+γα+=+γα=+γγ=α

132p p 121p p 1p p 1p 2312010 (5.2.6) 在风险异质,λ的结构函数取为伽玛分布时,观察数据来自于Poisson 分布的混合,即负二项分布。负二项分布(见(5.2.5)式)的均值和方差为

表5.2.3

根据统计矩估计的理论,负二项分布的均值和方差分别用样本均值x 和样本方差2

s 来估计。所以伽玛分布的参数α和γ的矩估计是下述方程组的解:

?????=γα+γα=γα2

2s

x

故α和γ的矩估计分别为

(

)

(

)

?????-=γ

-=α

x s x ?x s x ?2

22 (5.2.7)

由表5.2.1所列的数据,已经算得3176.0x =,4913.0s 2

=。则由(5.2.7)式算得,α和γ的矩估计分别为5807.0和8284.1。由于α的估计15807.0<,则由图5.2.1可以看到,我国某家保险公司1996年的机动车险的投保人,风险状况越好的越多,越差的越少。

若用负二项分布进行拟合,则由(5.2.5)式,在35,072辆投保机动车中索赔次数为k 的拟合频数为

()()k

8284.218284.28284.1!k 5807.05807.0k 072,35??

? ????? ??Γ+Γα, ,2,1,0k =

使用递推迭代计算公式(见(5.2.6)式),求得负二项分布的拟合频数。实际观测频数和单个Poisson 分布、两个Poisson 分布的混合和负二项分布的拟合频数见下表:

两个Poisson 分布混合时的拟合情况与负二项分布的拟合情况相差不大,他们都比单个Poisson 分布拟合好。就尾部概率的估计来说,负二项分布的拟合比较稳妥。就这个意义而言,两个Poisson 分布混合时的拟合情况不如负二项分布的拟合情况。

例5.2.2某保险公司12,299辆投保机动车辆车身险的保单按年龄(<25岁和25岁+)以及车辆类型(家用轿车和高性能车)分成四组。每一组和总的索赔次数的统计结果见下表:

首先检验,要不要分组。若不分组,将这些保单放在一起。样本均值x 和样本方差2s 分别为0.188552和0.196093。总的保单数299,12n =。在01.0,05.0,10.0=α时,(5.2.4)式都是成立的。所以我们认为将这些保单放在一起,数据具有异质性。

接下来分别计算各个组的样本均值和样本方差,结果如下:

这四组的样本均值相差比较大,由此也可以看到分组的必要性。每一组的样本方差都比样本均值大,而第2组(25岁和25岁以上驾驶高性能车的投保人)的样本方差比样本均值大得多,其余三组的样本方差比样本均值大得不多。下面分别验证各个组的样本方差是否比样本均值显着地大。关于()

α-+1U n 21x 的计算结果如下:

将α-+1U n 21x 的值和样本方差2

s 相比较,我们认为第2组的风险非同质,而其余三组的风险同质。

下面我们构造一个伽玛分布作为第2组的结构函数。将第2组的样本均值193599.0x =和样本方差217008.0s 2

=代入(5.2.7)式,从而求得伽玛分布的参数α和γ的矩估计值。他

们分别为601.1?=α

和270.8?=γ。由于α的估计1601.1>,则由图5.2.1可以看到,这家保险公式投保机动车辆车身险的25岁和25岁以上驾驶高性能车的投保人,风险状况居中的多。在实际操作时,我们可以将25岁和25岁以上驾驶高性能车的投保人,按他们的性别、每年行驶的里程数、或使用年数等再细分成若干组,使得各组内风险同质。

§5.3 Buhlmann 方法

5.3.1 贝叶斯保费

设随机变量X 表示某一险种的实际损失。X 可以代表该险种的索赔次数,索赔频率或赔款额。X 的风险非同质,其风险的大小用风险参数θ来度量。在θ给定后,X 的条件概率密度为()θ|x f 。θ的结构函数(先验概率密度)为()θπ。

假设我们有同样风险的前期历史经验数据n 1x ,,x 。信度理论的目的是基于n 1x ,,x 预测下一期保费1n X +,1n X +和n 1x ,,x 有相同的风险。基于贝叶斯统计推断的理论,最精确信度理论(great accuracy credibility theory)在平方损失函数下,取1n X +的条件数学期望为下一期保费1n X +的预测。称这个保费为贝叶斯保费(Bayes premium)。

在θ给定后,n 1X ,,X 的条件密度为()∏θ=n 1i i |x f ,从而得n 1X ,,X 和θ的联合密度为()()

()θπ∏θ=n 1i i |x f 。故()()()

()?θθπ∏θ==d |x f x ,,x f n 1

i i n 1 是n 1X ,,X 的边际密度。同理,()()()

()?θθπ∏θ=+=+d |x f x ,x ,,x f 1n 1

i i 1n n 1 是1n n 1X ,X ,,X + 的边际密度。因而在n 1X ,,X 给定为n 1x ,,x 的条件下,1n X +的条件密度为

()()()

n 11n n 1n 11n x ,,x f x ,x ,,x f x ,,x |x f ++=

所以1n X +的贝叶斯保费的计算公式为

()()?==+++n 11n 1n n 11n x ,,x |x f x x ,,x |X E P

()()

n 11n 1n n 11n x ,,x f dx x ,x ,,x f x ?=+++

()()()()

()()

()?θ

θπ∏θ??θθπ∏θ==++=+d |x f dx d |x f x n

1i i 1n 1

n 1i i 1n (5.3.1)

必须指出的是,上述积分有时应理解为求和。

在θ给定后,X 的条件期望记为()θμ,

()()()?θ=θ=θμdx |x xf |X E

在信度理论中,()θμ称为假设均值(hypothesis mean),又称风险保费(risk premium)。()θμ是风险参数为θ的保单的理想保费。它是体现风险特征的保费,但它通常是未知的。可以证明贝叶斯保费等于()θμ的条件数学期望。

定理5.3.1 在θ给定后,假设1n n 1X ,X ,,X + 独立同分布,是来自于总体X 的样本,X 的密度为()θ|x f 。假设θ的先验密度为()θπ。令()]|X [E θ=θμ。那么在n 1X ,,X 给定的值为n 1x ,,x 后,1n X +的贝叶斯保费

()()()n 1n 11n x ,,x |E x ,,x |X E P θμ==+

证明 由于n 1X ,,X 和θ的联合密度为()()

()θπ∏θ=n 1

i i |x f ,故n 1X ,,X 给定为的值n 1x ,,x 后,θ的条件密度为

()()()()()

n 1n 1i i n

1x ,,x f |x f x ,,x |f θπ∏θ=

θ= 所以

()()()()()

()()

n 1n 1i i n 1x ,,x f d |x f x ,,x |E ?θθπ∏θθμ=

θμ= 由于1n X +是来自于X 的样本,故()()1n 1n 1n 1n dx |x f x ]|X [E ++++?θ=θ=θμ。从而

()()()()()()

()()

n 1n 1i i 1n 1n 1n n 1x ,,x f d |x f dx |x f x x ,,x |E ?θθπ∏θ?θ=

θμ=+++ ()()()()

()

n 11n 1

n 1i i 1n x ,,x f dx d |x f x ??θθπ∏θ=

++=+ 由(5.3.1)式,定理得到证明。

由(5.3.1)式可以看到,为了计算贝叶斯保费,必须知道条件密度()θ|x f 和结构函数

()θπ。而在实际问题中,它们往往是未知的,甚至不知道它们的参数表达形式。基于历史

经验数据是很难估计出条件密度和结构函数的。这是计算贝叶斯保费的第一个困难。此外,即使知道或估计出了条件密度和结构函数,由于积分(或求和)计算的困难和复杂,很难得到贝叶斯保费的明显表达式。这是计算贝叶斯保费的第二个困难。由于这两个困难,贝叶斯保费不实用。正因为如此,瑞士精算学家Buhlmann 提出,将基于历史经验数据预测下一期保费压缩为基于历史经验数据的线性函数预测下一期保费。范围缩小,所求得的预测保费不可能比原来的好。但由于Buhlmann 提出的方法计算简单,且容易理解,一直沿用至今。 5.3.2 Buhlmann 信度模型

设随机变量X 表示某一险种的实际损失。θ为其风险参数。记()()θ=θμ|X E ,

()()θ=θ|X Var v 。在上一节我们已经知道,()θμ称为假设均值,或风险保费。它是一种

体现风险特征的保费。()θv 称为过程方差(process variance)。它度量了相同风险水平的内在差异。令

()()()()()θμ=θ==μE |X E E X E ()()()()θ=θ=v E |X Var E v ()()()()θμ=θ=Var |X E Var a

()θμ是风险参数为θ时,X 的条件均值。而μ是不同风险参数,X 的条件均值的平均。所

以μ称为X 的总的均值,可视为在没有投保人风险水平的任何信息时,对其征收的保费。

()θv 衡量了相同风险水平的内在差异,v 为它的均值(expected value of the process variance),

称为X 的同质方差。v 比较小,意味着相同风险水平的内在差异都不大。风险保费()θμ依赖于风险参数θ,a 为它的方差(variance of the risk premium)。a 描述了因风险水平不同质导致的差异,称为X 的异质方差。a 比较大,意味着不同风险水平之间的差异较为显着。所以v 比较小,a 比较大,意味着风险的分类比较合理。在Buhlmann 信度模型中,称μ,v 和a 为结构参数(structure parameters)。为了计算贝叶斯保费,必须知道条件密度()θ|x f 和结构函数()θπ。而计算Buhlmann 信度保费,只需要知道结构参数μ,v 和a 的值。基于历史经验数据,不难估计出结构参数μ,v 和a 的值。

例5.3.1 (例5.2.1的续) 由于X 的分布为Poisson 分布()λP ,所以()()λ=λ=λμ|X E ,

()()λ=λ=λ|X Var v 。

(1) 取λ的结构函数为

()()()3177.01124.04694.18876.01719.0E E =?+?=λ=λμ=μ ()()()3177.0E v E v =λ=λ= ()()()

λ=λμ=Var Var a

1680.03177.01124.04694.18876.01719.022

2=-?+?=

(2) 取λ的结构函数为伽玛分布,其密度函数为

()()

γλ--ααλαΓγ=λπe 1,其中5807.0=α,8284.1=γ

由于伽玛分布的均值和方差分别是γα和2γα,所以

()()()3176.08284.15807.0E E ==λ=λμ=μ ()()()3176.0E v E v =λ=θ=

()()()1737.08284.15807.0V ar V ar a 2

==λ=λμ=

由定理5.2.1,我们知道X 的总的方差等于X 的同质方差与异质方差之和:

()a v X Var += (5.3.2)

假设1X 和2X 的风险参数相等,都等于θ。则在θ给定的条件下,1X 和2X 条件独立。从而()0|X ,X Cov 21=θ。但是()21X ,X Cov 一般不等于0。

定理5.3.2 若1X 和2X 的风险参数相等,则

()a X ,X Cov 21=。

证明:由于

()()()()212121X E X E X X E X ,X Cov -=

()()()()()()()()()

2212121E |X E |X E E |X X E E X X E θμ=θθ=θ= ()()()()()()()()()22121E |X E E |X E E X E X E θμ=θθ=

所以

()()()()

()()()()()a Var E E X ,X Cov 2221=θμ=θμ-θμ=

定理得到证明。

应该指出的是,在1X 和2X 的风险参数不相等时,()0X ,X Cov 21=。

在前期历史数据n 1x ,,x 的风险参数都相等时,则由n 1x ,,x 的条件独立性,有

()()()n v n |x Var |x Var 2n 1i i θ=∑θ=θ=

其中n x x n 1i i ∑==为样本均值。另由(5.3.2)式和定理5.3.2,有

()()()

∑+∑=∑≤<≤==n

j i 1j i n 1i i n 1i i x ,x Cov 2x Var x Var

()()a n nv a 1n n a v n 2+=-++=

()()

a n v n x Var x Var 2n 1i i +=∑== (5.3.3)

5.3.3 结构参数的估计

设有r 组,每一组都有n 个历史数据:()

n i 2i 1i x ,,x ,x ,r ,,2,1i =。同一组的历史数据的风险特征相同,不同组历史数据的风险特征不同。假设各组的风险参数分别为

r 21,,,θθθ 。假设均值()i θμ和过程方差()i v θ的常用估计分别为

()n x x ?n 1j ij i i ∑==θμ=

()()()1n x x v ?n 1j 2i

ij i -∑-=θ=

它们都是无偏估计。考虑到()()θμ=μE ,()()θ=v E v ,我们分别取()i ?θμ

和()i v ?θ的平均为μ和v 的估计:

()x n r x r x ?r 1i n 1j ij r 1i i =∑∑=∑=μ=== (5.3.4)

()()()()1n r x x r v ?v ?r 1i n 1j 2i

ij r 1i i -∑∑-=∑θ==== (5.3.5)

它们都是无偏估计。考虑到a 是()θμ的方差,并注意到()i θμ的估计为i x ,r ,,2,1i =,

我们取a 的估计为r 21x ,,x ,x 的样本无偏方差:()()1r x x r 1i 2

i

-∑-=。下面证明,它不是

a 的无偏估计。

()()()()()()()1r x rE x E 1r x x E 2

r 1i 2i r 1i 2i --∑=-∑-==

据(5.3.3)式,由于()

n i 2i 1i x ,,x ,x 有相同的风险参数,则

()

()()()()22i i 2

i a n v x E x V ar x E μ++=+=,r ,,2,1i =

由于在j i ≠时,(

)n i 2i 1i x ,,x ,x 和()

n j 2j 1j x ,,x ,x 有不同的风险参数,它们相互独立,所以

()

()()()()()222r 1i i 22r a n v r x Var x E x Var x E μ++=μ+∑=+==

从而

()()()

n v a 1r x x E r 1i 2i +=-∑-=

虽然()()1r x x r 1i 2

i

-∑-=不是a 的无偏估计,但由于它的均值为n v a +,我们可以将它修

改为无偏估计。修改后的估计为

()()n v ?1r x x a

?r 1i 2i --∑-== (5.3.6) 其中v

?如(5.3.5)所示。由于v ?是v 的无偏估计,所以 ()()()()

()a n v ?E 1r x x E a

?E r 1i 2i =--∑-== a

?是a 的无偏估计。 如果各组的数据个数不一定都相等,比如分别有r 21n ,,n ,n 个历史数据:

()i

n i 2i 1i x ,,x ,x ,r ,,2,1i =。则μ、v 和a 的估计分别为

x N x n x n ?r 1i n 1j ij r 1i i r 1i i i i =∑∑=∑∑=μ==== (5.3.7)

()()()()()r N x x 1n v ?1n v ?r 1i n 1j 2i

ij r 1i i r 1i i i i -∑∑-=∑-∑θ-===== (5.3.8)

()()()()

N n N v ?1r x x n a

?r 1i 2i r 1i 2i i ∑---∑-=== (5.3.9) 其中∑==r 1i i n N 为数据总个数,

(5.3.9)中的v ?如(5.3.8)所示。可以证明,它们都是无偏估计。 例5.3.2 假设某保险公司有两份保单。这两份保单的风险特征不同。前4年各份保单的逐年索赔次数的记录如下:

()7468104x 1=+++=,()134********x 2=+++=,

据(5.3.4)、(5.3.5)和(5.3.6)式,结构参数的估计为

()102137?=+=μ

()

()11)14(2)1313()1312()76()74(v

?2222=--++-+-++-= ()()()12205431112)1013(107(a

?22=---+-= 5.3.4 Buhlmann 方法

考虑到贝叶斯保费计算的困难性,瑞士精算学家Buhlmann 提出,基于n 1x ,,x 的线性函数n n 11x x β++β+β 预测下一期保费1n X +。这个线性函数称为线性保费。i β是i x 在线性保费中的权重,n ,,1i =。由于n 1x ,,x 的风险特征都相同,所以只有当他们的权重都相等时,这个线性保费才是合理的。在权重n 1β==β 时,n n 11x x β++β+β

x n 1β+β=。令1n z β=,则线性保费化为x z +β。最优线性保费称为Buhlmann 信度保费

(Buhlmann credibility premium),简称信度保费。

作为下一期保费1n X +的预测,信度保费x z +β应该与1n X +最接近。Buhlmann 取均方损失函数

()()

21n X x z E +-+β (5.3.10)

衡量x z +β与1n X +的接近程度。信度保费应该是使得均方函数(5.3.10)式达到最小的

x z +β。这是寻求信度保费的第一条途径。另一条途径是取均方损失函数

()()()

2x z E θμ-+β (5.3.11)

衡量x z +β与()θμ的接近程度。信度保费应该是使得均方损失函数(5.3.11)式达到最小的

x z +β。可以证明,这两条途径是等价的,所寻找到的信度保费是相等的。

心理学中的各种信度和效度

心理学中的各种信度和效度 一、信度 所谓信度,指的是测量结果的稳定性程度,其操作定义是,信度乃是一个测验X与它的任意一个“平行测验X'的相关系数。无关因素、测验的长度、测验试题的区分度、被试团体的代表性都会影响信度。 (一)重测信度 1、定义:利用同一量表,让同一被试群体在不同时间两次施测之后的相关值。这一信度值表示的是测验结果的稳定性,故也称之为稳定性系数。 2、形式:施测——经过适当时间——再施测 3、举例:假设有一份主观幸福感调查表,先后两次施测于10名学生,时间间隔为半年,结果如下表所示,求该测验的重测信度。 4、使用的前提条件 (1)所测量的心理特质必须是稳定的。 (2)遗忘和练习的效果基本上互相抵消。 (3)在两次施测的间隔期内,被试在所要测查的心理特质方面没有更多的学习和训练。5、注意事项 (1)有些测验不宜采用重测法估计信度,如测量推理和创造力的测验。那些不易受重复使用影响的测验才能用再测法估计信度。如感觉运动测验、人格测验。 (2)两次测验间隔的时间要适当,并注意提高被试的积极性 (3)测验手册中报告重测信度时应说明两次施测的间隔,以及在此期间内被试的有关经历(4)时间间隔的把握:适宜时间间隔依照测验目的、性质及被试特点而定,可以是几分钟甚至几年。例如对于年幼儿童的间隔要小;年长群体的间隔可大。但智力测验的间隔不能太短,成就测验的间隔不能太长。一般间隔时间不超过六个月,既不能让被试记住上一次测验的内容,又不能让其特质发生变化,或对所学知识产生遗忘。 6、重测信度的评价: (1)优点:能够提供有关测验结果是否随时间而变异的资料,可作为预测受测者将来行为表现的依据。 (2)缺点:易受练习和记忆的影响,前后两次施测间隔的长短必须要适度。 (二)复本信度

信度理论习题

信度理论习题1 以下几题来自近几年SOA的course4和courseC。 1、(2005 May course C 第2题)You are given: (i) The number of claims follows a negative binomial distribution with parameters r andβ=3 . (ii) Claim severity has the following distribution: The number of claims is independent of the severity of claims. Determine the expected number of claims needed for aggregate losses to be within 10% of expected aggregate losses with 95% probability. 2、2005FallcourseC第35题.You are given: (i) The number of claims follows a Poisson distribution. (ii) Claim sizes follow a gamma distribution with parameters α(unknown) and θ=10,000 (iii) The number of claims and claim sizes are independent. (iv) The full credibility standard has been selected so that actual aggregate losses will be within 10% of expected aggregate losses 95% of the time. Using limited fluctuation (classical) credibility, determine the expected number of claims required for full credibility. ((A) Less than 400 (B) At least 400, but less than 450 (C) At least 450, but less than 500 (D) At least 500 (E) The expected number of claims required for full credibility cannot be determined from the information given. 这道题limited fluctuation (classical) credibility就是指我们课堂上讲的有限波动信度,这道题要求我们求满足完全可信条件所需的最小理赔次数。 3、1104-第21题 You are given: (i) The number of claims has probability function: (ii) The actual number of claims must be within 1% of the expected number of claims with probability 0.95. (iii) The expected number of claims for full credibility is 34,574. Determine q. 4、1100中第14题.For an insurance portfolio, you are given: (i) For each individual insured, the number of claims follows a Poisson distribution. (ii) The mean claim count varies by insured, and the distribution of mean claim counts follows a gamma distribution. (iii) For a random sample of 1000 insureds, the observed claim counts are as follows: (iv) Claim sizes follow a Pareto distribution with mean 1500 and variance 6,750,000. (v) Claim sizes and claim counts are independent. (vi) The full credibility standard is to be within 5% of the expected aggregate loss

信度与效度分析步骤(可编辑)

信度与效度分析步骤(可编辑) 如何用spss做问卷的结构效度分析, 因子分析里面Descriotives里面KMO和巴特利检验就可以了吗,除此之外,还要做什么啊,请高手赐教点简单易懂又能说明效度问题的,谢谢啦~问题补充: 提取因子的个数怎么确定,是选特征值大于1的吗,还有,因子载荷怎么算,是 在输出结果中直接可以看到吗,本人刚接触spss,请多多指教~ 首先必须要做KMO和Bartlett球形检验,这个你应该会了吧,如果这两个检验 合格的话说明数据是适合做因子分析的。 然后提取因子后,看主因子解释总变异的百分比和个因子的因子载荷,主因子解释总变异一般若大于60[%]的和因子载荷大于0.6的话说明结构效度很好。 pS: ,如果题目没有规定就是选特征值大于1的,如果题目事先要提取几个因子,那么在操作的时候,用SPSS那个因子分析的选项里面有一个地方可以著名,因子载荷在输出的结果直接可以看到(rotated compoment matrpx),一定要是旋转后的因子载荷 用spss进行效度分析? 我要对我的问卷调查数据做一个信度和效度分析。信度分析我会了,就是看Cronbach’s Alpha 系数。效度分表面效度、准则效度和构建效度,前面两项只要说明一下,但是构建效度要用SPSS分析,我想是在因子分析里面吧,就是不知道哪个值代表效度。 因子分析的效度分析主要的指标可以看,因子提取的方差累积贡献率,如果因子提取的越少且方差累积率又不低的话(一般如果2个因子达到40[%]以上的贡献率就算可以的了),就可以认为因子分析的效度还可以。

除此之外,你可以用因子分析里面Descriotives里面KMO和巴特利检验(battele,不知道是不是这样写的),KMO的值如果 0.5,则说明因子分析的效度还行,可以进行因子分析;另外,如果巴特利检验的P 0.001,说明因子的相关系数矩阵非单位矩阵,能够提取最少的因子同时又能解释大部分的方差,即效度可以。 问:问卷效度测验如何应用于SPSS 问卷效度测验如何应用于SPSS,然后因为做效度检验貌似要用皮尔逊相关还是因子分析,所以不懂如何把这些应用于SPSS,不想要变量,想要整体,一个整体。 用因子分析,就已经是在检验变量的整体了 因子分析就是用少数几个因子来描述许多指标或因素之间的联系,以较少几个因子反映原资料的大部分信息的统计方法。 三、因子分析的SPSS过程 第一步:准备数据文件,打开对话框,加载观测变量。数据文件主要是由较多的(一般在10个以上)可观测变量组成,个案数应比较大。然后点击“Analyze” ,选择“Data Reduction” 中的“Factor”打开因子分析对话框,将参与分析的所有观测变量加载到“Variables”下边的方框中。 第二步:点击“Descriptives…”设置描述性统计要求。这里关键的是要求输出因子分析适合度的检验,一般要求输出:计算相关系数矩阵(选中Coefficients)、相关系数显著性水平矩阵(选中Significance levels)、反像相关矩阵检验 ( 选中Anti-image ) 、KMO 和巴特利特球形检验( 选中 KMO and Bartlett’s test of sphericity)。 第三步: 点击“Extraction”打开对话框设置因子提取方式。在界定因子提取方法中需要设置以下几个方面的参数:

问卷的信度与效度

调查问卷的信度效度分析方法 问卷调查法是教育研究中广泛采用的一种调查方法,根据调查目的设计的调查问卷是问卷调查法获取信息的工具,其质量高低对调查结果的真实性、适用性等具有决定性的作用。为了保证问卷具有较高的可靠性和有效性,在形成正式问卷之前,应当对问卷进行试测,并对试测结果进行信度和效度分析,根据分析结果筛选问卷题项,调整问卷结构,从而提高问卷的信度和效度。信度和效度分析的方法包括逻辑分析和统计分析,本文主要讨论后者。 一、信度分析 信度(Reliability)即可靠性,它是指采用同样的方法对同一对象重复测量时所得结果的一致性程度。信度指标多以相关系数表示,大致可分为三类:稳定系数(跨时间的一致性),等值系数(跨形式的一致性)和内在一致性系数(跨项目的一致性)。信度分析的方法主要有以下四种: 1、重测信度法 这一方法是用同样的问卷对同一组被调查者间隔一定时间重复施测,计算两次施测结果的相关系数。显然,重测信度属于稳定系数。重测信度法特别适用于事实式问卷,如性别、出生年月等在两次施测中不应有任何差异,大多数被调查者的兴趣、爱好、习惯等在短时间内也不会有十分明显的变化。如果没有突发事件导致被调查者的态度、意见突变,这种方法也适用于态度、意见式问卷。由于重测信度法需要对同一样本试测两次,被调查者容易受到各种事件、活动和他人的影响,而且间隔时间长短也有一定限制,因此在实施中有一定困难。 2、复本信度法 复本信度法是让同一组被调查者一次填答两份问卷复本,计算两个复本的相关系数。复本信度属于等值系数。复本信度法要求两个复本除表述方式不同外,在内容、格式、难度和对应题项的提问方向等方面要完全一致,而在实际调查中,很难使调查问卷达到这种要求,因此采用这种方法者较少。 3、折半信度法 折半信度法是将调查项目分为两半,计算两半得分的相关系数,进而估计整个量表的信度。折半信度属于内在一致性系数,测量的是两半题项得分间的

信度与效度完成补充版

1、理论综述(已完成) 2、描述量表的设计(分成7部分,每一部分都有哪些题目) 3、报告量表的信度和效度,说明量表的合理性。 4、报告结果(总结出5点左右的结论,用数据和图表支撑结论,希望尽量丰满) 5、找到影响有效实践教学效果的基本因素(找到3点左右,用数据和图表支撑结论) 三、报告量表的信度和效度,说明量表的合理性。 1、信度 Cronbach’s α系数是Cronbach 于1951年创立的,是指测验内部的项目在多大程度上考察了同一内容,评价的是量表中各题项得分间的一致性。同构型信度低时,即使各个测试题看起来似乎是测量同一特质,但测验实际上是异质的,即测验测量了不止一种特质。α信度系数法是目前最常用的内部信度系数。 实际上,α系数是所有可能的分半信度的平均值,α系数是估计信度的最低限度,α系数高时,信度就高,α系数低时,信度不一定低。低信度:α<0.35, 中信度: 0.35<α<0.70,高信度: 0.70<α。一般来说,问卷的α系数在0.8以上该问卷的信度较好,达0.85以上,表明问卷信度良好。 克朗巴哈α信度,是对折半信度的改进,检验公式是:)1(1k k 2 2 i σσα∑--= ,其中 K 表示问卷中的题目数, 为第i 题的调查结果方差, 为全部调查结果的方差。 信 度系数是目前最常用的信度分析法。 本次量表的信度通过计算由下表报告: 信度 格朗巴哈α(Cronbach's Alpha ) 问题个数 0.96 56 本问卷的信度达0.85以上,表明问卷信度良好。 2、效度 所谓问卷设计质量的效度检验,指的是问卷测量结果有效性的分析,即对设计问卷的测量结果反映它所应该反映的客观现实的程度的检验。具体来说,效度检验必须针对其特定的目的功能及适用范围,从不同的角度收集各方面的资料分别进行。常用的效度检验有内容效度、结构效度、难易效度、准则效度等。

试题的难度、区分度、信度和效度

试卷的难度、区分度、信度和效度 一.试卷的难度 (一)什么是难度 难度是指试卷的难易程度,是评价考试的一个非常重要的一个指标。一个题目,如果大部分考生都能答对,那么这个题目的难度就小;如果大部分考生都不能答对,那么这个题目的难度就大。 客观题难度计算公式:P(难度指数)=试卷答对人数/考生人数;主观题难度计算公式:P=试卷平均得分/试卷满分。试卷难度计算公式:P=为平均分,K 为试卷满分值。易、中、难的标准为:易:P≥0.7,中:0.4≤P≤0.69,难:P≤0.39;P值越大,难度越低,P值越小,难度越高。一般来说,难度值平均在0.5最佳,难度值过高或过低,都会降低测验的信度。 (二)难度的计算 (1)客观性试卷难度P(这时也称通过率)计算公式: P=k/N(k为答对该题的人数,N为参加测验的总人数) (2)主观性试卷难度P计算公式: P=X/M(X为试卷平均得分;M为试卷满分) (3)适用于主、客观试卷的计算公式: P=(P H +P L )/2(P H 、P L 分别为试卷针对高分组和低分组考生的难度值) 步骤为:①将考生的总分由高至低排列;②从最高分开始向下取全部试卷的27%作为高分组;③从最低分开始向上取全部试卷的27%作为低分组;④计算。 (三)试卷难度的一般要求 就高考来说,难度以适中为宜,单个试卷的难度以0.3--0.7之间为好,整卷以0.5--0.6之间为最佳。一般将难度值大于和等于0.7的试卷定为容易题;大于0.4和小于0.7的定为中档题;小于和等于0.4的试卷定为难题。命题时难度一般要按一定比例分配,如3:6:1或3:5:2。 二.试卷的区分度 (一)什么是区分度 区分度是指考试卷目对考生心理特征的区分能力。区分度高的试卷能将不同水平的考生区分开来,水平高的考生得高分,水平低的考生得低分。区分度高的

如何保证人才测评的信度和效度

如何保证人才测评的信度和效度 人才测评的主要工作是通过各种方法对被试者加以了解,从而为企业组织的人力资源管理决策提供参考和依据。经过长期的发展和适应不同情况的需要,形成了多种人才测评方法。而人才素质测评作为一项重要的人事技术,已经为越来越多的企业人力资源部门所接受,而如何保证能力素质测评中的信度和效度,也越来越受到关注。下面,就具体案例讲讲如何保证能力素质测评的信度和效度。 一、案例背景 N公司是一家外资工程管理公司,成立于1998年,总部设在上海。随着WTO的开放和工程项目的增多,工程公司在国内如雨后春笋般成长起来,就此拉开了人才竞争的序幕。尤其是上海,工程项目管理人才的争夺十分激烈,N公司老总越来越感觉到市场的压力和人才的短缺。为了应对市场压力,保留现有中高层骨干人才,并让他们“适人适位”,N公司请来了北大纵横管理咨询公司,希望通过专业评估解决这个问题。 二、建立人才能力素质模型并实施测评 (一)中高层能力素质模型及测评方法的确定 鉴于本次测评的对象是N公司的中高层管理人才和精英人物,测评的目的是为了保留人才、适人适岗,因此经过双方共同探讨,项目组在北大纵横经理人能力素质指标体系的基础上,结合N公司的实际情况,选择个人驱动力、判断能力、分析能力、决策能力和水准、创新能力、客户服务能力、影响力、项目管理能力、任务分配能力等作为测评因素。同时,采用广泛用于企业人员素质测评、方案比较、科学技术成果评比等方面的层次分析法,来确定各测评因素在管理素质和业务素质上的权重。 通过向N公司老总介绍人才测评的方法及工具,大家一致选定评价中心技术进行本次人才测评,并主要运用三类测评工具:心理测验、深度面谈和情景模拟测验。 (二)测评实施程序 1、设计测评题目。咨询顾问和N公司相关人员一起,围绕测评因素,结合N公司实际情况进行测试题目的设计,并给出评分标准和评分参考。本次心理测试采取16PF人格要素测试,人机对话;深度面谈设计了20个题目,涵盖了测评的各个维度;情景模拟采用案例分析和主题演讲两种测评工具,其中案例分析题库包含12题,主题演讲题库包含15题,被测人员可以从各题库中抽取一题进行测试。 2、成立测评小组。其中,测评小组成员由N公司内部专家、外部专家,以及北大纵横项目组组成。在测评实施前,对测评小组进行培训,使大家能全面了解测评的程序、评分标准及方法。 3、实施测评。深度面谈和情景模拟测试是由测评小组根据测试题目对被测评人进行提问,被测评人根据提问回答问题,与测评小组进行双向沟通后,由测评小组根据评分标准对被测评人的表现现场打分,填入评分表;16PF人格要素测试要求被测试人进行40分钟的人机对话,由测评小组保存有效答卷。 由于不同的测评者其衡量的尺度会存在差异,为保证各个被试者成绩排序的正确性,在测评时,向测评者提供“成绩比较表”,供其记载各个被试者的各项测试的评分,便于他们进行比较。 4、分析测评结果并统计成绩。采用肯德尔和谐系数法对每个被测评者在各个测评要素上的得分进行评分者信度分析,并结合各测评要素在管理素质和业务素质方面的权重,计算出被测评人在业务素质和管理素质上的得分。测评结束后,测评小组对被测人员进行了问卷调查,了解他们对测评效果的看法。 三、测评为保证信度和效度所采取的措施 (一)保证测评信度采取措施分析 1、16PF测试采取的是计算机标准化题目的方式,计算机答题、计算机处理结果。被测试人员全部独立进行测试,并在规定时间内完成了测试。 2、深度面谈使用了20个题目,围绕测评因素的各个维度对被测评者进行考察。面谈进行顺利,被测人员都能较积极配合回答问题,和主试人进行较好的双向交流。 3、情景模拟采用案例分析和主题演讲两种测评工具,被测人员从两个题库中各抽取1题,测评小组根据其表现进行现场评估。测评得到了被测人员的积极配合,都能就问题提出自己的见解。 4、为增加评分者信度,本次测评工作专门成立了测评小组,并在测评前熟悉了整个测评程序和操作;各类能力素质附有评分标准,各类试题附有评分参考,力图对被测试者的表现进行量化分析;测评中,向测评者提供“成绩比较表”,

难度、信度、区分度

难度 概念 难度即测试题目的难易程度.一般在能力方面的测试中,它作为衡量测试题目质量的主要指标之一.它是衡量试题质量的一个重要指标参数,它和区分度共同影响并决定试卷的鉴别性。难度的计算一般采用某题目的通过率或平均得分率。测试的难度水平多高才合适,这取决于测试的目的、项目的形式和测试的性质。 两种定义 (1)P=1—x/w x为某题得分的平均分数,w为该题的满分。这种定义法,难度值小时表明试题容易,值大时表明试题难,最小值为0,最大值为1。 (2)P=x/w 这种定义法,难度值小时表明试题难,值大时表明试题容易,最小值为0,最大值为1。 难度的计算 (1)主观性试题的难度 A 基本公式法:P=1—x/w B 极端分组法P=1—(XH+XL)∕2W XH:高分组的平均得分(前27%),XL:低分组的平均得分(后27%)。 (2)客观性试题的难度

A 基本公式法:P=1—R/N R 为答对人数,N 为全体人数。 B 极端分组法:P=1—(PH+PL)∕2 PH=RH/n 叫高分组通过率,RH:高分组答对人数,n:总人数的前27%。PL=RL/n 叫低分组通过率,RL:低分组答对人数。 区分度 区分度是高考试题分析的一个指标,反映了试题对考生素质的区分情况。其数值在-1~1之间,数值越高,说明试题设计的越好。 参数含义 反应一个题目的鉴别能力,由其可得到三方面的信息:题目能否有效的测量或预测所要了解的某些特性或正态;题目能否与其他题目一致的分辩被试;以及被试在该题的得分和测验总分数间的一致性如何。区分度取值介于(-1,+1)。 输入 高分组(即得分最高的27%)被试在该题上的通过率(P H),低分组(即得分最低的27%)被试在该题上的通过率(PD) 操作 D=PH-P L PH:等于“假设被试群体是高分组时算出来的难度值”

提高结构化面试的信度和效度

结构化面试的信度与效度 结构化面试由于其相对较高的信度与效度,被各类企事业单位广泛应用于人员招聘与选拔过程中。面试官在评价应聘者时存在个体差异,直接表现为宽大效应或严格效应,这对雇佣决策提出了严峻挑战。本文分析了正式反馈对提高结构化面试有效性的积极作用,提出了优化结构化面试的对策与建议。 近些年来,人员测评在新员工甄选中发挥越来越大的作用,测评的科学性与实用性得到更多的关注。结构化面试是根据对职位的分析,确定面试的测评要素,在每一个测评的维度上预先编制好面试题目并制定相应的评分标准;面试过程遵照一种客观的评价程序,对被试者的表现进行数量化的分析;给出一种客观的评价标准,不同的评价者使用相同的评价尺度,以保证判断的公平合理性。 已有研究表明,结构化面试的效度仅次于评价中心,高于工作抽样、能力测验、个性测验等方法。在人才选聘面试结束后,面试官(评分者)之间对候选人的打分千差万别,往往导致合并的分数无法使用。如何使结构化面试中面试官的评分更加有效,成为员工甄选过程中面临的现实问题。 一、结构化面试的信度与效度 结构化面试强调面试内容与工作相关、面试流程标准化、评分结构化。结构化面试中,面试官的评分直接决定了最终的录用结果。结构化面试依靠面试官专业、准确的评分来实现,关键在于克服面试官评分的随意性与主观性。 结构化面试信度是指不同的面试官(评分者)面试同一个被试得出结论的一致性程度。面试信度低,意味着面试官评分一致性低,面试结果就不可靠。结构化面试的信度包括两个方面:一是面试要素内部信度,是指面试测评要素之

间的一致性;二是评分者间的信度,即评分者之间评分的一致性。 结构化面试的效度是指面试测量的准确性,即面试所测评到的结果与所考察内容的相符程度。结构化面试的效度一般采用预测效度,即面试结果能否预测应聘者未来实际工作绩效水平。总体来看,结构化面试平均效度系数是非结构化面试的两倍,提高面试效度最好的方法是提高结构化程度。 二、结构化面试信度与效度的影响因素 结构化面试是一种表现性评价方式,其评价结果的信度是进行有效推论和决策的前提。在结构化面试中通常由多个面试官进行打分,而面试官之间评价的不一致是影响评价结果应用的重要因素。尽管可以通过明晰评分细则、优化结构化面试题目等方式予以控制,但是评分者之间的不一致性难以避免。 面试信度与效度存在情景特异性与考官特异性。结构化面试误差主要来源包括:面试题目有效性、面试评委培训、评分维度设定、面试实施环节等。其中由于面试官带来的评分误差主要包括:与我相似效应、对比效应、第一印象偏差、晕轮效应、刻板印象、顺序效应等,其结果是个别考官的评分偏高或者偏低于其他面试官的评分。当评价的结果高于应聘者的实际得分时称为宽大效应,低于应聘者实际得分时称为严格效应。 结构化面试的效度与信度提高措施包括以下四项: 一、关注面试内容,标准化信息获取内容、提高面试结构化程度与提问的一致性、提问限制与工作内容相关等; 二、重视考官的培训,通过培训使考官了解可能的评分误差,降低实际操作中的各种误差; 三、极小化各组中同一专业面试官的数量,以及极小化各组中面试官数量与

问卷信度效度检验

从统计数据质量角度谈调查问卷的设计质量 一、引言 从保证统计数据质量的统计工作过程看,统计数据质量可以被划分为统计设计质量、统计调查质量、统计整理质量、统计分析质量以及数据发布传输质量等。统计设计质量是保证统计数据质量的首要环节,在统计数据质量保证体系中起着关键性作用。统计设计质量一般包括调查问卷设计质量与调查方案设计质量,其中调查问卷设计质量指的是:通过问卷测量得到的,反映调查对象客观现象的统计数据的准确性和有效性,即调查问卷设计质量的好坏,需要通过问卷测量能力的高低来检验。 在市场调查中,为了深入地研究一些本质的或理论性的现象,问卷调查法被广泛运用,除了调查时采用的抽样方法以及所抽取的调查对象是否具有代表性之外,调查者最关心的就是调查问卷的测量能力。问卷测量能力包含了两个方面的内容,即问卷测量结果的准确性和有效性。准确性和有效性是统计数据质量蕴涵的最主要的两个特性,一个好的调查问卷设计不仅可以保证在多次重复使用下得到可靠的数据结果,即准确性;也可以保证所得测量结果能够反映它所应该反映的客观现实,即有效性。 所以我们可以通过对问卷测量能力的分析来检验问卷的设计质量,对问卷设计进行质量控制,进而发现问卷设计中应注意的问题。在此基础上,通过不断改进问卷设计,提高其测量能力,最终将有助于我们得到高质量的调查数据。 二、调查问卷的设计质量检验 信度和效度的概念来源于心理测试中关于测验的可靠性和有效性研究,当建构和评估测量时,通常使用信度和效度这两个技术性指标。因此我们采用问卷的信度和效度分析来评估其测量能力,进而实现对问卷设计质量的检验。 1.问卷设计质量的信度检验 所谓问卷设计质量的信度检验,指的是对问卷测量结果准确性的分析,即对设计的问卷在多次重复使用下得到的数据结果的可靠性的检验。在实际应用中,信度检验多以相关系数表示,常用的方法有:重测信度,复本信度,折半信度,克朗巴哈信度,评分者信度等。国内外已经有很多关于这些信度分析方法介绍的文献,在这里,笔者不再一一详述,仅列出相关公式作为参考。 (1)重测信度,也叫稳定系数,对同一组调查对象采用同一调查问卷进行先后两次调 查,采用检验公式,其中为两次调查结果的协方差,为第一次调查结果 的协方差,为第二次调查结果的协方差。系数值越大说明信度越高。 (2)复本信度,也叫等值系数,对同一组调查对象进行两种相等或相近的调查,要求两份问卷的题数、形式、内容及难度和鉴别度等方面都要尽可能的一致。检验公式同稳定系数公式,系数越大,说明两份问卷的信度越高,具体调查时使用哪一份都可以。 (3)折半信度,也叫内在一致性系数,将调查的项目按前后分成两等份或按奇偶题号分成两部分,通过计算这两部分调查结果的相关系数来衡量信度。当假定两部分调查结果得 分的方差相等时,检验用Spearman-Brown公式来表示:,其中表示折半信度系数;当假定方差不相等时,采用Flanagan 公式:,其中、分别 表示两部分调查结果的方差,表示整个问卷调查结果的方差。如果折半信度很高,则说明这份问卷的各项题之间难度相当,调查结果信度高。 (4)克朗巴哈信度,是对折半信度的改进,检验公式是:,其中

如何进行问卷效度与信度分析

如何进行问卷信效度分析 问卷调查法是教育研究中广泛采用的一种调查方法,根据调查目的设计的调查问卷是问卷调查法获取信息的工具,其质量高低对调查结果的真实性、适用性等具有决定性的作用。为了保证问卷具有较高的可靠性和有效性,在形成正式问卷之前,应当对问卷进行试测,并对试测结果进行信度和效度分析,根据分析结果筛选问卷题项,调整问卷结构,从而提高问卷的信度和效度。信度和效度分析的方法包括逻辑分析和统计分析,本文主要讨论后者。 一、信度分析 信度(Reliability)即可靠性,它是指采用同样的方法对同一对象重复测量时所得结果的一致性程度。信度指标多以相关系数表示,大致可分为三类:稳定系数(跨时间的一致性),等值系数(跨形式的一致性)和内在一致性系数(跨项目的一致性)。信度分析的方法主要有以下四种: 重测信度法:这一方法是用同样的问卷对同一组被调查者间隔一定时间重复施测,计算两次施测结果的相关系数。显然,重测信度属于稳定系数。重测信度法特别适用于事实式问卷,如性别、出生年月等在两次施测中不应有任何差异,大多数被调查者的兴趣、爱好、习惯等在短时间内也不会有十分明显的变化。如果没有突发事件导致被调查者的态度、意见突变,这种方法也适用于态度、意见式问卷。由于重测信度法需要对同一样本试测两次,被调查者容易受到各种事件、活动和他人的影响,而且间隔时间长短也有一定限制,因此在实施中有一定困难。 复本信度法:复本信度法是让同一组被调查者一次填答两份问卷复本,计算两个复本的相关系数。复本信度属于等值系数。复本信度法要求两个复本除表述方式不同外,在内容、格式、难度和对应题项的提问方向等方面要完全一致,而在实际调查中,很难使调查问卷达到这种要求,因此采用这种方法者较少。 折半信度法:折半信度法是将调查项目分为两半,计算两半得分的相关系数,进而估计整个量表的信度。折半信度属于内在一致性系数,测量的是两半题项得分间的一致性。这种方法一般不适用于事实式问卷(如年龄与性别无法相比),常用于态度、意见式问卷的信度分析。在问卷调查中,态度测量最常见的形式是5级李克特(Likert)量表。进行折半信度分析时,如果量表中含有反意题项,应先将反意题项的得分作逆向处理,以保证各题项得分方向的一致性,然后将全部题项按奇偶或前后分为尽可能相等的两半,计算二者的相关系数(rhh,即半个量表的信度系数),最后用斯皮尔曼-布朗(Spearman-Brown)公式,求出整个量表的信度系数(ru)。 α信度系数法:Cronbach?α信度系数是目前最常用的信度系数。其中,K为量表中题项的总数,?为第i题得分的题内方差,?为全部题项总得分的方差。从公式中可以看出,α系数评价的是量表中各题项得分间的一致性,属于内在一致性系数。这种方法适用于态度、意见式问卷(量表)的信度分析。 二、效度分析 效度(Validity)即有效性,它是指测量工具或手段能够准确测出所需测量的事物的程度。效度分为三种类型:内容效度、准则效度和结构效度。效度分析有多种方法,其测量结果反映效度的不同方面。常用于调查问卷效度分析的方法主要有以下几种: 单项与总和相关效度分析:这种方法用于测量量表的内容效度。内容效度又称表面效度或逻辑效度,它是指所设计的题项能否代表所要测量的内容或主题。对内容效度常采用逻辑分析与统计分析相结合的方法进行评价。逻辑分析一般由研究者或专家评判所选题项是否“看上去”符合测量的目的和要求。统计分析主要采用单项与总和相关分析法获得评价结果,即计算每个题项得分与题项总分的相关系数,根据相关是否显着判断是否有效。若量表中有反意题项,应将其逆向处理后再计算总分。 准则效度分析:准则效度又称为效标效度或预测效度。准则效度分析是根据已经得到确定的某种理论,选择一种指标或测量工具作为准则(效标),分析问卷题项与准则的联系,若二者相关显着,或者问卷题项对准则的不同取值、特性表现出显着

提升选人的信度与效度

1、如何根据岗位需求,测试不同的电脑操作水平? (1)如果从事考勤工作人员,你可以测试他用电脑进行的统计、汇总及函数的使用熟练程度; (2)如果从事人事档案人员,你可以专门测试他工号、身份证号及地址的输入速度及正确度; (3)如果从事培训的人员,你可以测试他PPT的制作技巧及水平。 (备注:你可以要求在岗的工作人员将岗位需要使用的电脑技能列出来,不同岗位测试不同的电脑技能) 2、岗位的工作及要求要清楚,如何能找到合适岗位的人才?没有有针对性的测试面试者的 能力与岗位匹配度,如何知道他到底胜任不胜任这个岗位呢? 3、如何确定投简历的人对本公司或者岗位感兴趣? (1)电话沟通,了解投简历者的基本情况,求职意向、目的、动机; (2)简单介绍公司基本情况、岗位职责要求; (3)面试的过程是双向选择的过程,不单单是我们选择求职者,求职者也会选择我们; (4)电话面试也是面试,能够通过电话面试,完成简单的双向选择,避免来公司,双方发现不合格,浪费彼此时间,这是一件很有价值的事情。 4、招聘过程中需要避免的一些问题: (1)忙于一些没有意义的招聘,只是简单的接待,将时间浪费在接待一些可能根本就不合适的人身上; (2)对公司的基本情况不甚了解,岗位需求及职责更是含糊不清; (3)HR部门与用人部门的信息不一致; (4)我们要重视自己的工作,尊重自己的职业。 5、HR与用人部门在招聘中如何分工与合作? (1)HR部门要做的事情如下: ①制定招聘制度及流程; ②设计招聘及面试相关表格; ③编制招聘相关测试题及评出测试结果; ④员工背景调查; ⑤基本面试及筛选; ⑥录用入职手续办理; ⑦招聘合理性的审核与评估; ⑧招聘渠道的开发与选择; ⑨招聘广告设计及招聘信息的发布; ⑩对用人部门主管进行面试技巧方面的培训及询问。 (2)用人部门要做的事情如下: ①提出合理、真实的招聘需求; ②对人与岗位适合度进行评估; ③录用决策; ④入职前的实习计划安排。 6、如何提升面试的信度与效度? (1)面试信度是指你采用的面试方法测试出来结果的稳定或可靠性。 (2)面试效度是指你采用的面试方法测试出来结果的有效性。 (3)所谓的面试方法是指面试问题或测试工具。

SPSS信度和效度

关于调查问卷的信度和效度检验 (一)信度 1 、信度的含义 测验的信度又称测验的可靠性 , 是指同一个测验对同一组被试施测两次或多次 , 所得结果一致形程度。一个好的测验必须是稳定可靠的 , 多次使用所获得的结果是前后一致的。例如 , 用直尺测量长度 , 其结果是稳定可靠的 ; 用橡皮筋测长度则是不可靠的 , 前后测量结果缺乏一致性。在测量理论中 , 信度被定义为 : 某次测验分数的真变异数与总变异数 ( 即实测分数 ) 之比 : 2 2 S R x xx ST = 式中 Rxx 表示测量的信度 ,ST 2 代表真分数的变异数 ( 方差 ),Sx 2 表示实得分数的变异数 ( 方差 ) 。 从上式可看出 , ( 1 )信度是指实测值和真值相差的程度 , 实测值是指对某物实际进行测量时所获得值 , 也称实测分数 (X); 真值是指被测事物的真实规模取值 , 也称真分数 (T) 。由于各种原因 , 实得分数常不等于真分数 , 两者之差称为测量误差或误差分数 (E) 。从理论上看 , 实得分数由真分数和误差分数两部分组成即 :X=T+E Rxx 就是对一组测验数据的实测分数与真分数相差程度的最好估计。 ( 2 )信度又是指相同的测验对相同的被试再次测量时引起的同样反应的程度。如果两次测验中 , 受测者所得分数或所处等级前后一致 , 则说明测验结果的信度较高 ; 反之 , 两次测验结果一致性低 , 说明测验结果的信度低。 信度是任何一种测量的必要条件 ( 但不是唯一条件 ), 只有测量值接近或等于真值 , 用同一工具多次测量同一特性获得相同或相近的结果 , 才能认为这个测量结果是可靠的。信度对于教育测量尤其重要 , 只有信度高的教育测验才能成为教育工作者有用的工具 , 才能为教育工作者提供可靠的信息 , 为教育预测和决策提供客观依据。 2 、信度的估计方法 测验的信度是用信度系数的大小来表示的 , 根据测量理论 , 信度系数 2 2 S R x xx ST = 但是在实际测量中 , 一般只能获得实得分数 (X) 及实得变异数 (Sx 2 ), 而真分数 (T) 及真变异数 (ST 2 ) 是不知道的 , 因此 , 依据上述公式还无法机算信度系数。在统计上 , 主要采用相关分析的方法即机算两列变量的相关系数 , 用相关系数的大小来表示信度的高低。主要用以下方法来求得信度 : ( 1 )再测法 : 用同一测验对同一被试 , 前后施测两次 , 根据两次测验分数计算相关系数 , 即是再测信度。该信度反映了测验的稳定性程度 , 故又称稳定性系数 , 是用皮尔逊积差相关公式计算的 : 2 12 1/21S S M M N X X R xx ?-= ∑ 式中 X 1 .X 2 为同一被试的两次测验得分 ,M1.M2 为两次测验的平均分数 ,S 1 .S 2 是两次测验的标准 差 ,N 是被试人数。 用再测法估计信度 , 可以得到有关测验结果是否随时间而变化及变化程度的资料 , 可以作为预测被测者将来行为表现的依据。但也存在明显的局限性 : 前后两次测验结果易受到练习和记忆的影响 , 前后两次施测的时间间隔影响稳定性系数 , 特别是对学绩测验的影响较大。如果时间间隔太长 , 被测者的身心因受环境影响将发生大的变化 , 从而对第二次施测结果产生较大影响 , 使稳定性系数降低 ; 如果间隔太短 , 则被试第一次完成测验时练习和记忆会对第二次测验产生较大影响 , 使第二次测验性质发生变化。另外 , 有些测验不宜用再测法估计信度 , 如测量创造力测验 , 被试一旦掌握了解决问题的办法、原则 , 重测时 , 他将很容易作出反应 , 这样测验的性质就发生了改变。因此 , 只有在没有复本可用 , 测验不易受重复使用影响 , 现实条件又允许重复施测的情况下才使用重测法估计信度。 用重测法估计信度 , 间隔时间长短没有严格的规定 , 一般说 , 间隔时间越长 , 稳定性系数越低 , 最适

第四章信度

第四章信度 一、什么是信度 含义:指的是测量结果的稳定性程度(或叫可靠性)。也指同一被试在不同时间内用同一测验(或用另一套相等的测验)重复测量,所得结果的一致程度。 1、理论定义:测验实测值和真值的相差程度。 2、操作定义: 定义1:一组测量分数的真分数变异数(方差)与总变异数(总方差、实得分数的方差)的比率,或者是真实分数方差占总方差的的百分比。计算公式: rxx=ST2/SX2 定义2:信度乃是一个被试团体的真分数与实得分数的相关系数的平方。即 rxx=ρTx2 定义3:信度乃是一个测验X(A卷)与它的任意一个“平行测验”X’(B卷)的相关系数。即 rxx=ρxx’ 二、信度的类型及估计方法 (一)重测信度 1、含义与计算 又称稳定性系数。他的计算方法是采用重测法,即使用同一测验,在同样条件下对同一组被试前后施测两次测验,求两次得分间的相关系数。 三、信度的类型及估计方法 (一)重测信度(再测信度) 例:15名同学在1个月间隔内,先后2次重复施测某测验,测验结果如表中所列,请根据这些数据对该测验的重测信度进行计算。 三、信度的类型及估计方法 (一)重测信度

三、信度的类型及估计方法 (一)重测信度 可见,这两次测验分数之间有较高的正相关,该测验有较高的重测信度。 2、使用的前提条件 (1)所测量的心理特性必须是稳定的。 (2)遗忘和练习的效果基本上相互抵消。 (3)在时间间隔中没有学习另外的与测验有关的东西,或者说每人学习其他东西的程度都一样。 3、优缺点: 优点: (1)它最符合重复测验的涵义,是重复测验最简单最明确的方式。(2)首测和再测只需要一套测验题目,省时、省力。(3)同一套题目无论施测几次,所测的属性是完全相同的。 缺点: (1)同一组被试对同一个测验先后两次作答相互之间是不独立的。(2)如果两次施测时间间隔较长,在此期间被试的身心发展,新知识的获得,都会使两次测验结果不相同。(3)同一个被试对现一个测验先后两次作答,对测验的兴趣不同,影响测验结果。(4)两次施测的环境不同,也是产生测量误差的因素。(二)复本信度 1、含义与计算: 含义: 又称等值性系数。它是以两个平行或复本的测验(等值但题目不同)来测量同一群体,然后求得被试在两个测验上得分的相关系数,这个相关系数就代表了复本信度的高低。复本信度反映的是测验在内容上的等值性,故称等值性系数。 2、使用的前提条件: (1)要两份或两份以上真正平行的测验。 (2)被试要有条件接受两个测验。主要取决于时间、经费等几方面。 3、优缺点: 优点: (1)一个测验的复本使得测验数目的增加,对于所欲测量的属性相联系的行为总体代表性强,因此,一个测验的两个复本在两三天至一周对同一组被试施测时,获得的复本信度系数是相当准确的。(2)测验的两个复本,如果在不同时间使用,其信度不仅可以反映在不同时间的稳定性,而且还可以反映对于不同测题的一致性。(3)两个复本在同时使用时,可以避免再测验信度的缺点。 缺点: (1)编制两个完全相等的测验是很困难的。(2)复本法只能减少而不能完全排除练习和记忆的影响。(3)被试同时接受性质相似的两个测验可能减少完成测验的积极性。 (三)分半信度 1、含义 指采用分半法估计所得的信度系数。这种方法估计信度系数只需一种测验形式,实施一次测验。通常是在测验实施后将测验按奇、偶数分为等值的两半,并分别计算每位被试在两半测验上的得分,求出这两半分

调查表的的信度与效度评价方法

调查表的的信度与效度评价方法 问卷调查法是教育研究中广泛采用的一种调查方法,根据调查目的设计的调查问卷是问卷调查法获取信息的工具,其质量高低对调查结果的真实性、适用性等具有决定性的作用。为了保证问卷具有较高的可靠性和有效性,在形成正式问卷之前,应当对问卷进行试测,并对试测结果进行信度和效度分析,根据分析结果筛选问卷题项,调整问卷结构,从而提高问卷的信度和效度。 一、信度分析 信度(Reliability)即可靠性,是指采用同一方法对同一对象进行调查时,问卷调查结果的稳定性和一致性,即测量工具(问卷或量表)能否稳定地测量所测的事物或变量。信度指标多以相关系数表示,具体评价方法大致可分为三类:稳定系数(跨时间的一致性),等值系数(跨形式的一致性)和内在一致性系数(跨项目的一致性)。信度分析的方法主要有以下四种: 1、重测信度法 同样的问卷,对同一组访问对象在尽可能相同的情况下,在不同时间进行两次测量。两次测量相距一般在两到四周之内。用两次测量结果间的相关分析或差异的显著性检验方法,评价量表信度的高低。 2、折半法。折半法是将上述两份问卷合成一份问卷(通常要求

这两份问卷的问题数目相等),每一份作为一部分,然后考察这两个部分的测量结果之间的相关性。 3、折半信度法折半信度法是将调查项目分为两半,计算两半得分的相关系数,进而估计整个量表的信度。折半信度属于内在一致性系数,测量的是两半题项得分间的一致性。这种方法一般不适用于事实式问卷(如年龄与性别无法相比),常用于态度、意见式问卷的信度分析。在问卷调查中,态度测量最常见的形式是5级李克特(Likert)量表。进行折半信度分析时,如果量表中含有反意题项,应先将反意题项的得分作逆向处理,以保证各题项得分方向的一致性,然后将全部题项按奇偶或前后分为尽可能相等的两半,计算二者的相关系数(rhh,即半个量表的信度系数),最后用斯皮尔曼-布朗(Spearman-Brown)公式: 求出整个量表的信度系数(ru)。 4、α信度系数法 Cronbach α信度系数是目前最常用的信度系数,其公式为: 其中,K为量表中题项的总数,为第i题得分的题内方差,为全部题项总得分的方差。从公式中可以看出,α系数评价的是量表中各题项得分间的一致性,属于内在一致性系数。这种方法适用于态度、意见式问卷(量表)的信度分析。 二、效度分析 效度(Validity)即有效性,它是指测量工具或手段能够准确测出所需测量的事物的程度。效度分为三种类型:内容效度、准则效度

相关主题
文本预览
相关文档 最新文档