当前位置:文档之家› 试验设计课程论文[3]

试验设计课程论文[3]

第一节方差分析的基本思想

1、方差分析的意义

前述的t检验和u检验适用于两个样本均数的比较,对于k个样本均数的比较,如果仍用t检验或u检验,需比较次,如四个样本均数需比较

次。假设每次比较所确定的检验水准=0.05,则每次检验拒绝H0不犯第一类错误的概率为1-0.05=0.95;那么6次检验都不犯第一类错误的概率为(1-0.05)6=0.7351,而犯第一类错误的概率为0.2649,因而t检验和u 检验不适用于多个样本均数的比较。用方差分析比较多个样本均数,可有效地控制第一类错误。方差分析(analysis of variance,ANOVA)由英国统计学家

R.A.Fisher首先提出,以F命名其统计量,故方差分析又称F检验。

2、方差分析的基本思想

下面通过表5.1资料介绍方差分析的基本思想。

例如,有4组进食高脂饮食的家兔,接受不同处理后,测定其血清肾素血管紧张素转化酶(ACE)浓度(表5.1),试比较四组家兔的血清ACE浓度。

表5.1对照组及各实验组家兔血清ACE浓度(u/ml)

(

由表5.1可见,26只家兔的血清ACE浓度各不相同,称为总变异;四组家兔的血清ACE浓度均数也各不相同,称为组间变异;即使同一组内部的家兔血清ACE 浓度相互间也不相同,称为组内变异。该例的总变异包括组间变异和组内变异两部分,或者说可把总变异分解为组间变异和组内变异。组内变异是由于家兔间的个体差异所致。组间变异可能由两种原因所致,一是抽样误差;二是由于各组家兔所接受的处理不同。正如第四章所述,在抽样研究中抽样误差是不可避免的,故导致组间变异的第一种原因肯定存在;第二种原因是否存在,需通过假设检验作出推断。假设检验的方法很多,由于该例为多个样本均数的比较,应选用方差分析。

方差分析的检验假设H0为各样本来自均数相等的总体,H1为各总体均数不等或不全相等。若不拒绝H0时,可认为各样本均数间的差异是由于抽样误差所致,而不是由于处理因素的作用所致。理论上,此时的组间变异与组内变异应相等,两者的比值即统计量F为1;由于存在抽样误差,两者往往不恰好相等,但相差不会太大,统计量F应接近于1。若拒绝H0,接受H1时,可认为各样本均数间的差异,不仅是由抽样误差所致,还有处理因素的作用。此时的组间变异远大于组内变异,两者的比值即统计量F明显大于1。在实际应用中,当统计量F值远大于1且大于某界值时,拒绝H0,接受H1,即意味着各样本均数间的差异,不仅是由抽样误差所致,还有处理因素的作用。

(5.1)

方差分析的基本思想是根据研究目的和设计类型,将总变异中的离均差平方和SS及其自由度分别分解成相应的若干部分,然后求各相应部分的变异;再用各部分的变异与组内(或误差)变异进行比较,得出统计量F值;最后根据F值的大小确定P值,作出统计推断。

例如,完全随机设计的方差分析,是将总变异中的离均差平方和SS及其自由度

分别分解成组间和组内两部分,SS组间/组间和SS组内/组内分别为组间变异(MS组间)和组内变异(MS组内),两者之比即为统计量F(MS组间/MS组内)。

又如,随机区组设计的方差分析,是将总变异中的离均差平方和SS及其自由度分别分解成处理间、区组间和误差3部分,然后分别求得以上各部分的变异(MS处理、MS

区组和MS误差),进而得出统计量F值(MS处理/MS误差、MS区组/MS误差)。

3、方差分析的计算方法

下面以完全随机设计资料为例,说明各部分变异的计算方法。将N个受试对象随机分为k组,分别接受不同的处理。归纳整理数据的格式、符号见下表:

处理组(i)

1 2 3 …

k

……………

合计

1)总离均差平方和(sum of squares,SS)及自由度(freedom,ν)

总变异的离均差平方和为各变量值与总均数()差值的平方和,离均差平方和和自由度分别为:

(5.2)

=N-1(5.3)2)组间离均差平方和、自由度和均方

组间离均差平方和为各组样本均数()与总均数()差值的平方和

(5.4)

(5.5)

(5.6)

3)组内离均差平方和、自由度和均方

组内离均差平方和为各处理组内部观察值与其均数()差值的平方和之和,

。数理统计证明,总离均差平方和等于各部分离均差平方和之和,因此,(5.7)

(5.8)

(5.9)4)三种变异的关系:

= N-1= (k-1)+(N-k) =

可见,完全随机设计的单因素方差分析时,总的离均差平方和(SS总)可分解

为组间离均差平方和(SS组间)与组内离均差平方和(SS组内)两部分;相应的总自由度()也分解为组间自由度()和组内自由度()两部分。5)方差分析的统计量:

(5.10)4、方差分析的应用条件与用途

方差分析的应用条件为①各样本须是相互独立的随机样本;②各样本来自正态分布总体;③各总体方差相等,即方差齐。

方差分析的用途①两个或多个样本均数间的比较;②分析两个或多个因素间的交互作用;③回归方程的线性假设检验;

④多元线性回归分析中偏回归系数的假设检验;⑤两样本的方差齐性检验等。

第二节完全随机设计的单因素方差分

析(one-way ANOVA)

1、用途:用于完全随机设计的多个样本均数间的比较,其统计推断是推断各样本所代表的各总体均数是否相等。

完全随机设计(completely random design)不考虑个体差异的影响,仅涉及一个处理因素,但可以有两个或多个水平,所以亦称单因素实验设计。在实验研究中按随机化原则将受试对象随机分配到一个处理因素的多个水平中去,然后观察各组的试验效应;在观察研究(调查)中按某个研究因素的不同水平分组,比较该因素的效应。

2、计算公式:完全随机设计的单因素方差分析是把总变异的离均差平方和SS

及自由度分别分解为组间和组内两部分,其计算公式如下。

表5.2单因素方差分析的计算公式变异来源离均差平方和(SS) 自由度() 均方(MS) F

总变异

N-1

组间变异

k

-1

组内变异

N-k

* C 为校正数

3、分析步骤(以例说明):

例5.1某军区总医院欲研究A、B、C三种降血脂药物对家兔血清肾素血管紧张素转化酶(ACE)的影响,将26只家兔随机分为四组,均喂以高脂饮食,其中三个试验组,分别给予不同的降血脂药物,对照组不给药。一定时间后测定家兔血清ACE浓度(u/ml),如表5.1,问四组家兔血清ACE浓度是否相同?

本例的初步计算结果见表5.1下部,方差分析的计算步骤为

1)建立检验假设,确定检验水准

H0:四组家兔的血清ACE浓度总体均数相等,μ1=μ2=μ3=μ4

H1:四组家兔的血清ACE浓度总体均数不等或不全相等,各μi不等或不全相等

α=0.05

2)计算统计量F值

按表5.2所列公式计算有关统计量和F值

=5515.3665

ν总=N-1=26-1=25

ν组间=k-1= 4-1=3

ν组内=N-K=26-4=22

表5.3例5.1的方差分析表

变异来源

总变异8445.7876 25

组间变异5515.3665 3 1838.4555 13.80

组内变异2930.4211 22 133.2010

3)确定P值,并作出统计推断

以= 3和= 22查F界值表(方差分析用),得P <0.01,按0.05水准拒绝H0,接受H1,可认为四总体均数不同或不全相同。

注意:根据方差分析的这一结果,还不能推断四个总体均数两两之间是否相等。如果要进一步推断任两个总体均数

是否相同,应作两两比较,见本章第四节。

第三节随机区组设计的两因素方差分析(two-way ANOVA)

1、用途:用于随机区组设计的多个样本均数比较,其统计推断是推断各样本所代表的各总体均数是否相等。

随机区组设计考虑了个体差异的影响,可分析处理因素和个体差异对实验效应的影响,所以又称两因素实验设计,比完全随机设计的检验效率高。该设计是将受试对象先按配比条件配成配伍组(如动物实验时,可按同窝别、同性别、体重相近进行配伍),每个配伍组有三个或三个以上受试对象,再按随机化原则分别将各配伍组中的受试对象分配到各个处理组。

值得注意的是,同一受试对象不同时间(或部位)重复多次测量所得到的资料称为重复测量数据(repeated measurement data),对该类资料不能应用随机区组设计的两因素方差分析进行处理,需用重复测量数据的方差分析。

2、计算公式:随机区组设计的两因素方差分析是把总变异中的离均差平方和SS 与自由度分别分解成处理间、区组间和误差三部分,其计算公式见表5.4。表5.4两因素方差分析的计算公式

变异来源离均差平方和自由度均方

N-1

处理间

k

-1

区组间

b

-1

误差

* # b区组数3、分析步骤(以例说明):

例5.2某医师研究A、B和C三种药物治疗肝炎的效果,将32只大白鼠感染肝炎后,按性别相同、体重接近的条件配成8个配伍组,然后将各配伍组中4只大白鼠随机分配到各组:对照组不给药物,其余三组分别给予A、B和C药物治疗。一定时间后,测定大白鼠血清谷丙转氨酶浓度(IU/L),如表5.5。问四组大白鼠的血清谷丙转氨酶是否相同。

表5.5 四组大白鼠血清谷丙转氨酶浓度(IU/L)

区组对照组

试验组

合计A药组B药组C药组

1 845.1 652.4 624.3 445.1 2566.9

2 834.7 741.

3 772.3 432.5 2780.8

3 826.5 675.6 632.5 362.7 2497.3

4 812.8 582.8 473.6 348.7 2217.9

5 782.8 491.8 462.8 345.9 2083.3

6 745.6 412.2 431.8 312.8 1902.4

7 730.4 494.6 484.9 296.3 2006.2

8 684.3 379.5 380.7 228.4 1672.9

6262.2 4430.2 4262.9 2772.4 17727.7 ()

782.78 553.78 532.86 346.55 553.99()

4925110.04 2571668.14 2391246.57 995764.14 10883788.89 ()

本研究的主要目的在于比较不同治疗方法的效果,同时还可以比较不同区组间大鼠血清谷丙转氨酶浓度是否相同。计算步骤为

1)建立检验假设,确定检验水准

H0:四组大白鼠的血清谷丙转氨酶浓度含量相同,μ1=μ2=μ3=μ4

H1:各处理组的血清谷丙转氨酶浓度含量不同或不全相同,各μi不等或不全相等

H0:各区组的血清谷丙氨酶含量相同

H1:各区组的血清谷丙氨酶含量不同或不全相同

均等于0.05

2)计算统计量F值

按表5.4中公式计算各统计量。本例的初步计算结果见表5.5下半部。

ν总=N-1=32-1=31

ν处理=k-1=4-1=3

ν区组=b-1=8-1=7

ν误差=(k-1)(b-1)=(4-1)(8-1)=21

列方差分析表,见表5.6。

表5.6例5.2的方差分析表

变异来源

总变异1062809.2870 31

处理间变异766562.7784 3 255520.9261 102.798

区组间变异244047.7597 7 34863.9657 14.026

误差52198.7489 21 2485.6547

3)确定P值并作出统计推断

以=3,=21查F界值表,得F 0.01(3,21)=4.87。本例F =102.798> F

0.01(3,21), P <0.01,按=0.05水准拒绝H0,接受H1,可认为各处理组大白鼠的血清谷丙转氨酶含量不同或不全相同。如果要进一步推断任两个总体均数是否相同,应作两两比较,见本章第四节。

以=7,=21查F界值表,得F0.01(7,21)=3.65。本例F=14.026>F0.01(7,21),

P<0.01,按=0.05水准拒绝H0,接受H1,可认为各区组大白鼠的血清谷丙转

氨酶含量不同或不全相同。

第四节多个样本均数间的多重比较

当方差分析的推断结果为拒绝H0,接受H1,各总体均数不同或不全相同时,不能说明各总体均数两两之间是否不同,为此,可在方差分析的基础上,利用方差分析得到的信息,对均数进一步作两两比较,也称多重比较(multiple comparisons)。均数间两两比较的方法有多种,本节仅介绍Newman-Keuls检验和最小显著差(LSD)t检验。

1、Newman-Keuls检验

亦称Student-Newman-Keuls(SNK)检验,简称q检验。q统计量计算公式为

(5.12)

式中、分别为两对比组的样本均数;为两对比组样本均数差值的标准误,若两对比组样本含量相同,即n A=n B=n,其计算公式为式5.13,否则计算公式为式5.14

(5.13)

(5.14)

式中为方差分析的组内均方,若为两因素或两因素以上的方差分析,则为

误差项均方;n A、n B分别为两样本的样本含量。以实例介绍q检验的步骤。

例5.4用q检验对表5.1资料中四组家兔的血清ACE浓度作两两间比较。1.建立检验假设,确立检验水准。

H0:两对比组家兔血清ACE含量总体均数相同,即

H1:两对比组家兔血清ACE含量总体均数不同,即

2.计算统计量q值。

(1)将各组按样本均数从大到小排序:依次为、、、。并将各对比组列入表11第(1)栏,栏中数字为各组的序号。

序号均数样本含量原组别

6 A降脂药组

1

=62.10

2

6 对照组

=54.99

7 B降脂药组

3

=32.74

4

=27.29

7 C降脂药组

表5.11 四组家兔血清ACE均数的两两比较(q检验)

对比组(1) (2) (3)

q值

(4)=(2)/(3)

组数a

(5)

q界值P值

(8)

q0.05

(6)

q0.01

(7)

1与2 7.11 4.712 1.51 2 2.95 4.02 >0.05

1与3 29.36 4.540 6.47 3 3.58 4.64 <0.01

1与4 34.81 4.540 7.67 4 3.96 5.02 <0.01

2与3 22.25 4.540 4.90 2 2.95 4.02 <0.01

2与4 27.70 4.540 6.10 3 3.58 4.64 <0.01

3与4 5.45 4.362 1.25 2 2.95 2.95 >0.05

(2)计算各对比组均数的差值,如,余类推。将各对比组均数差值列入第(2)栏。

(3)计算各对比组均数差值的标准误,按式5.13或式5.14计算各对比组均数差值的标准误,并列入第(3)栏。如

=4.712=4.540

(4)计算统计量q。两对比组的样本均数之差除以其标准误得统计量q,即第(2)与第(3)栏数据的比值。如第1组与第2组:7.11/4.712=1.51。余见第(4)栏。

(5)确定组数a。组数是指两对比组间所包含的组数(包括两对比组本身),如第1组与第2组比较,组数a=2;第2组与第4组之间比较组数a=3。余类推,见第(5)栏。

(6)查q界值。根据组数a及自由度(方差分析中组内或误差自由度)查q界值表。本例=22,查得=2.95。余见第(6)和第(7)栏。

3.确定P值,并作出统计推断

本例第1组与第2组、第3组与第4组比较的q统计量均小于q0.05,P>0.05,不拒绝H0,故尚不能认为A药组与对照组、B药组与C药组家兔的血清ACE浓度不同;其余各对比组的q统计量均大于q0.01,P<0.01,拒绝H0接受H1,可认

为A药组与B药组、A药组与C药组、对照组与B药组、对照组与C药组的家兔血清ACE浓度不同。

2、最小显著差(LSD)t检验

q检验对k个均数的两两比较需k(k-1)/2次。若k=8,则需比较28最小显著差(the least significant difference,LSD)法可以简化两两比较的计算步骤。

其检验假设也为:H0:,H1:。方法为:首先计算拒绝H0,接受H1所需样本均数差值的最小值,即LSD。然后各对比组的与

相应的LSD比较,只要对比组的大于或等于LSD,即拒绝H0,接受H1;否则,得到相反的推断结论。

LSD-t检验通过计算各对比组的与其标准误之比值是否达到t检验的界值

(5.15)

由此推算出最小显著差LSD,而不必计算每一对比组的t值

(5.16)

式中、和、分别为对比组中两样本的均数及样本含量,和为方差分析中组内(或误差)的离均差平方和与自由度。如果两对比组的样本含量相同,即时,则

(5.17)例5.5用LSD- t检验对例5.1中四组家兔血清ACE浓度作两两比较。

本例=133.2010,=22,查t界值表,得,

1.建立检验假设,确定检验水准

H0:两对比组家兔血清ACE含量总体均数相同,即

H1:两对比组家兔血清ACE含量总体均数不同,即

2.计算统计量

(1)计算各对比组均数的差值,见表5.11第(2)列。

(2)计算各对比组的最小显著差,并列入表5.11第(3)、第(4)列。如

6时,据式5.17

=13.82

=18.78

余类推。

表5.11 四组家兔血清ACE均数的两两比较(LSD-t检验)

对比组LSD0.05 LSD0.01 P值

A药组与对照组7.11 13.82 18.78 >0.05

A药组与B药组29.36 13.32 18.10 <0.01

A药组与C药组34.81 13.32 18.10 <0.01

对照组与B药组22.25 13.32 18.10 <0.01

对照组与C药组27.70 13.32 18.10 <0.01

B药组与C药组 5.45 12.79 17.39 >0.05

3.确定P值,并作出推断结论。当相互对比的两组大于或等于界值时,P小于或等于相应的概率;反之,P大于相应的概率。本例对照组与A药组、B

药组与C药组的均小于LSD0.05,P大于0.05,不拒绝H0;其余对比组

的均大于LSD0.01,P<0.01,拒绝H0,接受H1。可见,LSD-t检验的结论与q检验一致。

第五节多个样本的方差齐性检验

方差分析的条件之一为方差齐,即各总体方差相等。因此在方差分析之前,应首先检验各样本的方差是否具有齐性。常用方差齐性检验(test for homogeneity of variance)推断各总体方差是否相等。本节将介绍多个样本的方差齐性检验,本法由Bartlett于1937年提出,称Bartlett法。该检验方法所计算的统计量

服从分布。所用公式如下:

(5.18)

(5.19)

或,(5.20)

(5.21)

式中为第i组的

统计学中的几个基本概念

1、同质(homogeneity)与变异(variation)

严格地讲,同质是指被研究指标的影响因素完全相同。但在医学研究中,有些影响因素往往是难以控制的(如遗传、营养等),甚至是未知的。所以,在统计学中常把同质理解为对研究指标影响较大的、可以控制的主要因素尽可能相同。例如研究儿童的身高时,要求性别、年龄、民族、地区等影响身高较大的、易控制的因素要相同,而不易控制的遗传、营养等影响因素可以忽略。

同质基础上的个体差异称为变异。如同性别、同年龄、同民族、同地区的健康儿童的身高、体重不尽相同。事实上,客观世界充满了变异,生物医学领域更是如此。哪里有变异,哪里就需要统计学。若所研究的同质群体中所有个体一模一样,只需观察任一个体即可,无须进行统计研究。

2、总体(population)与样本(sample)

任何统计研究都必须首先确定观察单位(observed unit),亦称个体(individual)。观察单位是统计研究中最基本的单位,可以是一个人、一个家庭、一个地区、一个样品、一个采样点等。

总体是根据研究目的确定的同质观察单位的全体,或者说,是同质的所有观察单位某种观察值(变量值)的集合。例如欲研究山东省2002年7岁健康男孩的身高,那么,观察对象是山东省2002年的7岁健康男孩,观察单位是每个7岁健康男孩,变量是身高,变量值(观察值)是身高测量值,则山东省2002年全体7岁健康男孩的身高值构成一个总体。它的同质基础是同地区、同年份、同性别、同为健康儿童。总体又分为有限总体(finite population)和无限总体(infinite population)。有限总体是指在某特定的时间与空间范围内,同质研究对象的所有观察单位的某变量值的个数为有限个,如上例;无限总体是抽象的,无时间和空间的限制,观察单位数是无限的,如研究碘盐对缺碘性甲状腺病的防治效果,该总体的同质基础是缺碘性甲状腺病患者,同用碘盐防治;该总体应包括已使用和设想使用碘盐防治的所有缺碘性甲状腺病患者的防治效果,没有时间和空间范围的限制,因而观察单位数无限,该总体为无限总体。

在实际工作中,所要研究的总体无论是有限的还是无限的,通常都是采用抽样研究。样本是按照随机化原则,从总体中抽取的有代表性的部分观察单位的变量值的集合。如从上例的有限总体(山东省2002年7岁健康男孩)中,按照随机化原则抽取100名7岁健康男孩,他们的身高值即为样本。从总体中抽取样本的过程为抽样,抽样方法有多种,详见第14章。抽样研究的目的是用样本信息推断总体特征。

统计学好比是总体与样本间的桥梁,能帮助人们设计与实施如何从总体中科学地抽取样本,使样本中的观察单位数(亦称样本含量,sample size)恰当,信息丰富,代表性好;能帮助人们挖掘样本中的信息,推断总体的规律性。

3、资料(data)与变量(variable)及其分类

总体确定之后,研究者应对每个观察单位的某项特征进行测量或观察,特征称为变量。如“身高”、“体重”、“性别”、“血型”、“疗效”等。变量的测定值或观察值称为变量值(value of variable)或观察值(observed value),亦称为资料。

按变量的值是定量的还是定性的,可将变量分为以下类型,变量的类型不同,其分布规律亦不同,对它们采用的统计分析方法也不同。在处理资料之前,首先要分清变量类型。

1)数值变量(numerical variable):其变量值是定量的,表现为数值大小,可经测量取得数值,多有度量衡单位。如身高(cm)、体重(kg)、血压(mmHg kPa)、脉搏(次/min)和白细胞计数(×10 9 /L)等。这种由数值变量的测量值构成的资料称为数值变量资料,亦称为定量资料(quantitative data)。大多数的数值变量为连续型变量,如身高、体重、血压等;而有的数值变量的测定值只能是正整数,如脉搏、白细胞计数等,在医学统计学中把它们也视为连续型变量。

2)分类变量(catagorical variable):其变量值是定性的,表现为互不相容的类别或属性。分类变量可分为无序变量和有序变量两类:

(1)无序分类变量(unordered categorical variable)是指所分类别或属性之间无程度和顺序的差别。,它又可分为①二项分类,如性别(男、女),药物反应(阴性和阳性)等;②多项分类,如血型(O、A、B、AB),职业(工、农、商、学、兵)等。对于无序分类变量的分析,应先按类别分组,清点各组的观察单位数,编制分类变量的频数表,所得资料为无序分类资料,亦称计数资料。

(2)有序分类变量(ordinal categorical variable)各类别之间有程度的差别。如尿糖化验结果按-、±、+、++、+++分类;疗效按治愈、显效、好转、无效分类。对于有序分类变量,应先按等级顺序分组,清点各组的观察单位个数,编制有序变量(各等级)的频数表,所得资料称为等级资料。

变量类型不是一成不变的,根据研究目的的需要,各类变量之间可以进行转化。例如血红蛋白量(g/L)原属数值变量,若按血红蛋白正常与偏低分为两类时,可按二项分类资料分析;若按重度贫血、中度贫血、轻度贫血、正常、血红蛋白增高分为五个等级时,可按等级资料分析。有时亦可将分类资料数量化,如可将病人的恶心反应以0、1、2、3表示,则可按数值变量资料(定量资料)分析。

4、随机事件(random event)与概率(probability)

医学研究的现象,大多数是随机现象,对随机现象进行实验或观察称为随机试验。随机试验的各种可能结果的集合称为随机事件,亦称偶然事件,简称事件。例如用相同治疗方案治疗一批某病的患者,治疗转归可能为治愈、好转、无效、死亡四种结果,对于一个刚入院的患者,治疗后究竟发生哪一种结果是不确定的,可能发生的每一种结果都是一个随机事件。

对于随机事件来说,在一次随机试验中,某个随机事件可能发生也可能不发生,但在一定数量的重复试验后,该随机事件的发生情况是有规律可循的。概率是描述随机事件发生的可能性大小的数值,常用P表示。例如,投掷一枚均匀的硬币,随机事件A表示“正面向上”,用 n表示投掷次数;m表示随机事件A发生的次

数;f表示随机事件A发生的频率(f=m/n),0≤m≤n, 0≤f≤1。

用不同的投掷次数n作随机试验,结果如下:m/n=8/10=0.8, 7/20=0.35,…… , 249/500=0.498, 501/1000=0.501, 10001/2000=0.5000,由此看出当投掷次数n

足够大时,f=m/n→0.5,称P(A)=0.5,或简写为:P=0.5。当n足够大时,可以用f估计P。

随机事件概率的大小在0与1之间,即0

近1,表示某事件发生的可能性越大;P越接近0,表示某事件发生的可能性越小。P=1表示事件必然发生,P=0表示事件不可能发生,它们是确定性的,不是随机事件,但可以把它们看成随机事件的特例。

若随机事件A的概率P(A)≤a,习惯上,当a=0.05时,就称A为小概率事件。其统计学意义是小概率事件在一次随机试验中不可能发生。例如,某都市大街上疾驶的汽车撞伤行人的事件的发生概率为1/万,但大街上仍有行人,这是因为“被撞”事件是小概率事件,所以行人认为自己上街这“一次试验”中不会发生“被撞”事件。“小概率”的标准a是人为规定的,对于可能引起严重后果的事件,如术中大出血等,可规定a=0.01,甚至更小。

第一节方差分析的基本思想

1、方差分析的意义

前述的t检验和u检验适用于两个样本均数的比较,对于k个样本均数的比较,

如果仍用t检验或u检验,需比较次,如四个样本均数需比较

次。假设每次比较所确定的检验水准=0.05,则每次检验拒绝H0不犯第一类错误的概率为1-0.05=0.95;那么6次检验都不犯第一类错误的概率为(1-0.05)6=0.7351,而犯第一类错误的概率为0.2649,因而t检验和u 检验不适用于多个样本均数的比较。用方差分析比较多个样本均数,可有效地控制第一类错误。方差分析(analysis of variance,ANOVA)由英国统计学家

R.A.Fisher首先提出,以F命名其统计量,故方差分析又称F检验。

2、方差分析的基本思想

下面通过表5.1资料介绍方差分析的基本思想。

例如,有4组进食高脂饮食的家兔,接受不同处理后,测定其血清肾素血管紧张素转化酶(ACE)浓度(表5.1),试比较四组家兔的血清ACE浓度。

表5.1对照组及各实验组家兔血清ACE浓度(u/ml)

(

由表5.1可见,26只家兔的血清ACE浓度各不相同,称为总变异;四组家兔的血清ACE浓度均数也各不相同,称为组间变异;即使同一组内部的家兔血清ACE 浓度相互间也不相同,称为组内变异。该例的总变异包括组间变异和组内变异两部分,或者说可把总变异分解为组间变异和组内变异。组内变异是由于家兔间的个体差异所致。组间变异可能由两种原因所致,一是抽样误差;二是由于各组家兔所接受的处理不同。正如第四章所述,在抽样研究中抽样误差是不可避免的,故导致组间变异的第一种原因肯定存在;第二种原因是否存在,需通过假设检验作出推断。假设检验的方法很多,由于该例为多个样本均数的比较,应选用方差分析。

方差分析的检验假设H0为各样本来自均数相等的总体,H1为各总体均数不等或不全相等。若不拒绝H0时,可认为各样本均数间的差异是由于抽样误差所致,而不是由于处理因素的作用所致。理论上,此时的组间变异与组内变异应相等,两者的比值即统计量F为1;由于存在抽样误差,两者往往不恰好相等,但相差不会太大,统计量F应接近于1。若拒绝H0,接受H1时,可认为各样本均数间的差异,不仅是由抽样误差所致,还有处理因素的作用。此时的组间变异远大于组内变异,两者的比值即统计量F明显大于1。在实际应用中,当统计量F值远大于1且大于某界值时,拒绝H0,接受H1,即意味着各样本均数间的差异,不仅是由抽样误差所致,还有处理因素的作用。

(5.1)

相关主题
文本预览
相关文档 最新文档