当前位置:文档之家› 统计学教案习题08卡方检验

统计学教案习题08卡方检验

统计学教案习题08卡方检验
统计学教案习题08卡方检验

第八章

2

χ

检验

一、教学大纲要求

(一) 掌握内容 1. 2χ检验的用途。 2. 四格表的2

χ检验。

(1) 四格表2χ检验公式的应用条件; (2) 不满足应用条件时的解决办法; (3) 配对四格表的2

χ检验。 3. 行?列表的2

χ检验。 (二) 熟悉内容

频数分布拟合优度的2

χ检验。 (三) 了解内容 1.2

χ分布的图形。

2.四格表的确切概率法。

二、教学内容精要

(一) 2

χ检验的用途

2χ检验(Chi-square test )用途较广,主要用途如下:

1.推断两个率及多个总体率或总体构成比之间有无差别 2.两种属性或两个变量之间有无关联性 3.频数分布的拟合优度检验 (二) 2

χ检验的基本思想

1.2

χ检验的基本思想是以2

χ值的大小来反映理论频数与实际频数的吻合程度。在零假设0H (比如0H :21ππ=)成立的条件下,实际频数与理论频数相差不应该很大,即2

χ值不应该很大,若实际计算出的2

χ值较大,超过了设定的检验水准所对应的界值,则有理由怀疑0H 的真实性,从而拒绝0H ,接受H 1(比如1H :21ππ≠)。 2. 基本公式:()∑

-=

T

T A 2

2

χ,A 为实际频数(Actual Frequency ),T 为理论频数(Theoretical Frequency )。四格

表2χ检验的专用公式正是由此公式推导出来的,用专用公式与用基本公式计算出的2

χ值是一致的。

(三)率的抽样误差与可信区间 1.率的抽样误差与标准误

样本率与总体率之间存在抽样误差,其度量方法: n

p )

1(ππσ-=

,π为总体率,或 (8-1)

n

p p S p )

1(-=

, p 为样本率; (8-2)

2.总体率的可信区间

当n 足够大,且p 和1-p 均不太小,p 的抽样分布逼近正态分布。 总体率的可信区间:(p p S u p S u p ?+?-2/2/,αα)。 (8-3) (四)2

χ检验的基本计算

表8-1 2

χ检验的用途、假设的设立及基本计算公式

资料形式

用途

0H 、1H 的设立与计算公式

自由度

四格表

①独立资料两 样本率的比较

②配对资料两 样本率的比较

0H :两总体率相等 1H :两总体率不等

①专用公式

))()()(()(22

d b c a d c b a n

bc ad ++++-=χ

②当n ≥40但1≤T<5时,校正公式

)

)()()(()2/(22

d b c a d c b a n n bc ad ++++--=

χ ③配对设计c

b c b +--=

2

2

)1(χ

1

R ?C 表

①多个样本率、 构成比的比较

②两个变量之 间关联性分析

0H :多个总体率(构成比)相等

(0H :两种属性间存在关联)

1H :多个总体率(构成比)不全相等

(0H :两种属性间存在关联)

)1(

2

2

-=∑

C

R n n A n χ

(R-1)(C-1)

频数分布表 频数分布的拟合优

度检验

0H :资料服从某已知的理论分布 1H :资料不服从某已知的理论分布

-T

T A 2)(

据频数表的组数而定

(五)四格表的确切概率法:当四格表有理论数小于1或n <40时,宜用四格表的确切概率法。

(六)2χ检验的应用条件及注意事项

1.分析四格表资料时,应注意连续性校正的问题,当140时,用连续性校正2

χ检验;T ≤1,或n ≤40时,

用Fisher 精确概率法。

2.对于R ?C 表资料应注意以下两点:

(1)理论频数不宜太小,一般要求:理论频数<5的格子数不应超过全部格子的1/5;

(2)注意考察是否有有序变量存在。对于单向有序R ?C 表资料,当指标分组变量是有序的时,宜用秩和检验;对于双向有序且属性不同的R ?C 表资料,若希望弄清两有序变量之间是否存在线性相关关系或存在线性变化趋势,应选用定性资料的相关分析或线性趋势检验;对于双向有序且属性相同的R ?C 表资料,为考察两种方法检测的一致性,应选用Kappa 检验。

三、典型试题分析

(一)单项选择题

1.下列哪项检验不适用2

χ检验( )

A . 两样本均数的比较

B . 两样本率的比较

C . 多个样本构成比的比较

D . 拟合优度检验

答案:A [评析] 本题考点:2χ检验的主要用途。2

χ检验不能用于均数差别的比较。 2.分析四格表时,通常在什么情况下需用Fisher 精确概率法( )

A .140

B .T <5

C .T 1≤或n 40≤

D .T 1≤或n 100≤

答案: C [评析] 本题考点:对于四格表,当T 1≤或n 40≤时,不宜用2

χ检验,应用Fisher 精确概率法。 3.2

χ值的取值范围为

A .∞-<2

χ<∞+ B .+∞≤≤2

0χ C .12

≤χ D .02

≤≤∞-χ

答案: B [评析]根据2χ分布的图形或2χ的基本公式可以判断2

χ值一定是大于等于零且没有上界的,故应选B 。

(二)是非题

两样本率的比较可以采用2

χ检验,也可以采用双侧u 检验。答案:正确。 [评析]就两个样本率的比较而言,双侧u 检验与2

χ检验是等价的。 (三)简答题

1.四格表的2

χ检验和u 检验有何联系与区别?

答案:相同点:凡是能用u 检验进行的两个率比较检验的资料,都可用2

χ检验,两者是等价的,即2

2

χ=u ;相异点:(1)u 检验可进行单侧检验;(2)满足四格表u 检验的资料,计算两个率之差的可信区间,可从专业上判断两率之差有无实际意义;(3)2

χ检验可用于2?2列联表资料有无关联的检验。

2.R ?C 表2

χ检验的适用条件及当条件不满足时可以考虑的处理方法是什么?

答案:R ?C 表2χ检验的适用条件是理论频数不宜过小,否则有可能产生偏性。当条件不满足时有三种处理方法:①增大样本例数使理论频数变大;②删去理论数太小的行或列;③将理论数太小的行或列与性质相近的邻行或邻列合并,使重新计算的理论频数变大。但②、③法都可能会损失信息或损害样本的随机性,因此应慎用。

(四)计算题

1.为研究静脉曲张是否与肥胖有关,观察122对同胞兄弟,每对同胞兄弟中有一个属肥胖,另一个属正常体重,记录得静脉曲张发生情况见表8-2,试分析之。

表8-2 122对同胞兄弟静脉曲张发生情况

正常体重 肥胖

合计 发生 未发生 发 生

19 5 24 未发生 12 86 98 合 计

31 91

122

[评析]这是一个配对设计的资料,因此用配对2

χ检验公式计算。 H 0:肥胖者与正常体重者的静脉曲张发生情况无差别 H 1:肥胖者与正常体重者的静脉曲张发生情况不同 05.0=α c

b c b +--=

2

2)1(χ=

()12.212

511252

=+--,1=ν

2χ=2.11<2

1,05.0χ,P >0.05,尚不能认为静脉曲张与肥胖有关。

2.某卫生防疫站在中小学观察三种矫正近视眼措施的效果,近期疗效数据见表8-3。对三种措施的疗效作出评价。

夏天无眼药水 51 84 135 37.78 新医疗法 6 26 32 18.75 眼保健操 5 13 18 27.78 合计 62 123 185

33.51

[评析]

0H :三种措施有效率相等

1H :三种措施有效率不相等或不全相等 05.0=α

)1(22

-=∑c r n n A n χ=185????

? ??-?+?+?+?+?+?1181231318625321232632626135123841356251222222=4.498,ν=(2-1)(3-1)=2 查表得0.25>P >0.10,按0.05α=水准不拒绝0H ,尚不能认为三种措施有效率有差别。

3.某医院以400例自愿接受妇科门诊手术的未产妇为观察对象,将其分为4组,每组100例,分别给予不同的镇痛

处理,观察的镇痛效果见表8-4,问4种镇痛方法的效果有无差异?

表8-4 4种镇痛方法的效果比较 镇痛方法 例数 有效率(%)

颈麻

100 41 注药

100 94 置栓

100 89 对照

100 27 [评析] 为了应用2

χ检验,首先应计算出有效和无效的实际频数,列出计算表,见表8-5。

表8-5 4种镇痛方法的效果比较

镇痛方法 有效例数 无效例数 合计

颈麻

41 59 100 注药

94 6

100 置栓

89 11

100 对照

27 73 100

合计 251 149 400

0H :4种镇痛方法的效果相同 1H :4种镇痛方法的效果不全相同

05.0=α

)1(22

-=∑c r n n A n χ=400???

? ??-?++?+??110014973

...1001495910025141222=146.175, ν=(4-1)(2-1)=3

查表得P <0.05,按0.05α=水准拒绝0H ,接受1H ,即4种镇痛方法的效果不全相同。

四、习 题

(一) 单项选择题

1. 关于样本率p 的分布正确的说法是: A . 服从正态分布 B . 服从2

χ分布

C . 当n 足够大,且p 和1-p 均不太小,p 的抽样分布逼近正态分布

D . 服从t 分布 2. 以下说法正确的是: A . 两样本率比较可用u 检验 B . 两样本率比较可用t 检验 C . 两样本率比较时,有2

χ=u D . 两样本率比较时,有22

χ=t 3. 率的标准误的计算公式是: A .

)1(p p - B .

n p p )

1(- C.1-n p D.

n

p p )

1(- 4. 以下关于2χ检验的自由度的说法,正确的是: A .拟合优度检验时,2-=n ν(n 为观察频数的个数)

B .对一个43?表进行检验时,11=ν

C .对四格表检验时,ν=4

D .若2

,05.02,05.0ηνχχ>,则ην>

5. 用两种方法检查某疾病患者120名,甲法检出率为60%,乙法检出率为50%,甲、乙法一致的检出率为35%,问两种方法何者为优?

A .不能确定

B .甲、乙法一样

C .甲法优于乙法

D .乙法优于甲法

6.已知男性的钩虫感染率高于女性。今欲比较甲乙两乡居民的钩虫感染率,适当的方法是: A .分性别比较 B .两个率比较的2χ检验 C .不具可比性,不能比较 D .对性别进行标准化后再做比较 7.以下说法正确的是

A .两个样本率的比较可用u 检验也可用2χ检验

B .两个样本均数的比较可用u 检验也可用2χ检验

C .对于多个率或构成比的比较,u 检验可以替代2χ检验

D .对于两个样本率的比较,2χ检验比u 检验可靠 (二) 名词解释

1. 实际频数与理论频数 2. 2χ界值表 3. 拟合优度 4. 配对四格表

5. 双向有序分类资料 6. 率的标准误

7. 多个率的两两比较 8. Fisher 精确概率 9. McNemar 检验 10. Yates 校正 (三) 是非题

四个样本率做比较,2

)3(05.02χχ> ,可认为各总体率均不相等。 (四) 计算题

1.121名前列腺癌患者中,82名接受电切术治疗,术后有合并症者11人;39名接受开放手术治疗,术后有合并症1人。试分析两种手术的合并症发生率有无差异?

2.某厂在冠心病普查中研究冠心病与眼底动脉硬化的关系,资料见表8-6。问两者是否存在一定的关系?

表8-6 冠心病诊断结果与眼底动脉硬化级别的关系

眼底动脉硬化级别 冠心病诊断结果

合计 正常 可疑 冠心病 0 340 11 6 357

I 73 13 6 92 II 97 18 18 133 III 3 2 1

6 合计

513 44 31 588

3.表8-7是用两种方法检查已确诊的乳腺癌患者120名的检查结果,问:两种方法何者为优?

表8-7 两种方法检查结果比较

乙法

甲法

合计

+ -

+ 42 18 60

- 30 30 60

合计72 48 120

4.用噬菌体治疗小儿细菌性痢疾结果见表8-8,问两组阴转率有无显著差异?

表8-8 两种方法检查结果比较

组别观察人数粪见检阴性人数阴转率(%)

试验组29 25 86.2

对照组28 17 60.7

合计57 42 73.7

5.某医院用冠心2号方治疗心绞痛患者,经三个月疗程后,疗效见表8-9,问三个疗程组的有效率之间有无显著差异?

表8-9 冠心2号方治疗心绞痛的有效率

疗程例数有效例数有效率(%)

一疗程110 82 74.5

二疗程150 130 86.7

三疗程63 56 88.9

6.某医院比较急性黄疸型肝炎与正常人在超声波波型上的表现,见表8-10。问两组肝波型的差异有无显著性?

表8-10 急性黄疸型肝炎与正常人的超声波波形

组别波型

合计

正常可疑较密

黄疸型肝炎组12 43 232 287

正常人组277 39 11 327

合计289 82 243 614 7.有人研究惯用手与惯用眼之间是否存在一定关系,得资料如表8-11,试作统计分析。

表8-11 冠心2号方治疗心绞痛的有效率

惯用左眼两眼并用惯用右眼合计

惯用左手34 62 28 124

两手并用27 28 20 75

惯用右手57 105 52 214

合计118 195 100 413

8.苏格兰西南部两个地区献血人员的血型记录如下表(表8-12),问两地的血型分布是否相同?

表8-12 两个地区献血人员的血型分布

地区血型

合计

A B O AB

Eskdale 33 6 56 5 100

Annandale 54 14 52 5 125

合计87 20 108 10 225

五、习题答题要点

(一) 单项选择题

1.C

2.A

3.D

4.D

5.A

6.D

7.A (二) 名词解释

1.实际频数:actual frequency ,即实际观察值。理论频数:theoretical frequency ,在假设多个率或构成比相等的前提下,由合计率(构成比)推算出来的频数。

2.2χ界值表:将2χ分布右侧尾部面积等于α时所对应的2χ值称为2χ分布的临界值,对于不同的自由度及α有不同的临界值,由这些临界值构成的表即2χ界值表。

3.拟合优度 :指一种度量某事物的频数分布是否符合某一理论分布或数据是否与模型吻合的方法。

4.配对四格表:为了控制随机误差而采用配对设计方案,将条件相似的两个受试对象配成一对,然后随机地让其中一个接受A 处理,另一个接受B 处理,每种处理的反应都按二项分类。全部n 对实验结果的资料以表8-12表示,这样的表称为配对四格表。

表8-12 配对四格表的形式 A 处理 B 处理 + - + a b -

c

d

5.

双向有序分类资料:对于R ?C 表资料,当两个定性变量都有序时,这样的资料称为双向有序分类资料,如

“急性放射病分度与放射烧伤面积占不同体表面积的百分比”,这里的两个变量均为有序的。

6.

率的标准误:用以衡量由于抽样引起的样本率与总体率之间的误差的统计量,记为P σ。n

p )

1(ππσ-=

,π

为总体率,n 为样本容量;当总体率π未知时,以样本率P 作为π的估计值,率的标准误为n

p p S p )

1(-=

。 7. 多个率的两两比较:指当假设检验确定了多个率之间存在差别后,检验哪两个两个样本率之间的差别具有统计学意义的方法。

8.

Fisher 精确概率: 指当四格表中出现理论数小于1或n <40时,用R.A.Fisher (1934)提出的方法直接计算

出的有利于拒绝H 0的概率。

9. McNemar 检验:McNemar’s test for correlated proportions ,是分析配对四格表资料的方法,其计算公式为c

b c b +--=

2

2

)1(χ,v =1。

10.Yates 校正:英国统计学家Yates F 认为,由于2χ分布理论上是一连续性分布,而分类资料是间断性的,由此计算出的2χ值不连续,尤其是自由度为1的四格表,求出的概率P 值可能偏小,此时需对2χ值作连续性校正(correction of continuity ),这一校正即所谓的Yates 校正(Yates’ correction )。

(三) 是非题

错。多个样本率做比较时,H 1为各总体率不全相等,所以当接受H 1时,并不能说明各总体率均不相等。 (四) 计算题:

1.将资料整理成四格表

手术方法 合并症

电切术 开放手术

用四格表校正公式算得37.22=χ,P >0.05,尚不能认为两种手术的合并症发生率有差异。

2.该资料属双向有序分类资料,用2χ检验解决。

H 0: 冠心病诊断结果与眼底动脉硬化级别无关联 H 1: 冠心病诊断结果与眼底动脉硬化级别有关联

05.0=α

2χ=61.59, 2χ<2

6,01.0χ,P <0.05,

按05.0=α水准拒绝H 0接受H 1,故可认为冠心病与眼底动脉硬化有关联。 3.采用配对2χ检验。

H 0: 两法不分优劣 H 1: 两法能分优劣 05.0=α

2χ=3.00,按05.0=α水准不拒绝H 0,尚不能认为检出率有差别。

4.可用u 检验或2χ检验。用2χ检验时,首先将资料整理成四格表形式,然后再代入公式。算得2χ=4.774,按

05.0=α水准拒绝H 0接受H 1,认为两组阴转率差别有统计学意义。

5.用R ?C 表2χ检验公式算得2χ=8.539,v =2,P <0.05,,按05.0=α水准拒绝H 0接受H 1,三个疗程有效率的差异有统计学意义。

6.用R ?C 表2χ检验公式算得2χ=443.456,v =2,P <0.05,,按05.0=α水准拒绝H 0接受H 1,两组肝波型的差异有统计学意义。

7.由2χ检验公式算得2χ=4.020,v =4,P >0.05,,按05.0=α水准不拒绝H 0,尚不能认为惯用手与惯用眼之间存在关系。

8.本例只有一个格子的理论频数小于5,故仍可用2χ检验。2χ=5.710,v =3,P >0.05,,按05.0=α水准不拒绝H 0,尚不能认为两地的血型分布不同。(徐勇勇 马跃渊)

SPSS170在生物统计学中的应用实验七卡方检验汇总

SPSS在生物统计学中的应用 ——实验指导手册 实验七:卡方检验 一、实验目标与要求 1.帮助学生深入了解卡方检验的基本概念,掌握卡方检验的基本思想和原理 2.掌握卡方检验的过程。 二、实验原理 卡方检验适用于次数分布的检验,比如次数分布是否与某种理想的分布一致,或者不同样本同类测量分数次数分布是否一致。对于前者,先要确定一个理想的次数分布比例,然后将观测的某一次数分布与其比较,确定二者的差异性,并用X2来反映。X2 越小,则差异越小,该样本的观测分布越有可能适合于理想分布;X2 越大,则差异越大,其服从于理想分布的可能性就越小。当服从理想分布的伴随概率小于0.05时,就认为该次数分布与理想的分布有显著性差异。 不同样本中测量分数的次数分布使用卡方检验时,如果卡方足够大,该观测在两个样本中的次数分布服从于同一总体的概率小于0.05时,则认为样本间存在显著性差异。 三、实验演示内容与步骤 ㈠适合性检验 比较观测数与理论数是否符合的假设检验(compatibility test),也称吻合性检验或拟合优度检验(goodness of fit test).。 【例】有一鲤鱼遗传试验,以红色和青灰色杂交,其F2代获得不同分离尾数,问观测值是否符合孟德尔3:1遗传定律. 1. 定义变量:

2. 输入变量值 3. 选择菜单1:点击菜单【数据】→【加权个案】→弹出“加权个案”对话框 → 4. 选择菜单2:点击菜单【分析】→【非参数检验】→【卡方】→弹出“卡方检验”对话框

点击【选项】按钮,弹出“卡方检验:选项”对话框,选择“描述性”,点击【继续】 点击【确定】在输出结果视图中看分析结果

第五章+统计学教案(假设检验)

第五章+统计学教案(假设检验)参数估计和假设检验是统计推断的两个组成部分,它们分别从不同的角度利用样本信息对总体参数 进行推断。前者讨论的是在一定的总体分布形式下,借助样本构造的统计量,对总体未知参数作出估计 的问题;后者讨论的是如何运用样本信息对总体未知参数的取值或总体行为所做的事先假定进行验证, 从而作出真假判断。通俗地、简单地说,前者是利用样本信息估计总体参数将落在什么范围里;而后者 则是利用样本信息回答总体参数是不是会落在事先假定的某一个范围里。 通过本章学习,要求学生在充分理解有关抽样分布理论的基础上,理解掌握假设检验的有关基本概 念;明确在假设检验中可能犯的两种错误,以及这两种错误之间的联系;熟练掌握总体均值和总体成数 的检验方法,主要是 Z 检验和 t 检验;对于非参数的检验,也应有所了解,包括符号检验、秩和检验与游程检验等。 2 一、假设检验概述与基本概念 1、假设检验概述 2、假设检验的有关基本概念 二、总体参数检验 1、总体平均数的检验 2、总体成数的检验

3、总体方差的检验 三、总体非参数检验 1、符号检验 2、秩和检验 3、游程检验 一、假设检验的有关基本概念; 二、总体平均数与总体成数的检验; 三、非参数检验; 一、假设检验的基本思路与有关概念; 二、两类错误的理解及其关系; 一、假设检验概述 假设检验:利用统计方法检验一个事先所作出的假设的真伪,这一假设称为统计假设,对这一假设 所作出的检验就是假设检验。 基本思路:首先,对总体参数作出某种假设,并假定它是成立的。然后,根据样本得到的信息(统 计量),考虑接受这个假设后是否会导致不合理的结果,如果合理就接受这个假设,不合理就拒绝这个 假设。 所谓合理性,就是看是否在一次的观察中出现了小概率事件。 小概率原理:就是指概率很小的事件,在一次试验中实际上是几乎不可能出现。这种事件可以称其 为“实际不可能事件”。 二、假设检验的基本概念

生物统计学

平均数:average中位数:median众数:mode几何平均数:geomean 极差:R=max-min方差:var标准差:stder 绘制频数分布图: 1)找最大值,最小值,计算极差 2)决定划分的组数L 3)据极差与组数,确定组距i 4)确定组中值(样本最小值+1/2组距) 5)确定接受区域(第一个接受区域=第一个组中值+1/2组距) 6)调用函数FREQUENCY。频数=frequency(A2:A129观测值,H2:H11接受区域) 7)ctrl+shift+Enter得到结果 茎叶图: Minitab:图形→茎叶图 SPSS:导入数据→分析→描述统计→探索→将“XX”选入因变量列表→绘制→茎叶图 分析(结果中,第一个频数是5,茎是2,叶是01234,表明20~24范围内的观测值有5个,分别为20,21,22,23,24;……) 描述性统计: Excel:工具→加载宏→分析工具库→工具→数据分析→描述统计→标志位于第一行→输出 Minitab:输入数据→统计→基本统计量→显示描述性统计→添加变量→输出 SPSS:选中数据鼠标右键→基本参数→正态性检验或者数据分析→基本参数估计DPS:分析→描述统计→描述→添加变量→输出 数据中异常值分析: DPS:复制,选中数据→数据分析→异常值检验(3S法,Dixon检验法,Grubbs检验法)Excel:6SQ统计→基本统计→正态异常检验 箱线图 SPSS:图形→旧对话框→箱图→“简单”“各个变量的摘要”→定义:添加框的表征→确定:输出结果 Minitab:统计→基本统计量→显示描述性统计→选择图形→勾选“数据箱线图→确定”DPS:数据分析→统计图表→box图→保存图形 概率图法 Minitab:图形→概率图→“单一”→确定→“概率图-简单”→添加“图形变量”→确定,输出结果 第三章概率分布: 二项分布:BINOMDIST(i,n,p,0或1) (事件发生次数,总次数,发生的概率,0或1) eg.某批鸡蛋的孵化率是0.90,今从该批鸡蛋中任选5个进行孵化,试求(1)孵出3只小鸡的概率(2)至多孵出3只小鸡的概率(3)至少孵出3只小鸡的概率。 ①BINOMDIST(3,5,0.9,0)②BINOMDIST(3,5,0.9,1) ③1-BINOMDIST(3,5,0.9,1) 泊松分布:poisson(k,λ,0或1) (事件发生次数,平均数,0或1)描述和分析在单位空间和时间里随机发生的事件eg.某城市平均每天发生交通事故2.5起。试求在一天内发生5起交通事故的概率。poisson(5,2.5,0) Eg.某杂交水稻瓶中在田间出现变异植株的概率为0.0045,试计算:①调查100株,至少获得两株变异植株的概率是多少?②期望有0.99的概率至少获得3株变异植株,至少应该调查多少株? ①P(x≥2)=1-P(x≤1)=1-BINOMDIST(1,100,0.0045,1) ②P(x≥3)=1-P(x≤2)=1-BINOMDIST(2,n,0.0045,1)=0.99BINOMDIST→(2,n,0.0045,1)

人大版统计学 习题加答案第四章 假设检验

第四章 假设检验 填空(5题/章),选择(5题/章),判断(5题/章),计算(3题/章) 一、 填空 1、在做假设检验时容易犯的两类错误是 和 2、如果提出的原假设是总体参数等于某一数值,这种假设检验称为 ,若提出的原假设是总体参数大于或小于某一数值,这种假设检验称为 3、假设检验有两类错误,分别是 也叫第一类错误,它是指原假设H0是 的,却由于样本缘故做出了 H0的错误;和 叫第二类错误,它是指原假设H0是 的, 却由于样本缘故做出 H0的错误。 4、在统计假设检验中,控制犯第一类错误的概率不超过某个规定值α,则α称为 。 5、 假设检验的统计思想是小概率事件在一次试验中可以认为基本上是不会发生的,该原理称为 。 6、从一批零件中抽取100个测其直径,测得平均直径为5.2cm ,标准差为1.6cm ,想知道这批零件的直径是否服从标准直径5cm ,在显著性水平α下,否定域为 7、有一批电子零件,质量检查员必须判断是否合格,假设此电子零件的使用时间大于或等于1000,则为合格,小于1000小时,则为不合格,那么可以提出的假设为 。(用H 0,H 1表示) 8、一般在样本的容量被确定后,犯第一类错误的概率为α,犯第二类错误的概率为β,若减少α,则β 9、某厂家想要调查职工的工作效率,用方差衡量工作效率差异,工厂预计的工作效率为至少制作零件20个/小时,随机抽样30位职工进行调查,得到样本方差为5,试在显著水平为0.05的要求下,问该工厂的职工的工作效率 (有,没有)达到该标准。 KEY: 1、弃真错误,纳伪错误 2、双边检验,单边检验 3、拒真错误,真实的,拒绝,取伪错误,不真实的,接受 4、显著性水平 5、小概率事件 6、1.25>2 1α-z 7、H 0:t≥1000 H 1:t <1000 8、增大 9、有

统计学教案习题08卡方检验

第八章 2 χ 检验 一、教学大纲要求 (一) 掌握内容 1. 2χ检验的用途。 2. 四格表的2 χ检验。 (1) 四格表2χ检验公式的应用条件; (2) 不满足应用条件时的解决办法; (3) 配对四格表的2 χ检验。 3. 行?列表的2 χ检验。 (二) 熟悉内容 频数分布拟合优度的2 χ检验。 (三) 了解内容 1.2 χ分布的图形。 2.四格表的确切概率法。 二、教学内容精要 (一) 2 χ检验的用途 2χ检验(Chi-square test )用途较广,主要用途如下: 1.推断两个率及多个总体率或总体构成比之间有无差别 2.两种属性或两个变量之间有无关联性 3.频数分布的拟合优度检验 (二) 2 χ检验的基本思想 1.2 χ检验的基本思想是以2 χ值的大小来反映理论频数与实际频数的吻合程度。在零假设0H (比如0H :21ππ=)成立的条件下,实际频数与理论频数相差不应该很大,即2 χ值不应该很大,若实际计算出的2 χ值较大,超过了设定的检验水准所对应的界值,则有理由怀疑0H 的真实性,从而拒绝0H ,接受H 1(比如1H :21ππ≠)。 2. 基本公式:()∑ -= T T A 2 2 χ,A 为实际频数(Actual Frequency ),T 为理论频数(Theoretical Frequency )。四格 表2χ检验的专用公式正是由此公式推导出来的,用专用公式与用基本公式计算出的2 χ值是一致的。 (三)率的抽样误差与可信区间 1.率的抽样误差与标准误 样本率与总体率之间存在抽样误差,其度量方法: n p ) 1(ππσ-= ,π为总体率,或 (8-1) n p p S p ) 1(-= , p 为样本率; (8-2) 2.总体率的可信区间 当n 足够大,且p 和1-p 均不太小,p 的抽样分布逼近正态分布。 总体率的可信区间:(p p S u p S u p ?+?-2/2/,αα)。 (8-3) (四)2 χ检验的基本计算 表8-1 2 检验的用途、假设的设立及基本计算公式 01四格表 ①独立资料两 样本率的比较 ②配对资料两 样本率的比较 0H :两总体率相等 1H :两总体率不等 ①专用公式 ))()()(()(22 d b c a d c b a n bc ad ++++-=χ ②当n ≥40但1≤T<5时,校正公式 1

统计学假设检验习题答案

1.假设某产品的重量服从正态分布,现在从一批产品中随机抽取16件,测得平均重量为820克,标准差为60克,试以显著性水平α=0.01与α=0.05,分别检验这批产品的平均重量是否是800克。 解:假设检验为800:,800:0100≠=μμH H (产品重量应该使用双侧 检验)。采用t 分布的检验统计量n x t /0σμ-=。查出α=0.05和0.01两个水平下的临界值(df=n-1=15)为2.131和2.947。667.116/60800820=-= t 。因为t <2.131<2.947,所以在两个水平下都接受原假设。 2.某牌号彩电规定无故障时间为10 000小时,厂家采取改进措施,现在从新批量彩电中抽取100台,测得平均无故障时间为10 150小时,标准差为500小时,能否据此判断该彩电无故障时间有显著增加(α=0.01)? 解:假设检验为10000:,10000:0100>=μμH H (使用寿命有无显著增加,应该使用右侧检验)。n=100可近似采用正态分布的检验统计量n x z /0σμ-=。查出α=0.01水平下的反查正态概率表得到临界值2.32到2.34之间(因为表中给出的是双侧检验的接受域临界值,因此本题的单侧检验显著性水平应先乘以2,再查到对应的临界值)。计算统计量值3100 /5001000010150=-=z 。因为z=3>2.34(>2.32),所以拒绝原假设,无故障时间有显著增加。 3.设某产品的指标服从正态分布,它的标准差σ已知为150,今抽了一个容量为26的样本,计算得平均值为1637。问在5%的显著水平下,能否认为这批产品的指标的期望值μ为1600? 解: 01:1600, :1600,H H μμ=≠标准差σ已知,拒绝域为2 Z z α>,

医学统计学练习

1.假设检验在设计时应确定的是 A.总体参数B.检验统计量C.检验水准 D.P值E.以上均不是 2.如果t≥2,υ,,可以认为在检验水准α=处。 A.两个总体均数不同B.两个总体均数相同C.两个样本均数不同D.两个样本均数相同E.样本均数与总体均数相同 3. 计量资料配对t检验的无效假设(双侧检验)可写为。 A.μd=0 B.μd≠0 C.μ1=μ2 D.μ1≠μ2E.μ=μ0 4.两样本均数比较的t检验的适用条件是。 A.数值变量资料B.资料服从正态分布C.两总体方差相等 D.以上ABC都不对E.以上ABC都对 5.在比较两组资料的均数时,需要进行t/检验的情况是: A.两总体均数不等B.两总体均数相等C.两总体方差不等D.两总体方差相等E.以上都不是 6.有两个独立的随机样本,样本含量分别为n1和n2,在进行成组设计资料的t检验时,自由度为。 A.n1+n2 B.n1+n2-1 C.n1+n2+1 D.n1+n2-2 E.n1+n2+2 7. 已知某地正常人某定量指标的总体均值μ0=5,今随机测得该地特殊人群中的30人该指标的数值。若用t检验推断该特殊人群该指标的总体均值μ与μ0之间是否有差别,则自由度为。 A.5 B.28 C.29 D.4 E.30 8. 两大样本均数比较,推断μ1=μ2是否成立,可用。 A.t检验B.u检验C.方差分析 D.ABC均可以E.χ2检验 9.关于假设检验,下列说法中正确的是 A.单侧检验优于双侧检验 B.采用配对t检验还是成组t检验由实验设计方法决定

C.检验结果若P值大于,则接受H0犯错误的可能性很小 D.用Z检验进行两样本总体均数比较时,要求方差齐性 E.由于配对t检验的效率高于成组t检验,因此最好都用配对t检验 10. 为研究新旧两种仪器测量血生化指标的差异,分别用这两台仪器测量同一批样品,则统计检验方法应用。 A.成组设计t检验B.成组设计u检验C.配对设计t检验 D.配对设计u检验E.配对设计χ2检验 11. 阅读文献时,当P=,按α=水准作出拒绝H0,接受H1的结论时,下列说法正确的是。A.应计算检验效能,以防止假“阴性”结果 B.应计算检验效能,检查样本含量是否足够 C.不必计算检验效能D.可能犯Ⅱ型错误 E.推断正确的概率为1-β 12.两样本均数假设检验的目的是判断 A. 两样本均数是否相等B. 两样本均数的差别有多大 C.两总体均数是否相等D. 两总体均数的差别有多大 E. 两总体均数与样本均数的差别有多大 13.若总例数相同,则成组资料的t检验与配对资料的t检验相比: A.成组t检验的效率高些B.配对t检验的效率高些 C.两者效率相等D.两者效率相差不大E.两者效率不可比 15. 两个总体均数比较的t的检验,计算得t>2,n1+n2-2时,可以认为。 A.反复随机抽样时,出现这种大小差异的可能性大于 B.这种差异由随机抽样误差所致的可能性小于 C.接受H0,但判断错误的可能性小于 D.拒绝H0,但犯第一类错误的概率小于 E.拒绝H0,但判断错误的概率未知 16. 为研究两种仪器测量血生化指标的差异,分别用这两台仪器测量同一批血样,则统计检验方法应用。 A.配对设计t检验B.成组设计u检验C.成组设计t检验 D.配对设计u检验E.配对设计χ2检验 17. 在两组资料的t检验中,结果为P<,差别有统计学意义,P愈小,则: 。

19秋福师《生物统计学》在线作业一-0002参考答案

福师《生物统计学》在线作业一-0002 试卷总分:100 得分:100 一、单选题(共32 道试题,共64 分) 1.在比较一个未知参数是否大于另一个未知参数时,根据_____,如果p(X>x)<α,就认为x是抽不到的。 A.假设检验原理 B.小概率原理 C.中心极限定理 D.概率分布律 答案:D 2.以下不是χ2 检验的用途 A.推断两个或两个以上总体率之间有无差别 B.交叉分类资料两属性间有无相关关系 C.检验频数分布与理论分布的拟合优度 D.推断两个或两个以上总体构成比之间有无差别 E.推断两个或两个以上总体均数之间有无差别 答案:E 3.四个率的比较的卡方检验,P值小于0.01,则结论为 A.四个总体率均不相等 B.四个样本率均不相等; C.四个总体率之间肯定不等或不全相等 D.四个总体率之间不等或不全相等 答案:D 4.由于所选的特征在“药有效”时可能出现、在“药无效”时也可能出现,所以除了______外,所选择的特征都不能用于判断药(或药方、或治疗方法)是否有效。 A.有一名患者在服用某祖传秘方后“病好了”,所以该祖传秘方是有效的。 B.某气功大师发功后“有许多人长高了”,所以该气功是有效的。 C.服用某预防汤药后某班级“100%未感染非典”,所以该汤药是有效的。 D.服药患者的“痊愈高于未服药患者的痊愈率”,所以该药是有效的。 答案:D 5.张三观察到10名A病患者服用B药后有8名痊愈了。张三认为:这表明B药对A病的治愈率为80%。这里,张三所“观察到的治愈率”是B药对____A病患者的治愈率,它是____特征。 A.那10名,样本 B.所有,总体 C.所有,样本 D.那10名,总体 答案:D 6.为探讨不同窝动物的出生重是否相等,随机选a窝、每窝随机抽查n只,应进行_______效应模型的方差分析,所得出的结论_______________。 A.固定,可推广到未抽到的各窝 B.固定,仅适用于所抽到的各窝 C.随机,可推广到未抽到的各窝

医学统计学课后答案

1.参数检验:已知总体分布类型,对未知的总体参数做推断的假设检验方法。故参数检验依赖于特定的分布类型,比较的是总体参数 2.非参数检验:不依赖于总体分布类型、不针对总体参数的检验方法。故非参数检验对总体的分布类型不做任何要求,不受总体参数的影响,比较的是分布或分布位置。适用范围广,可适用于任何类型资料 参数检验 优点:资料信息利用充分;检验效能较高 缺点:对资料的要求高;适用范围有限 2.非参数检验 优点:适用范围广,可适用于任何类型的资料 缺点:检验效能低,易犯Ⅱ型错误 凡适合参数检验的资料,应首选参数检验 对于符合参数检验条件者,采用非参数检验,其 检验效能低,易犯Ⅱ型错误 第一章绪论 1.举例说明总体和样本的概念。 研究人员通常需要了解和研究某一类个体,这个类就是总体。总体是根据研究目的所确定的所有同质观察单位某种观察值(即变量值)的集合,通常有无限总体和有限总体之分,前者指总体中的个体是无限的,如研究药物疗效,某病患者就是无限总体,后者指总体中的个体是有限的,它是指特定时间、空间中有限个研究个体。但是,研究整个总体一般并不实际,通常能研究的只是它的一部分,这个部分就是样本。例如在一项关于2007年西藏自治区正常成年男子的红细胞平均水平的调查研究中,该地2007年全部正常成年男子的红细胞数就构成一个总体,从此总体中随即抽取2000人,分别测的其红细胞数,组成样本,其样本含量为2000人。 2.简述误差的概念。

误差泛指实测值与真实值之差,一般分为随机误差和非随机误差。随机误差是使重复观测获得的实际观测值往往无方向性地围绕着某一个数值左右波动的误差;非随机误差中最常见的为系统误差,系统误差也叫偏倚,是使实际观测值系统的偏离真实值的误差。 3.举例说明参数和统计量的概念。 某项研究通常想知道关于总体的某些数值特征,这些数值特征称为参数,如整个城市的高血压患病率。根据样本算得的某些数值特征称为统计量,如根据几百人的抽样调查数据所算得的样本人群高血压患病。统计量是研究人员能够知道的,而参数是他们想知道的。一般情况下,这些参数是难以测定的,仅能够根据样本估计。显然,只有当样本代表了总体时,根据样本统计量估计的总体参数才是合理的。 4.简述小概率事件原理。 当某事件发生的概率小于或等于时,统计学上习惯称该事件为小概率事件,其含义是该事件发生的可能性很小,进而认为它在一次抽样中不可能发生,这就是所谓的小概率事件原理,它是进行统计推断的重要基础。 第二章调查研究设计 1.调查研究主要特点是什么 调查研究的主要特点是:①研究的对象及其相关因素(包括研究因素和非研究因素)是客观存在的,不能人为给予干预措施②不能用随机化分组来平衡混杂因素对调查结果的影响。 2.简述调查设计的基本内容。 ①明确调查目的和指标②确定调查对象和观察单位③确定调查方法④确定调查方式⑤确定调查项目和调查表⑥制定资料整理分析计划⑦制定调查的组织计划。 3.试比较常用的四种概率抽样方法的优缺点。 (1)单纯随机抽样优点是:均数(或率)及标准误的计算简便。缺点是:当总体观察单位数较多时,要对观察单位一一编号,比较麻烦,实际工作中有时难以办到。 (2)系统抽样优点是:①易于理解,简便易行②容易得到一个按比例分配的样本,由于样本相应的顺序号在总体中是均匀散布的,其抽样误差小于单纯随机抽样。缺点是:①当总体的观察单位按顺序有周期趋势或单调递增(或递减)趋势,系统抽样将产生明显的偏性。

统计学假设检验作业答案

假设检验作业答案 一、单项选择题 1.在假设检验中,第一类错误是指(A ) A.当原假设正确时拒绝原假设 B.当原假设错误时拒绝原假设 C.当备择假设正确时拒绝备择假设 D.当备择假设不正确时拒绝备择假设 2.对于给定的显著性水平α,根据P 值拒绝原假设的准则是(B ) A.P=α B.P<α C.P>α D.P=α=0 3.在大样本情况下,当总体方差已知时,检验总体均值所使用的统计量是(B )A.0/x z n μσ?=B. x z =C. x t =D. x z = 4.检验一个正态总体的方差时所使用的分布是(D ) A.正态分布 B.t 分布 C.F 分布 D.2 χ分布二、简答题 简述:假设检验依据的基本原理是什么?

三、计算题 1.已知某炼铁厂的产品含碳量服从正态分布N(4.55,0.108),现在测定了9炉铁水,其平均含碳量为4.484。如果估计方差没有变化,可否认为现在生产的铁水平均含碳量为4.55(α=0.05)。 解:正态分布总体,方差已知,因此用Z 检验。α=0.05时,临界值为±1.96 01: 4.55, : 4.55 H H μμ=≠0.602 x z ===?1.96 1.96 z ?<<所以不拒绝原假设。 结论:样本提供的信息不足以推翻“铁水平均含碳量为4.55”的说法。 2.某地区小麦的一般生产水平为亩产250公斤,其标准差为30公斤。现用一种化肥进行试验,从35个小区抽样结果,平均产量为270公斤。问这种化肥是否使小麦明显增产?(α=0.05) 解:大样本,方差已知,用Z 检验。0.05 1.645 z =01:250, :250 H H μμ≤> 0.053.94x z z ===>所以拒绝原假设。 结论:这种化肥使小麦明显增产 3.某种大量生产的袋装食品,按规定不得少于250克。今从一批该食品中任意抽取50袋,发现有6袋低于250克。若规定不符合标准的比例超过5%就不得出厂。问该批食品能否出厂?(α=0.05) 解:大样本的总体比例检验,用Z 检验。0.05 1.645 z =01:5%, :5% H H ππ≤>

统计方法卡方检验

卡方统计量 卡方检验用途: 可以对两个率或构成比以及多个率或构成比间的差异做统计学检验 第一节. 四格表资料的χ2检验 例8.1 为了解铅中毒病人是否有尿棕色素增加现象,分别对病人组和对照组的尿液作尿棕色素定性检查,结果见表8.1,问铅中毒病人和对照人群的尿棕色素阳性率有无差别? 表8.1 两组人群尿棕色素阳性率比较 组别阳性数阴性数合计阳性率% 病人29(18.74) 7(17.26) 36 80.56 对照9(19.26)28(17.74) 37 24.32 合计38 35 73 52.05 卡方检验的基本思想 表1中29、7、9、28是构成四格表资料的四个基本格子的数字,其余行合计和列合计以及总的合计都可以根据该四个数字推算出来,故该类资料被称为四格表资料 四格表卡方检验的步骤 以例8.1为例 1.建立假设: H0:π1 = π2 H1:π1≠π2 α=0.05 四格表的四格子里的数字是实际数,在表1中四个数字旁边括号中的四个数字为理论数,其含义是当无效假设成立的时候,理论上两组人群各有多少阳性和阴性的人数。 若H0:π1=π2成立→p1=p2=p 即假设两组间阳性率无差别,阳性率都是等于合计的52.05%,那么 铅中毒病人36人,则理论上有 36 ╳52.05%=18.74人为阳性; 对照组37人,则理论上有 37 ╳52.05%=19.26人为阳性。 故每个实际数所对应的理论数算法是,该实际数对应的行和乘列和再除以总的N样本含量。 即TRC=nR nC / n 2.计算理论数 第1行1列: T11=36×38/73= 18.74 依次类推T12 = 17.26 T21 = 19.26 T22 = 17.74 四格表中理论数的两大特征: (1)理论频数表的构成相同,即不但各行构成比相同,而且各列构成比也相同; (2)各个基本格子实际数与理论数的差别(绝对值)相同。 一、卡方检验基本公式

统计学假设检验习题答案

1 ?假设某产品的重量服从正态分布, 现在从一批产品中随机抽取 16件, 测得平均重量为 820克,标准差为60克,试以显著性水平 =0.01与 =0.05, 分别检验这批产品的平均重量是否是 800克。 解:假设检验为 H 。: % =800,比:% =800 (产品重量应该使用双侧 820—800 平下的临界值(df= n-1=15)为2.131和2.947。 t 1.667 。因为 60/716 t <2.131<2.947,所以在两个水平下都接受原假设。 2 ?某牌号彩电规定无故障时间为 10 000小时,厂家采取改进措施,现在从 新批量彩电中抽取 100台,测得平均无故障时间为 10 150小时,标准差为 500小时,能否据此判断该彩电无故障时间有显著增加 (=0.01) ? =10000, H 1 >l 0 10000 (使用寿命有无显 Z = % 一」0。查出〉= 0.01 -/ . n 2.34之间(因为表中给出的是双侧检验的接受域临界值, 因此本题的单侧检 验显著性水平应先乘以2 ,再查到对应的临界值)。计算统计量值 10150 -10000 Z 3。因为z=3>2.34(>2.32),所以拒绝原假设,无故障 500/J100 时间有显著增加。 3.设某产品的指标服从正态分布,它的标准差 b 已知为150,今抽了一 个容量为26的样本,计算得平均值为1637。问在5 %的显著水平下,能否认 为这批 产品的指标的期望值 □为1600? 解:H 。:卩=1600,比:卜鬥600,标准差 b 已知,拒绝域为 2 检验)。采用t 分布的检验统计量 。查出〉=0.05和0.01两个水 解:假设检验为H 。:% 著增加,应该使用右侧检验) 。n=100可近似采用正态分布的检验统计量 水平下的反查正态概率表得到临界值 2.32到

生物统计学习题(经修改)

《生物统计学》习题 一、单项选择题 1、为了区别,统计上规定凡是参数均用希腊字母表示,如总体平均数用符号( )。 A 、σ B 、x C 、μ D 、S 2、统计分组时,在全距一定的情况下,( )。 A 、组距越大,组数越多 B 、组距越大,组数越少 C 、组距大小与组数多少无关 D 、组距大小与组数多少成正比 3、某选手打靶10次,有7次命中十环,占70%,则此70%为( )。 A 、 概率 B 、 频率 C 、 必然事件 D 、 随机事件 4、受极端值影响最大的平均指标是( )。 A 、 算术平均数 B 、调和平均数 C 、 几何平均数 D 、中位数M e 5、在一定条件下可能出现也可能不出现的现象称为( )。 A、不可能事件, B、小概率事件。 C、必然事件。 D、随机事件。 6、任何事件(包括必然事件、不可能事件、随机事件)的概率都在( )。 A、-1与+1之间。B、0与1之间(包括0、1)。 C、-1与0之间。 D、+1与-1之间。 7、应用标准差表示样本的变异程度比用全距要好得多,?因它考虑了每个数据与( )。 A、中数的离差。 B、众数的离差。 C、平均数的离差。 D、中位数的离差。 8、正态分布密度曲线向左、向右无限延伸,以 ( )。 A、y 轴为渐近线。 B、y =a 轴为渐近线。 C、x =b 轴为渐近线。 D、x 轴为渐近线。 9、对于正态分布,标准差σ的大小决定了曲线的“胖”、“瘦”程度。若σ越小,曲线越“瘦”,变量越集中在 ( )。 A、原点0的周围取值。 B、平均数μ的周围 取值。 C、x 的周围取值。 D、y 的周围取值。 10、已知x ~N(μ,σ2 ),若对x 作下列之一种变换( ),则就服从标准正态分布。 A、a=(f+μ)/σ。 B、b=(μ-x)/σ。 C、t=(x-μ)/σ2 。 D、u=(x-μ)/σ。 11、若随机变量X 服从y 正态分布记为X ~N (25,4),其标准差为( ) A 、 25 B 、 4 C 、 不确定 D 、 2 12、平均数抽样误差的大小,用( )的大小来衡量。 A 、标准差S B 、标准差σ C 、方差σ2 D 、标准误x S A x H x G x

生物统计学考试总结(第1至7章)

生物统计学考试总结 第一章 生物统计学:是数理统计在生物学研究中的应用,它是应用数理统计的原理和方法来分析和解释生物界各种现象和试验调查资料的一门学科,属于应用统计学的一个分支。 内容:试验设计:试验设计的基本原则、试验设计方案的制定和常用试验设计的方法 统计分析:数据资料的搜集、整理和特征数的计算、统计推断、方差分析、回归和相 关分析、协方差分析等 生物统计学的作用: 1. 提供整理、描述数据资料的科学方法并确定其特征 2. 判断试验结果的可靠性 3. 提供由样本推断总体的方法 4. 试验设计的原则 相关概念:1.总体:研究对象的全体,是具有相同性质的个体所组成的集合 2.个体:组成总体的基本单元 3.样本:由总体中抽出的若干个体所构成的集合 n >30 大样本; n <30 小样本 4.参数:描述总体特征的数量 5.统计数:描述样本特征的数量 由于总体一般很大,有时候甚至不可能取得,所以总体参数一般不可能计算出来,而采用样本统计数来估计总体的参数 6..效应:由因素而引起试验差异的作用 7. 互作:两个或两个以上处理因素间的相互作用产生的效应 生物统计学的研究包括了两个过程: 1. 从总体抽取样本的过程——抽样过程 2. 从样本的统计数到总体参数的过程——统计推断过程 第二章 1.算术平均数:是所有观察值的和除以观察的个数 平均数(A VERAGE ) 特性:(1)样本中各观测值与平均数之差-离均差-的总和等于零 (2)样本中各观测值与其平均数之差平方的总和,比各观测值与任一数值离均差的平 方和小,即离均差平方和最小 2.中位数 :将试验或调查资料中所有观测依从大小顺序排列,居于中间位置的观测值称为 以外的任何数值为设x a

统计学(五):几种常见的假设检验

定义 假设检验是用来判断样本与样本,样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。其基本原理是先对总体的特征作出某种假设,然后通过抽样研究的统计推理,对此假设应该被拒绝还是接受作出推断。 基本原理 (1)先假设总体某项假设成立,计算其会导致什么结果产生。若导致不合理现象产生,则拒绝原先的假设。若并不导致不合理的现象产生,则不能拒绝原先假设,从而接受原先假设。 (2)它又不同于一般的反证法。所谓不合理现象产生,并非指形式逻辑上的绝对矛盾,而是基于小概率原理:概率很小的事件在一次试验中几乎是不可能发生的,若发生了,就是不合理的。至于怎样才算是“小概率”呢?通常可将概率不超过0.05的事件称为“小概率事件”,也可视具体情形而取0.1或0.01等。在假设检验中常记这个概率为α,称为显著性水平。而把原先设定的假设成为原假设,记作H0。把与H0相反的假设称为备择假设,它是原假设被拒绝时而应接受的假设,记作H1。 假设的形式 H0——原假设,H1——备择假设 双侧检验:H0:μ = μ0, 单侧检验:,H1:μ < μ0 或,H1:μ > μ0假设检验就是根据样本观察结果对原假设(H0)进行检验,接受H0,就否定H1;拒绝H0,就接受H1。 假设检验的种类 下面介绍几种常见的假设检验 1.T检验 亦称student t检验(Student's t test),主要用于样本含量较小(例如n<30),总体标准差σ未知的正态分布资料。 目的:比较样本均数所代表的未知总体均数μ和已知总体均数μ0。 计算公式:统计量: 自由度:v=n - 1 适用条件: (1) 已知一个总体均数; (2) 可得到一个样本均数及该样本标准误; (3) 样本来自正态或近似正态总体。 T检验的步骤 1、建立虚无假设H0:μ1= μ2,即先假定两个总体平均数之间没有显著差异; 2、计算统计量T值,对于不同类型的问题选用不同的统计量计算方法;

医学统计学:假设检验

假设检验

一、假设检验的一般原理 【例1】某妇产科医师测量瑶族妇女50例,得到骨盆入口前后径的均数为12.0cm,标准差为0.9cm;测量侗族妇女50例,得到骨盆入口前后径的均数为11.4cm,标准差为1.2cm。从中能有什么启示。 首先一个问题:能否认为瑶族妇女骨盆入口前后径大于侗族妇女? 其次一个问题:如果不能认为瑶族妇女骨盆入口前后径大于侗族妇女,那么怎么解释? 这在医学上是非常常见的问题。在抽样研究中,遇到两个(这是最简单的形式,多个的问题将在后面介绍)样本指标不同,我们决不可冒然下结论,因为可能存在抽样误差的影响问题。具体地说:瑶族妇女与侗族妇女的骨盆入口前后径不同,有两个可能性,一是种族差异的问题,即因为种族差异导致瑶族妇女骨盆入口前后径大于侗族妇女,这是真实差异;另一是瑶族妇女骨盆入口前后径与侗族妇女完全一致,这里所出现的差异,是抽样导致的,即恰好在瑶族妇女中抽到一些骨盆入口前后径较大的人,在侗族妇女中抽到一些骨盆入口前后径较小的人,于是出现了这一结果,这纯粹是抽样引起的误差。 到底哪一个可能性大呢,需要进行统计推断,即进行假设检验(经常也被称为“显著性检验”)。如果检验结果表明抽样误差的可能性大,则认为瑶族妇女骨盆入口前后径与侗族妇女一致;如果检验结果表明抽样误差的可能性小,则认为瑶族妇女骨盆入口前后径与侗族妇女不一样。 归纳一下:

真实差异大差别有统计学意义总体不同样本信息的差异可能性 抽样误差大差别无统计学意义总体相同 二、假设检验的基本步骤 首先界定一下用词:假定说有两种人,就说是两个种群的人(就是两个总体)。如果说有两组人,就说是分别从两种人(两个总体)中抽样得到的两个样本。 好,开始假设检验的具体步骤。 1、建立假设: 两组人的差别由抽样误差导致,于是认为两种人是一致的。 显然这个假设的反面是:两组人的差别不是抽样误差导致,两种人实际上不一样。 2、求统计量: 按照公式计算(详见后述)。 3、判断: 比较情况P值情况判断结果 统计量≤界值P≥0.05 差别无统计学意义 统计量>界值P<0.05 差别有统计学意义 4、结论: 如果两组人的差别无统计学意义,则认为差别是抽样误差导致的,不是真实的差别,于是认为两种人相同(既然相同,就是一种人了)。如果两组人的差别有统计学意义,则认为差别不是抽样误差导致的,而是因为不同种的人本身就存在这样差别,于是认为两种人不同(既然不同,就肯定是两种人了)。 三、假设检验需要注意的问题 (一)假设检验的前提 假设检验的一个重要前提是抽样研究要严格遵循样本具有代表性的原则,即保证样本具有代表性的正确方法是:随机抽样、足够的样本含量。千万不要以为抽样误差可以估计,则怎么抽样都可以,因为抽样误差可以估计是在抽样遵循样本具有代表性这一基础上得到的。这就说明研究的设计非常重要,应当严格遵守科学、严谨的基本

统计学假设检验习题

一、单选 1、如果检验的假设为0010:,:H H μμμμ≥<,则拒绝域为( ) A 、 z z α> B 、z z α<- C 、A 或B D 、/2z z α<- 二、多选 1.下列关于假设检验的陈述正确的是( )。 A 、假设检验实质上是对原假设进行检验 B 、假设检验实质上是对备选假设进行检验 C 、当拒绝原假设时,只能认为肯定它的根据尚不充分,而不是认为它绝 对错误 D 、假设检验并不是根据样本结果简单地或直接地判断原假设和备选假设 哪一个更有可能正确 E 、当接受原假设时,只能认为否定它的根据尚不充分,而不是认为它绝 对正确 2、在假设检验中, α与β的关系是( ) 。 A 、在其它条件不变的情况下,增大α,必然会减少β B 、α和β不可能同时减少 C 、在其它条件不变的情况下,增大α,必然会增大β D 、只能控制α不能控制β E 、增加样本容量可以同时减少α和β 3、设总体为正态总体,总体方差未知,在小样本条件下,对总体均值进行如下的假设检验: 01000:);(:μμμμμ≠=H H 为一已知数,1.0=α,则下列说法正确的有 ( ) 。 A 、),(1.0Z --∞和),(1.0+∞Z 为原假设的拒绝区域 B 、),(05.0Z --∞和),(05.0+∞Z 为原假设的拒绝区域 C 、),(1.0t --∞和),(1.0+∞t 为原假设的拒绝区域 D 、),(05.0t --∞和),(05.0+∞t 为原假设的拒绝区域

E 、若检验统计量的绝对值越大,则原假设越容易被拒绝 4.某一批原材料的质量实际上是不符合生产标准,检验部门抽取1%的原材料检验,得出结论是该批原材料的质量符合生产标准,说明( ). A 、检验部门犯了第一类错误 B 、检验部门犯了第二类错误 C 、犯这种错误的概率是α D 、犯这种错误的概率是β E 、犯这种错误的原因是检验部门没有遵循随机原则 三、判断 1.假设检验是一种科学的统计决策方法,因此使用它不会犯错误.( ) 四、简答 1.简述参数估计和假设检验的联系和区别. 五、计算 1、从某批食品中随机抽取12袋,测定其蛋白质的含量(%),测定结果如下: 24,26,27,23,20,28,23,24,27,25,26,23 假定该食品每袋蛋白质的含量X 服从正态分布),(2 σμN ,包装袋上表明蛋白质的含量为26%。 (1)问该批食品是否存在质量问题(显著水平为0.05)? (6分) (2) 你的判断结果可能会发生哪一类错误?说明该错误的实际含义。(3分)

第八章记数据统计法—卡方检验法

第八章记数数据统计法—卡方检验法 知识引入 在各个研究领域中,有些研究问题只能划分为不同性质的类别,各类别没有量的联系。例如,性别分男女,职业分为公务员、教师、工人、……,教师职称又分为教授、副教授、……。有时虽有量的关系,因研究需要将其按一定的标准分为不同的类别,例如,学习成绩、能力水平、态度等都是连续数据,只是研究者依一定标准将其划分为优良中差,喜欢与不喜欢等少数几个等级。对这些非连续等距性数据,要判别这些分类间的差异或者多个变量间的相关性方法称为计数数据统计方法。 卡方检验是专用于解决计数数据统计分析的假设检验法。本章主要介绍卡方检验的两个应用:拟合性检验和独立性检验。拟合性检验是用于分析实际次数与理论次数是否相同,适用于单个因素分类的计数数据。独立性检验用于分析各有多项分类的两个或两个以上的因素之间是否有关联或是否独立的问题。 在计数数据进行统计分析时要特别注意取样的代表性。我们知道,统计分析就是依据样本所提供的信息,正确推论总体的情况。在这一过程中,最根本的一环是确保样本的代表性及对实验的良好控制。在心理与教育研究中,所搜集到的有些数据属于定性资料,它们常常是通过调查、访问或问卷获得,除了少数实验可以事先计划外,大部分收集数据的过程是难于控制的。例如,某研究者关于某项教育措施的问卷调查,由于有一部分教师和学生对该项措施存有意见,或对问卷本身有偏见,根本就不填写问卷。这样该研究所能收回的问卷只能代表一部分观点,所以它是一个有偏样本,若据此对总体进行推论,就会产生一定的偏差,势必不能真实地反映出教师与学生对这项教育措施的意见。因此应用计数资料进行统计推断时,要特别小心谨慎,防止样本的偏倚性,只有具有代表性的样本才能作出正确的推论。 第一节卡方拟合性检验 一、卡方检验的一般问题 卡方检验应用于计数数据的分析,对于总体的分布不作任何假设,因此它又是非参数检验法中的一种。它由统计学家皮尔逊推导。理论证明,实际观察次数(f o)与理论次数(f e),又称期望次数)之差的平方再除以理论次数所得的统计量,近似服从卡方分布,可表示为: 这是卡方检验的原始公式,其中当f e越大(f e≥5),近似得越好。显然f o与f e相差越大,卡方值就越大;f o与f e相差越小,卡方值就越小;因此它能够用来表示f o与f e相差的程度。根据这个公式,可认为卡方检验的一般问题是要检验名义型变量的实际观测次数和理论次数分布之间是否存在显著差异。它主要应用于两种情况: 卡方检验能检验单个多项分类名义型变量各分类间的实际观测次数与理论次数之间是否一致的问题,这里的观测次数是根据样本数据得多的实计数,理论次数则是根据理论或经验得到的期望次数。这一类检验称为拟合性检验。

医学统计学简答题

医学统计学简答题 1.简述标准差、标准误的区别与联系? 区别:(1)含义不同:标准差S表示观察值的变异程度,描述个体变量值(x)之间的变异度大小,S越大,变量值(x)越分散;反之变量值越集中,均数的代表性越强。标准误..估计均数的抽样误差的大小,是描述样本均数之间的变异度大小,标准误越大,样本均数与总体均数间差异越大,抽样误差越大;反之,样本均数越接近总体均数,抽样误差越小。 (2)与n的关系不同: n增大时,S趋于σ(恒定),标准误减少并趋于0(不存在抽样误差)。 (3)用途不同:标准差表示x的变异度大小、计算变异系数、确定医学参考值范围、计算标准误等,标准误用于估计总体均数可信区间和假设检验。 联系:二者均为变异度指标,样本均数的标准差即为标准误,标准差与标准误成正比。 2.简述假设检验的基本步骤。 1.建立假设,确定检验水准。 2.选择适当的假设检验方法,计算相应的检验统计量。 3.确定P值,下结论 3.正态分布的特点和应用: 特点:1、集中性:正态曲线的高峰位于正中央,即均数所在的位置; 2、对称性:正态分布曲线位于直角坐标系上方,以x=u为中心,左右对称,曲线两端永远不与横轴相交; 3、均匀变动性:正态曲线由均数所在处开始,分别向左右两侧逐渐均匀下降; 4、正态分布有两个参数,即均数μ和标准差σ,可记作N(μ,σ):均数μ决定正态曲线的中心位置;标准差σ决定正态曲线的陡峭或扁平程度。σ越小,曲线越陡峭;σ越大,曲线越扁平; 5、u变换:为了便于描述和应用,常将正态变量作数据转换; 应用: 1.估计医学参考值范围 2.质量控制 3.正态分布是许多统

计方法的理论基础 4.简述参考值范围与均数的可信区间的区别和联系 可信区间与参考值范围的意义、计算公式和用途均不同。 1.从意义来看95%参考值范围是指同质总体内包括95%个体值的估计范围,而总体均数95%可信区间是指95%可信度估计的总体均数的所在范围 2.从计算公式看若指标服从正态分布,95%参考值范围的公式是:±1.96s。总体均数95%可信区间的公式是:前者用标准差,后者用标准误。前者用1.96,后者用α为0.05,自由度为v的t界值。 5.频数表的用途和基本步骤。 用途:(1)揭示资料的分布特征和分布类型;(2)便于进一步计算指标和分析处理;(3)便于发现某些特大或特小可疑值。 基本步骤:(1)求出极差;(2)确定组段,一般设8~15个组段;(3)确定组距;组距=R/组段数,但一般取一方便计算的数字;(4)列出各个组段并确定每一组段频数。 6.非参数统计检验的适用条件。 (1)资料不符合参数统计法的应用条件(总体为正态分布、且方差相等)或总体分布类型未知;(2)等级资料;(3)分布呈明显偏态又无适当的变量转换方法使之满足参数统计条件;(4)在资料满足参数检验的要求时,应首选参数法,以免降低检验效能 7.线性回归的主要用途。 1.研究因素间的依存关系,自变量和应变量之间是否存在线性关系,即研究一个或多个自变量对应变量的作用,或者应变量依赖自变量变化而变化的规律。 2.利用直线回归方程可进行预测估计。 3.用容易测量的指标估计不易测量的指标。 4.获得精确度更高的医学参考值范围。 8.简述检验假设与可信区间的联系与区别。 (1)可信区间用于推断总体参数所在的范围,假设检验用于推断总体参数是否不同。前者估计总体参数的大小,后者推断总体参数有无质的不同。(2)可信区间也可回答假设检验的问题。但可信区间不能提供确切的P值范围,只能给出在α水准上有无统计意义。(3)可信区间还可提示差别有无实际意义。

相关主题
文本预览
相关文档 最新文档