当前位置:文档之家› 研究生医学统计学考点总结

研究生医学统计学考点总结

研究生医学统计学考点总结
研究生医学统计学考点总结

医学统计学

基本概念:

1.医学统计学Statistics:医学统计学是以医学理论为指导,应用概率论与数理统计的有关原理和方法,研究医学资料的搜集、整理、分析和推断的一门科学。

2.同质和异质:具有相同性质的事物称为同质(homogeneous)。否则称为异质的或者间杂的(heterogeneous)。不同质的个体不能笼统地混在一起分析,同质和异质是相对的概念。

3.变异:同质事物之间的差别称为变异(variation),亦称个体变异。变异的两个方面:

个体与个体间的差别

同一个体重复测量值间的差别

结果是随机的,不可预测的;

一种或多种不可控因素(已知的或未知的)作用下的综合表现;

个体变异是普遍存在的;

个体变异是有规律的;

没有个体变异,就没有统计学。

4.总体和样本:

总体(population):根据研究目的所确定的同质观察单位的全体;分为有限总体和无限总体。

个体(individual):是构成总体的最基本观察单位。

样本(sample):是从总体中按照一定的目的随机抽取的一部分具有代表性的个体集合。

样本含量(sample size):样本中包含的个体个数。

5.参数和统计量:

?总体参数(parameter):描述某总体特征的指标,简称参数,一般用希腊字母表示,如:μ、σ、π 。

?统计量(statistic):描述某样本特征的指标,一般用拉丁字母表示,如:、

X

s、p 。

?在总体被确定之后,总体参数就是一个常数,是不会变化的,不管你是否确切知其大小;而统计量是几乎总是随着样本而变的。

6.随机(random):是指机会均等,目的是保证样本对总体的代表性、可靠性。

7.概率和频率:

频率( relative frequency ):在n次随机试验中,事件A发生了m次,则比值m/n 称为事件A在这n次试验中出现的频率。

概率(probability):是随机事件发生可能性大小的一个度量,是一种参数,常用P表示,0≤P ≤1。

8.小概率事件和小概率原理:

小概率事件:医学研究中,将概率小于等于或的事件称为小概率事件。

小概率原理:小概率事件并不表示不可能发生,但在某一次试验中,是不会发生的。

9.变量的分类:

?按照取值的特性:

?数值变量numerical Variable 定量变量:既有顺序的意义,又有间

隔的意义,可以认为是连续的;往往有单位;取值间的差异是可以

度量的。

?分类变量categorical Variable 定性变量:取值是是分散、定性的,

表现为互不相容的类别和属性。

?无序分类unordered categorics: 无顺序,无间隔,仅有分类

–二项分类

–多项分类

?有序分类ordered

categorics 等级变量:仅有

顺序,无单位;取值间的

差异是不可度量的

?不同分类的互相转化

?数值变量→无序分类变量

?数值变量→有序分类变量

?有序分类变量→无序分类变量

信息量只有减少,不可增加

统计描述指标,呈现方式可分为两种

统计图:直观,但精确度稍差

统计报表:能尽量详细,精确,但不够直观

统计推断:从样本信息外推到总体,以最终获得对所感兴趣问题的解答参数估计:样本→所在总体特征

假设检验:该指标可能的影响因素分析

频数分布

1.频数表编制步骤

求极差:R=X max-X min

选定适当的组段数后估计组距:组段数的选取以能反映资料的分布特征为宜,一般取8 ~ 12组

列出组段:组段的含义:包括组段的下限而不含组段的上限。如:~ 等价于[,。划记归组获得频数

求频率,完成频数表:相应的频数除以总数即为频率,各组段的频率总和为1或者100%。

2.频数分布所提供的信息

?频数分布图用以表示数据的分布规律。

?观察有无可疑值。

?考察分布的类型。

?对称分布

?非对称分布(偏态分布)

?左偏态(负偏态) :指分布的长尾在峰的左侧。

?右偏态(正偏态) :指分布的长尾在峰的右侧。

? 考察分布的特征

? 集中位置 (Central Tendency):描述指标有平均数(算术均数(Mean)、几何均数(Geometric Mean) 、中位数(Median)、百分位数(Percentile) )。

? 离散趋势 (Tendency of Dispersion):描述指标有极差(Range)、四分位数间距(interquartile range) 、方差(Variance) 、标准差(Standard Deviation) 、变异系数( coefficient of variation ) 。

3.平均数应用的注意事项:

? 同质的资料计算平均数才有意义。 ? 均数适用于:单峰对称分布的资料。

? 几何均数适用于:对数变换后单峰对称的资料。等比资料、滴度资料、对数正态分布资料。计算几何均数时:

? 变量值中不能有0

? 同一组变量值不能同时存在正、负值,若变量值全为负值,可先将负号除去,算出结果后再冠以负号

? 中位数:理论上可用于任何分布资料,常用于描述偏态资料,开口资料,有不确定值的资料的集中位置。但当资料适合计算均数或几何均数时,不宜用中位数。

中位数和百分位数在样本含量较少时不稳定,越靠两端越不稳定; 中位数在抗极端值的影响方面,比均数具有较好的稳定性,但不如均数精确。

不同质的资料应考虑分别计算平均数。

? 百分位数:样本含量较少时不宜计算靠近两端的百分位数。 ? 平均数要与变异指标结合使用。

4.变异度指标:

四分位数间距(inter-quartile range):Q U - Q L = P 75 - P 25,即中间一半观察

值的极差。 方差及标准差:

变异系数(coefficient of variation, CV):

为标准差和均数的比值,排除了平均水平的影响,并取消了单位。因此变异系

数常用于: ? 比较度量衡单位不同的两组或多组资料的变异度

? 比较均数相差悬殊的两组或多组资料的变异度

5.变异度的正确应用:

? 极差不稳定,不灵敏

? 标准差的基本内容是离均差,它显示一组变量值与其均数的间距,故标准差直接地、总结地、平均地描述了变量值的离散程度。 ? 在同质的前提下,标准差大表示变量值的离散程度大,即变量值的分布分散、不整齐、波动较大;反之,标准差小表示变量值的离散程度小,即变

()22X N μσ-=∑()221X X s n -=-∑()N X ∑-=2

μσ()21X X s n --∑100%s CV X =?

量值的分布集中、整齐、波动较小。

?变异系数派生于标准差,其应用价值在于排除了平均水平的影响,并消除了单位。

6.总结:

?每个观察指标均有其特定的变异规律;

?描述变异:

?图形描述

?统计量描述

?平均数:均数、几何均数、中位数和百分位数

?变异度:极差、方差、标准差、四分位数间距、变异系数

?不同分布的指标,用不同的统计量描述;

?用平均数与变异度共同描述。

正态分布

1.公式:如果随机变量X的概率密度函数为(-∞<X<+∞)

则称X服从正态分布,记作X~N(μ,σ2),其中,μ为分布的均数,σ为分布的标准差。μ为总体均数,σ为总体标准差。

π为圆周率,e为自然对数的底,X为变量,代表横轴的数值,f(X)为纵轴数值。

2.正态分布的特征(重要):

?单峰分布;高峰在均数处;

?以均数为中心,均数两侧完全对称。

?正态分布有两个参数(parameter),即位置参数(均数)和变异度参数(标准差)。

?有些指标本身不服从正态分布,但经过变换之后可以服从正态分布。

?正态曲线下的面积分布有一定的规律。

X轴与正态曲线所夹面积恒等于1 ,对称区域面积相等。

μσ~μ+σ内面积为90%;

μσ~μ+σ内面积为95%;

μσ~μ+σ内面积为99%。

正态分布曲线下的面积与标准正态分布曲线下的面积对应(以标准正态离差为单位)。

3.标准正态分布:

X

f X

2

2

()

2

()

2

μ

σ

σπ

-

-

=

标准正态分布(standard normal distribution)是均数为0,标准差为1的正态分布。记为N(0,1)。标准正态分布是一条曲线。

概率密度函数为:(-∞<u<+∞)

正态分布转换为标准正态分布:若X~N(μ,σ2),作变换:

则u服从标准正态分布,u称为标准正态离差(standard normal deviation)

4.正态分布的应用:估计频数分布、质量控制、确定临床参考值范围

参考值范围:

1.参考值范围(reference interval):是绝大多数正常人的某观察指标所在的范围,绝大多数:90%,95%,99%等等。确定参考值范围的意义:用于判断正常与异常。

“正常人”的定义:排除了影响所研究的指标的疾病和有关因素的同质的人群。2.参考值范围确定的原则:

?选定足够例数的同质的正常人作为研究对象:例数过少,代表性差;例数过多增加成本,且易导致正常标准把握不严,影响数据的可靠性?控制检测误差

?判断是否分组(性别,年龄组)

?单、双侧问题(one sided or two sided)

?选择百分界值(90%,95%)

?确定可疑范围

3.参考值范围的估计方法:正态分布法、百分位数法

抽样误差

1.概念:由于个体变异的存在,在抽样研究中产生样本统计量和总体参数之间的差异,称为抽样误差(sampling error)。

抽样误差的表现:样本均数和总体均数间的差别、样本均数和样本均数间的差别。

2.中心极限定理(central limit theorem):

?从均数为μ,标准差为σ的正态总体中随机抽样,样本均数服从均数为μ,标准差为的正态分布。

?从均数为μ,标准差为σ的任意总体中随机抽样,当样本含量足够大时,样本均数近似服从均数为μ,标准差为的正态分布。

3. 标准误(standard error):用样本统计量的标准差来反映抽样误差的大小,又称标准误。

其中,σ为总体标准差,n为抽样的样本例数

22

()

2

u

u e

?

π

-

=

σ

μ

-

=

X

u

n

n

X n

σ=

X

s

n

=

在研究工作时,由于总体标准差常常未知,可以利用样本标准差近似估计 4.标准误的意义:

? 反映了样本统计量(样本均数,样本率)分布的离散程度,体现了抽样误差的大小。

? 标准误越大,说明样本统计量(样本均数,样本率)的离散程度越大,即用样本统计量来直接估计总体参数越不可靠。 ? 标准误的大小与标准差有关,在例数n 一定时,从标准差大的总体中抽样,标准误较大;而当总体一定时,样本例数越多,标准误越小。说明我们可以通过增加样本含量来减少抽样误差的大小。

t 分布

1.根据中心极限定理的内容,当样本含量足够大时,对从均数为μ,标准差为σ

2.由于总体标准差往往是未知的,此时往往用样本标准差代替总体标准差:

这里,ν为自由度,取值为n -1

3. t 分布的性质:

? t 分布为一簇单峰分布曲线,高峰在0的位置上,说明从正态总体中随机抽样所得样本计算出的t 值接近0的可能性较大。 ? t 分布以0为中心,左右对称。

? 分布的高峰位置比 u 分布低,尾部高。

? t 分布与自由度ν有关,自由度越小,t 分布的峰越低,而两侧尾部翘得越高;自由度逐渐增大时,t 分布逐渐逼近标准正态分布;当自由度为无穷大时,t 分布就是标准正态分布。

? 每一自由度下的t 分布曲线都有其自身分布规律。t 界值表 。

可信区间

1. 统计推断(statistical inference):是指如何抽样,以及如何用样本性质推断总体特征,分为参数估计(parameter estimation)、假设检验(hypothesis testing)。

2.参数估计:

点估计(Point Estimation):用样本统计量作为总体参数的估计。 区间估计 (Interval Estimation):

3.可信区间定义:按一定的概率或可信度(1-α)用一个区间来估计总体参数所在的范围,该范围通常称为参数的可信区间或者置信区间(confidence interval ,CI),预先给定的概率(1-α)称为可信度或者置信度(confidence level),常取95%或99%。 可信区间(C L , C U )是一开区间 C L 、C U 称为可信限。

4.可信区间的计算:

样本含量较小时 (n ≤100):下限: 上限: 样本含量较大时 (n >100):下限: 上限: ~(0,1)

X N n σ~X t t s n ν

=,X X t s αν-,X

X t s αν+X X u s α-X

X u s α+

5.均数之差可信区间的计算:

均数之差”与“均数之差的标准误”之比,服从自由度ν = n 1+n 2 -2的 t 分布。

样本含量较大时,服从标准正态分布。 合并方差: 均数之差的标准误:

6.可信区间的两个要素:

? 可信度(Confidence):准确性,可靠性,即1-α。一般取90%,95%,可人为控制。

? 精确性(Precision):区间的大小,越小越好。 ? 必须二者兼顾 7.可信区间的宽度:

? 可信度越大,可信区间越宽,说明用该区间来估计总体参数(总体均数)越可靠。

? 标准差越小,可信区间就越窄,意味着如果总体内变异程度较小时,在相同的可信度下,只需要一个比较窄的可信区间就可以估计总体均数。 ? 随着样本含量的增加,可信区间逐渐变窄。 8.正确理解可信区间:

? 可信度为95%的CI 的涵义:每100个样本,按同样方法计算95%的CI ,平均有95%的CI 包含了总体参数。

? 这里的95%,指的是方法本身!而不是某个区间!

? 总体参数虽未知,但却是固定的值,而不是随机变量值 。

假设检验

1.假设检验的目的:基本目的就是分辨两个样本是否属一个总体或两个不同的总体,并对总体作出适当的结论。

2.假设检验的一般步骤:

步骤1:建立假设,在假设的前提下有规律可寻

? 零假设(null hypothesis),记为H 0 ,表示目前的差异是由于抽样误差引起的。 ? 备择假设(alternative hypothesis),记为H 1 ,表示目前的差异是主要由于本质上的差别引起。

步骤2:确立检验水准α(significance level) ,用于确定何时拒绝H 0 ,一般取。 步骤3:计算检验统计量和 P 值

计算检验统计量,即计算样本与所假设总体的偏离;样本均数与总体

均数μ0 间的差别可以用统计量 t 来表示

统计量 t 表示,在标准误的尺度下,样本均数与总体均数 μ0 的偏离。这种偏离称为标准 t 离差(standard t deviation)。 根据抽样误差理论,在H 0的假设前提下,统计量 t 服从自由度为 n -1

1

2

1

2

12

2

~ n n X X X X t t s +---=12

12

~ (0,1)

X X

X X t N s --=22

2112212(1)(1)2C n s n s s n n -+-=+-12

21211()C X X s s n n -=+n s X t 0

μ-=

的 t 分布,即 t 值在0的附近的可能性大,远离0的可能性小,离0越远可能性越小。

步骤5:界定P 值并作结论

3.假设检验应用的注意事项: 型错误和II 型错误:

第一类错误(Type I Error ):拒绝了实际上是成立的H 0; 第二类错误(Type II Error ):不拒绝实际上是不成立的H 0。 B.检验水准的选择:

检验水准有单双侧之分。选择要有专业背景。 检验水准大小的选择要慎重。

选择要在计算检验统计量之前。 C.双侧检验与单侧检验: 在相同的检验水准下,正确地选择单侧检验将比双侧检验得到更多的检验效能。 和α的涵义:

P 值意义:从 H 0 总体中随机获得等于或大于现有统计量值的概率。拒绝H 0时所冒的风险。

α的意义:犯第一类错误的概率;在假设检验之前人为规定;说明拒绝H0所冒的风险不可超过α。 E.正确对待统计结论和专业结论

专业上有差别,假设检验拒绝H 0:结果有效,可以下专业结论; 专业上无差别,假设检验不拒绝H 0:下无差别的结论;

专业上有差别,假设检验不拒绝H 0:增大样本含量,减少二类误差; 专业上无差别,假设检验拒绝H 0:改进试验,减少误差。 的意义

4.假设检验和可信区间的区别:

在相同的α之下,若假设检验拒绝H0(p<= α),那么可信度为(1- α)的可信区间必然不包括总体参数;反之成立。

可信区间和假设检验是对同一问题所作的不同结论,效果等价。

t 检验

1.成组设计计量资料比较的t 检验:

合并方差(方差的加权平均):

均数之差的标准误: 自由度ν = n 1+n 2 -2

2.两组资料比较的 u 检验:

当随机抽样的样本例数足够大时,t 检验统计量的自由度逐渐增大,t 分布逐渐逼近于标准正态分布,可以利用近似正态分布的原理进行u 检验。

1

2

12X X X X t s --=22

2112212(1)(1)2C n s n s s n n -+-=

+-12

212

11()C X X s s n n -=+22A B A B

X X X X X X u s s n s n ---==

+

3.配对计量资料的 t 检验:

配对 t 检验的实质就是检验样本差值的总体均数是否为0。

4.均数的假设检验应用条件: 独立性、正态性、方差齐性

与应用条件有关的一些内容:正态性检验、方差齐性检验、方差不齐时的近似 t 检验、大样本时,均数比较的 u 检验 5.两个方差的齐性检验:

Levene 法:从同一总体随机抽取的样本之两方差,其方差比(大方差/小方差)

的分布服从 F 分布: 6.方差不齐时两样本均数比较的近似 t 检验: 7.大样本时均数比较的 u 检验:

? 单样本u 检验

? 两样本u 检验

方差分析(ANOVA)Analysis of Variance

t 检验的局限性—单因素两水平 1.因素和水平:

? 因素(factors):将试验对象随机分为若干个组,加以不同的干预,称为处理因素。方差分析中所要检验的对象。

? 在相同的因素下的不同干预,称为不同的水平(level)。方差分析中因素的不同表现。

2.假如每次t 检验犯第一类错误的概率是,那么要完全地进行比较,犯第一类错误的概率是1-(1-α)k 。此为多组间不能进行t 检验的原因。

3.单因素方差分析:研究的是一个处理因素的不同水平间效应的差别。

4.完全随机设计资料的方差分析:

完全随机设计是医学科研中最为常用的一种实验设计方法,它是将受试者随机地分配到各实验组(可包括对照组)中,进行实验并观察实验效应。该设计适用面广,可用于两组或多组实验研究,且各组的样本含量可不相等。

1

2

2

1(,,)2

2()() ~ s F F

s ανν=大小12

22

12

12

X X t s s n n -'=+0 ~ (0,1) X u N s

n

μ-=12

2212

12

~ (0,1)

X X u N s s n n =+()()()222

ij i i ij i i j i i j

X X n X X X X -=-+-∑∑∑∑∑

证明:

5.随机区组(配伍组)设计的方差分析(两因素多个样本均数的比较):

概念:随机区组设计又称配伍组设计,是配对设计的扩展,也可看作1:X 的配对设计。它是将几个条件相同的受试者划为一个区组(block)或配伍组,然后再按随机的原则,将同一区组的受试者随机分配到各实验组中。 实质:两因素方差分析。

变异分解,N 为总样本含量,k 为水平数,n 为区组数;

6.多个样本均数的两两比较:

又叫多重比较,Multiple Comparison;分类:

事先计划好的多个试验组与一个对照组之间的比较,多个组与一个特定组间的比较或者特定组间的比较;(Planned Multiple Comparison )

方差分析得到有差别的结论后多个组之间的相互比较的探索性研究(Post Hoc );

? Student-Newman-Keuls 法(SNK 法)

? LSD 法

()()

()()

()()

()

()

()

2

2

2

2

2

2

2??-=-+-??

=-+-+---=+-∑∑∑∑∑∑∑∑∑∑∑∑ij

ij

i i i

j

i

j ij i

i

i

j

i

i i i

ij i

i i i

j

i

i

ij j

X X

X

X

X X X X X X

X n X X X X X X n X ()()1SS k MS SS F MS SS SS n k νν-===-组间组间组间组间组内组内组内组内1

2

(,)~Between Within MS F F MS νν=()()()21

2

1

2

1,,,k n

ij i j k n i

i j k n j i j SS X X N SS X X k SS X X n SS SS SS SS ννννννν===---=++=++∑∑∑∑∑∑总总=1处理处理=1配伍配伍=1处理总配伍误差处理总配伍误差==-1

==-1==-1MS SS F MS SS MS SS F MS SS νννν====处理处理处理

处理误差误差误差配伍配伍配伍

配伍误差误差误差

? Dunnet 法:

7.两两比较的注意事项:

? 对于方差分析后的两两比较均应以方差分析拒绝相应的H 0为前提,且结论均不应与方差分析的结论相悖; ? 出现模糊结论,下结论应该谨慎;

? 方差分析拒绝H 0,但两两比较得不出有差异的结论,因为方差分析效率高。

两种错误的说法:

X 2所来自的总体位于X 1所来自的总体和X 3所来自的总体之间; X 1和X 2来自同一总体,X 2和X 3来自同一总体。 只能说明无法判断样本2来自于何总体!

? 不能用t 检验代替方差分析,也不能用t 检验代替两两比较。

? 无论是SNK 法还是Dunnett 法,用于两组比较时,结果与t 检验等价。 8.方差分析的要求:

? 独立随机抽样(Independence);正态性(Normality);方差齐性(Homoscedascity) 9.方差齐性检验:

? 两个方差的齐性检验:Levene 法 ? 多个方差的齐性检验:Bartlett 法

10.方差分析小结: A.均数、方差的比较

? 样本均数与总体均数的比较( t 检验) ? 配对设计样本均数的比较(配对t 检验) ? 两样本均数的比较

( t 检验, u 检验, F 检验, SNK , Dunnett ) ? 多样本均数的比较( F 检验,ANOVA )

?各组间的比较(SNK 法);

?各试验组与某一对照组间的比较用(Dunnett 法)

? 两个方差的比较( F 检验) B.两个方差的比较( Bartlett 检验)

? 分析单因素多水平间的比较或多个因素对结果的影响; ? 要求数据满足正态性、独立性、方差齐性 ? 单因素方差分析 两因素方差分析 ? 两两比较 ? 变量变换

? 方差分析应用于两组资料的比较时,等价于t 检验。 11.变量变换(Variable Transformation)

? 方差齐性是一个很strong 的假设,如果不齐,就一般不能直接进行方差分析;

? 变量变换:

目的:方差齐性化,正态化,线性化

2

22

121111122,1,1,s F n n s s s νν==-=->

常用方法:对数变换、平方根变换、倒数变换、平方根反正弦变换

分类资料的统计描述statistical description for categorical data

1.常用的相对数:

作用:第一,表示事物出现的频度。第二,便于比较。

率:说明某现象发生的频率与强度

构成比:说明某一事物内部各组成部分所占比例。

比:说明A 是B的多少倍,或百分之几。

2.相对数应用的注意事项:

?计算相对数时,分母不宜太小

?对两个或多个相对数指标进行比较时,要考虑抽样误差,进行假设检验,并不能凭相对数的数值大小轻易做出结论。

?区分构成比和率

?合计率的计算不是直接求率的平均

?两合计率的比较需注意两者的内部构成是否相同

3.标准化率

标准化法就是用统一的标准对内部构成不同的各组频率进行调整和对比的方

法。

?不同的标准,所得标准化率不同;

?标准化率是相对的,其作用仅在于比较,而不表示实际水平;

?标准化率不代表总率,也不能完全代替分组比较。

二项分布及其应用Binomial distribution and its application:

1.概率分布:随机变量的概率分布:离散分布和连续分布,依赖于相应的随机变

量是离散的还是连续的。

2.概念:令x为n次试验中的二项随机变量,成功的概率P(成功)=p,则x的取

值为0,l,2,…,n,其联合概率分布为二项分布。

3.二项分布的概率

设事件A出现的概率为π。则在n次独立试验中,事件A恰好出现k 次的概率

为:

100%

?

(单位时间内)实际发生某现象的观察单位数

率=

(单位时间内)可能发生某现象的观察单位数

100%

?

某一组成部分的观察单位数

构成比=

同一事物各组成部分的观察单位数

4.二项分布的均数和方差

如果X ~B (n , π),则

若均数与标准差不用绝对数而用率表示时,

二项分布的累计概率:

5.二项分布的图形:

? 当π=,分布对称;当π ≠,分布呈偏态;

? 当π<时分布呈正偏态;当π>时分布呈负偏态;特别是当n 值不是很大时,π偏离愈远,分布愈偏。

? 随着n 的增大,二项分布逐渐逼近正态分布。 ? 一般地说,如果n π或n (1-π)大于5时,常可用正态近似原理处理二项分布问题。

6.二项分布的应用条件:

? ① 各观察单位只能有互相对立的一种结果,如阳性或阴性,生存或死亡等。

? ② 已知发生某一结果(如阴性)的概率π不变,其对立结果(如阳性)的概率则为1-π。

? ③ n 次试验在相同条件下进行,且各观察单位的结果互相独立。 7.二项分布的应用

? 率的抽样分布及其性质 ? 总体率的可信区间估计

? 两总体率之差π1-π2的区间估计 ? 两样本率的比较

? 样本率与总体率的比较 率的抽样分布及其性质(P37)

在n 足够大时,样本率 p 的分布近似正态分布。率的均数和方差X ~B (n , p ),

[]011110(1)(1)(1)(1) (1)(1)n n n k k n k

n n n n C n ππππππππππππ---+-=-+-++-++-+-2(1)

(1)

X X X n n n μπ

σππσππ==-=-2(1)/(1)

p p p n n

μπσππππσ==--=∑

+++==≤k k P P P X P k X P 0)

(...)1()0()()()(11)1(X P X X n X P ππ-?+-=+

p =X /n

样本率的均数: 样本率的标准差: (率的标准误) 总体率的可信区间估计

①查表法 n≤50

②正态近似法 np>5 n(1-p)>5 p±u a s p

当样本例数n 足够大,且样本率p 和(1-p )都不太小时,即np 和n (1-p )均大于5时,样本率p 的抽样分布近似正态分布.

率的 95%的CI :

两总体率之差π1-π2的区间估计

? 设p 1=r 1/n 1,p 2=r 2/n 2是两个样本率,p 1-p 2是它们的差。

? 如果 n 1p 1,n 1(1-p 1),n 1p 1,n 2(1-p 2)均大于5,则正态近似的方法可用于求总体率之差的可信区间:

两样本率的比较( n 较大时)(page73)

样本率与总体率的比较( n 较小时)

χ2检验

(1)

p p p p s n

μπ=-=( 1.96, 1.96)p p p s p s -+()

96.1)( ,96.1)(21212121p p p p s p p s p p --?+-?--222111)

1()1(21n p p n p p s p p -+

-=-12121212

0.6790.830

1.8740.0806

11

(1)(

)0.0806p p p p c c p p u s s p p n n ----=

===

-+=

一、两个率的比较 1.卡方四格表

根据检验假设H 0计算出来的数称作理论频数(theoretical frequency)T 。

2.χ2检验的基本思想:如果H 0假设成立,则实际频数与理论频数应该比较接近。差值属于随机误差,用χ2 统计量表示:

H 0成立时,实际数与理论数的差别不会很大,出现较大χ2 值概率很小。若P ≤α,则拒绝H 0;若P >α,则尚无理由拒绝它。

3.χ2检验的步骤:

(1)假设两总体率相等

H 0:两组总体存活率相同,即π1=π2; H 1:两组总体存活率不同,即π1≠π2; α=。

(2)实际数与理论数的差值服从χ2分布 (3) 查χ2分布界值表确定P 值并作出推论 4.卡方总结:

比较两个样本率所代表的总体率是否有差别,实质是考察现有的样本频数分布是否与假设下的理论频数分布间差异到底是否包含了本质上的差异。χ2 统计量代表了实际数与理论数吻合的程度。

.χ2检验相关问题 -自由度

A T -22

2()~A T T

χχ-=∑分布()()1ν=行数-列数-1

.χ2检验相关问题-四格表专用公式:

. χ2检验相关问题-χ2值的校正:

? χ2分布是连续性分布; ? 定性资料;

? 实际数过小,增加了第一类错误。

校正公式:

. χ2检验相关问题-应用条件:

? n ≥ 40,T ≥ 5,用χ2检验;

? N>40,但1 ≤ T < 5 ,用校正χ2。 ? n < 40,或T < 1,用确切概率法。

二、配对四格表资料的χ2检验 1.计算公式:

2.当20<b +c ≤40时,需要校正:

3.配对四格表资料的χ2检验步骤

H 0:两种检验方法阳性率相同 ,总体B =C ; H 1:两种检验方法阳性率不同 ,总体B ≠C 。 α=。

计算统计量并作出推论:

三、多个率比较的χ2检验

多组率或构成比比较时,由于行数或列数超出了2,我们把这样的资料称为行×列表资料。

行×列表的χ2检验统计量:

--=T

T A C

2

2)

5.0(χ)

)()()(()2/(22d b c a d c b a n

n c b d a C ++++--=

χ22

22()(()()2222

)b c b c b c b c b c b c b c χ++-

-=

+-++=+222

2

C b c b c

(b 0.5)(c 0.5)22b c b c 2(b c 1)(b c 2)χ++----=+=

+-++-

四、构成比的比较

五、总结:χ2检验的应用条件: ? 四格表的分析方法选择条件:

? n ≥ 40,T>5,用χ2;

? n ≥ 40,但1 ≤ T < 5,用校正χ2。

? n < 40,或T < 1,用Fisher 确切概率。

? 配对四格表的分析方法选择条件:

? b +c >40;

? 20

? b +c<20,二项分布直接计算概率。

? R×C 表的分析方法选择条件:

? 理论数不能小于1;

? 理论数大于等于1小于5的格子数不超过总格子数的1/5。 ? 否则用Fisher 确切概率;

? 或似然比检验(likelihood ratio test)

? 如果以上条件不能满足,可采用: ? 增加样本含量 ? 删去某行或某列

? 合理地合并部分行或列 ? Fisher 精确概率法

? 多个率或构成比比较的χ2检验,结论为拒绝H 0时,仅表示几组有差别,并非任2组之间都有差别。若要了解之,可进行多重比较:χ2表的分割或率的可信区间法.

? 对于有序的分类变量,采用卡方检验方法不能考虑数据的有序性质。为此,对于单向有序可采用秩和检验、Ridit 分析,双向有序可采用趋势检验等。

等级资料的统计分析

()∑

∑???

? ??-=-=i

C R i i i n n A n T T A 12

2

1.等级资料的特点:

既非呈连续分布的定量资料,也非仅按性质归属于独立的若干类的定性资料; 比“定量”粗,而比一般的“定性”细; 等级间既非等距,亦不能度量。 2.概念:

秩次(rank):秩统计量,是指全部观察值按某种顺序排列的位序; 秩和(rank sum):同组秩次之和。

? 秩次:在一定程度上反映了等级的高低;

? 秩和:在一定程度上反映了等级的分布 位置。 ? 对等级的分析,转化为对秩次的分析。秩和检验就是通过秩次的排列求出秩和,进行假设检验。

3.成组设计两样本比较的秩和检验:

基本思想:如果H 0 成立,即两组分布位置相同,A 组的实际秩和应接近理论秩和n 1(N+1)/2;B 组的实际秩和应接近理论秩和n 2(N+1)/2),或相差不大。

如果相差较大,超出了预定的界值,则可认为H 0不成立。

步骤:

A.检验假设:H 0 :A 、B 两组分布相同;

H 1 :A 、B 两组分布不同(相互偏离)。 α =。

B.编秩,同一等级求平均秩次。

C.求秩和并确定检验统计量T ,若两样本例数不等,以例数较少者为n 1,检验统计量为T 1。

D.确定P 值(查表法,正态近似法)和做出推断结论 正态近似法(n 1,n 2-n 1超出表的范围时)

n 1>10或n 2-n 1 >10时

相同秩次多时校正

4.配对设计样本比较的秩和检验: ? Wilcoxon 符号秩和检验

? 计算等级之差值,对差值进行编秩,按差值的绝对值从小到大编秩,差值为0则舍去,绝对值相等则取平均秩次,最后求秩和并冠以差值的符号。

? 查 T 界值表,或用近似 u 检验,计算 P 值; ? 界定 P 值,作出结论。

步骤:H 0:差值的总体中位数为0;

H 1:差值的总体中位数不为0。 α =。

当n ≤50时,查界值表

当n >50时,用u 近似 12/)1(5

.02/)1(211+-+-=N n n N n T u 2

1n n N +=c u u c /=331()()j j C t t N N =---∑24

/)12)(1(5.04/)1(++-+-=

n n n n n T u

符号秩和检验的基本思想:

?总秩和为T=N(N+1)/2

?如H0成立,则正负各半,T+ 与T-均接近N(N+1)/4。

?如果相差太大,超出了事先规定的界值,

则H0不成立。

5.秩和检验的正确应用

?主要对等级资料进行分析;

?秩和检验可用于任意分布(distribution free)的资料;

?秩和检验用于定量资料:

极度偏态资料,如L型分布,或或个别数值偏离过大而不属于过失误差者各组离散度相差悬殊,即使经过变换也难以达到方差齐性。

资料中某一端或两端含有不确定值

分布型尚未确知时可以先用秩和检验法进行分析

?兼有等级和定量性质的资料

成组设计两样本比较:

?如资料满足t 检验的条件,应该用t 检验进行分析。此时,如果对这类资料用Wilcoxon秩和检验,实际上是将观察单位的具体数值舍弃不用,只保留了秩次的信息,使检验功效降低;尤其样本含量较小时,降低更加明显。

?如资料不满足t 检验的条件,而用了t 检验,同样降低了检验效能。6.参数检验和非参数检验

?参数检验(Parametric Test):针对的是总体参数,需要原始资料的总体分布信息

?t检验,u检验,F检验

?非参数检验(Non Parametric Test,Distribution Free Test):无法获知原始总体的情况;或者,不需要对原始总体的情况进行假定;检验的对象并非总体参数。

?卡方检验

?秩和检验

?方差齐性的卡方检验属于?

?大样本含量的秩和检验属于?

相关分析Correlation Analysis

1.相关概念:

当两个数值变量之间出现如下情况:当一个变量增大,另一个也随之增大(或减少),我们称这种现象为共变,也就是有相关关系。

若两个变量同时增加或减少,变化趋势是同向的,则两变量之间的关系为正相关(positive correlation);若一个变量增加时,另一个变量减少,变化趋势是反向的,则称为负相关(negative correlation)。

直线相关(linear correlation),又称简单相关,用以描述两个呈正态分布的变

量之间的线性共变关系,常简称为相关。

用以说明具有直线关系的两个变量间相关关系的密切程度和相关方向的指标,称为相关系数(correlation coefficient ),又称为积差相关系数(coefficient of product-moment correlation ),Pearson 相关系数 。

总体相关系数用希腊字母ρ表示,而样本相关系数用r 表示,取值范围均为[-1,1]。

直线相关系数的计算:

2.相关系数的确定及假设检验步骤: (1)画散点图,判断是否有线性趋势 (2)计算样本相关系数r (3)对r 进行假设检验:

H 0:ρ=0,两变量间无直线相关的关系; H 1:ρ≠0。

(4)查表,求得P 值,作出推论

3.总体相关系数的区间估计 从相关系数ρ等于0的总体中抽样,样本相关系数的分布是对称的。但是从相关系数ρ不等于0的总体中抽样,样本相关系数的分布是偏态的。

Fisher(1921) 的z 变换,使其趋于正态分布:

z 近似服从均数为 标准差为 的正态分布。

将 r 变换为 z ;根据 z 服从正态分布,估计 z 的可信区间;再将 z 变换回 r 。

4.两个相关系数的比较 步骤:

(1)画散点图

(2)分别计算两样本r

(3)分别对两相关系数进行假设检验

H 0: ρ1=ρ2;

H 1: ρ1≠ρ2。 α =。

(4)求两者z 并计算检验统计量u ,按标准正态分布进行推论 ()()22

XY

XX YY

X X Y Y r l l X X Y Y --=--∑∑∑202

12r r t n s r n ν-==---11

11ln 2122+-=??? ??-+=z z e e r r r z [])1/()1(ln 21r r -+3/1

-n 31

-±=±n u z s u z z α

α2

1s 21z z z z u --=

3

1312121-+-=-n n s z z

医学统计知识点整理(1)

医学统计学知识点整理 第一节统计学中基本概念 一、同质与变异 同质:统计研究中,给观察单位规定一些相同的因素情况。 如儿童的生长发育,规定同性别、同年龄、健康的儿童即为同质的儿童。 变异:同质的基础上个体间的差异。 “同质”是相对的,是客观事物在特定条件下的相对一致性,而“变异”则是绝对的 二、总体与样本 1、总体:是根据研究目的所确定的,同质观察对象(个体)所构成的全体。 2、样本:是从总体中随机抽取的部分观察单位变量值的集合。 三、参数与统计量 总体参数:根据总体个体值统计计算出来的描述总体的特征量。用希腊字母表示。μ.δ.π 样本统计量:根据样本个体值统计计算出来的描述样本的特征量。用拉丁字母表示。X.S.p 总体参数一般是不知道的,抽样研究的目的就是用样本统计量来推断总体参数,包括区间估计和假设检验 四、误差:实测值与真值之差★ 1.随机误差:是一类不恒定的、随机变化的误差,由多种尚无法控制的因素引起。随机测量误差、抽样误差。 2.系统误差:是一类恒定不变或遵循一定变化规律的误差,其产生原因往往是可知的或可能掌握的。 3.非系统误差:过失误差,可以避免或清除。 五、概率 是用来描述事件发生可能性大小的一个量值,常用P表示。概率取值0~1。 统计上一般将P≤0.05或P≤0.01的事件称为小概率事件,表示其发生的概率很小,可以认为在一次抽样中不会发生。 第二节统计资料的类型★

变量:确定总体之后,研究者应对每个观察单位的某项特征进行观察或测量,这种特征能表现观察单位的变异性,称为变量。 一、数值变量资料 又称为计量资料、定量资料:观测每个观察单位某项指标的大小而获得的资料。表现为数值大小,带有度、量、衡单位。如身高(cm)、体重(kg)、血红蛋白(g)等。 二、无序分类变量资料 又称为定性资料或计数资料:将观察对象按观察对象的某种类别或属性进行分组计数,分组汇总各组观察单位后得到的资料。 分类:二分类:+ -;有效,无效;多分类:ABO血型系统 特点:没有度量衡单位,多为间断性资料 【例题单选】某地A、B、O、AB血型人数分布的数据资料是( ) A.定量资料 B.计量资料 C.计数资料 D.等级资料 【答案】C 【解析】ABO血型系统人数分布资料属于无序分类变量资料,又称为计数资料。因为是按照变量的血型分类,血型表现为互不相容的属性。所以本题选C。 【例题单选】测量正常人的脉搏数所得的变量是() A.二分类变量 B.多分类变量 C.定量变量 D.定性变量 【答案】C 【解析】脉搏数有数值大小,有度量衡,所以这个资料属于定量资料。本题选C。 三、有序分类变量资料 半定量资料或等级资料:将观察对象按观察对象的某种属性的不同程度分成等级后分组计数,分组汇总各组观察单位后得到的资料。 特点:每一个观察单位没有确切值,各组之间有性质上的差别或程度上的不同举例:- + ++ +++ 第三节统计工作的基本步骤★ 1.统计设计 2.收集资料

医学统计学 研究生期末考试版.doc

一、名词解释(考10对) 1.总体;样本 总体:根据研究目的确定的、同质的全部观察单位某一指标(或某些因素及结果)的测量值总体。根据总体集合所包括元素是否有限,分为有限与无限总体。总体具有特定的分布特征及参数; 样本:以某方式按预先规定的概率从总体中随机抽取的、具有足够数量的、能够代表总体分布特征的一部分观察单位某指标数据的集合。 根据研究目的从总体中抽取部分有代表性的样本,用样本统计量推断总体参数。 2.标准差;标准误 标准差:是描述单个测量值对其均数的离散程度。标准差越大,数据的离散程度就越大,均数的代表性越差;标准差越小,均数的代表性越好。 标准误:样本统计量的标准差称为标准误,它反映样本统计量的抽样误差的大小,也反映样本统计量对总体参数的离散程度。标准误大,表示样本统计量对总体参数的代表性差;标 3、s x 96.1±;x v s t x ?±)(2/α s x 96.1±:表示从正态总体中抽样,样本含量较大时,观测值双侧95%的波动范围 x v s t x ?±)(2/α:从正态总体中抽样,样本含量较大(小)时,按照预先给定的概率a 确定的总体均值的(1—a )的可信区间。 4.计量资料(数值变量资料);计数资料(分类变量资料) 计量资料:通过度量的方法,测量每个观察单位的某项指标的量的大小而得到的一系列数据资料,其特点是多有度量单位或多为连续性资料。 计数资料:指将全体观察单位按某种属性分组,然后再分别清点各组观察单位的个数而得

到的数据资料,其特点是没有度量单位或多为非连续性资料 5.点估计;区间估计 点估计:直接利用样本统计量的一个数值来估计总体参数,比如基于一份随机样本,用x 估计u,用p估计π,用S估计σ。点估计方法简单,但未考虑抽样误差,故难以反映估计值对其真值的代表性。 区间估计:将样本统计量和标准误结合起来,按预先给定的概率(1—a)所确定的一个包含未知总体参数的范围,该范围为总体参数的置信区间(CI)。预先给定的概率(1—a)称为可信度或置信度,常取95%或99%。 6.回顾性研究;前瞻性研究 回顾性研究:即病例—对照研究,是由果到因,即先选定病例组和对照组,然后分别回顾两组过去的暴露情况,比较其差异,探索与发病相关的可能因素。回顾性研究的优点是对于患病率非常低的研究人群可获得较高的效果,研究周期较短和可以探索多个因素与患病的关联;其缺点是不能估计患病率和死亡率,容易产生回忆性偏倚和选择性偏倚。 前瞻性研究:即队列研究,是由因寻果,是将选定的人群按暴露状况分成暴露组和对照组,暴露组接触某个因素而对照组不接触某个因素,其他所有条件两组基本相同。经过一定时间随访,比较暴露组和对照组在随访期间的发病率,如果两组发病率不同,则归因于该暴露因素。前瞻性研究的优点是可以估计发病率,暴露测量可以做到无偏倚,结论比较可靠。其缺点是研究效率比较低,研究周期比较长导致在研究期间可能出现失访及各种混杂因素影响。 7、完全随机设计;随机区组设计 完全随机设计:又称为单因素设计或成组设计,是将同质的研究对象随机地分配到各处理组中进行实验观察,或从不同总体中随机抽样进行对比研究。 随机区组设计:又称配伍组设计,是在实验设计中用一个非研究因素的变量进行分层,每个层的观察对象数相等,并对每个层进行随机分组。 两种实验设计方案均为单因素实验设计。区别是:①两者观察对象随机分配方式不同;②统计分析方法不同;③误差内涵及大小不同;④检验效能不同。 8.独立性数据与重复性数据 独立性:对一群观察指标独立测定一次,形成一个群体数据,观察值间互相独立,不相互影响。 重复性:一个观察对象,同一或不同时间测定产生的数据。 9.α值;P值 α值:检验水准(显著性水准),即在假设检验中预先规定的判断小概率事件的概率尺度,通常为0.01或0.05,代表在原假设成立的前提下,拒接原假设所犯I类错误的概率。 P值:从已知总体中(或假设总体中)抽得统计量达到当前统计量这么大及比这绝对值还 H可能犯I 大的总概率,若以当前统计量为拒绝域临界点,在规定α前提下,实际欲拒绝

研究生医学统计学试题

试卷编号:卷课程名称:医学统计学适用专业:科学学位专业:班级 姓名:学号:学院 (系 ):考试日期:题号一二三四五六七八九十总分统分题分30152530100签名得分 考生注意事项: 1、本试卷共6 页,请查看试卷中是否有缺页或破损。如有立即举手报告以 便更换。 2、考试结束后,考生不得将试卷、答题纸和草稿纸带出考场。 一、最佳选择题(每题 2 分,共 30 分) 得评阅 把每题的答案填入下表中: 123456789101112131415 A B C D B B A C C C B B C D B 1、描述一组正态分布资料的集中趋势,以指标为好。 A. 算术平均数; B. 几何平均数; C. 中位数; D. 变异系数 2、比较成人身高和儿童身高的离散趋势,宜用。 A. 标准差; B. 变异系数; C. 方差; D. 离均差平方和 3、对于正态分布资料,X +1.96S,所对应的面积占总面积的。 A. 95% ; B. 99% ; C. 47.5%; D. 49.5% 4、下列说法哪个是错误的?中位数适用于描述资料。 A. 最小组段无下限; B. 最大组段无上限; C. 偏态分布; D. 正态分布 5、大,表示用该样本均数估计总体均数的可靠性小。 A. S X; B. S; C.CV; D. Q U—Q L 6、某地 1992年随机抽取 100名健康女性,算得其血清总蛋白含量的均数为74g/L ,标准差为 4g/L ,则其 95%的可信区间为。

7、两样本均数比较的t 检验,分别取以下检验水准,以所取第二类错误最大。 A. α =0.01; B. α=0.05; C. α =0.10; D.α=0.20 8、两样本均数比较的t 检验结果, P<0.05 ,可认为。 A. 两样本均数不等; B. 两样本均数相等; C. 两总体均数不等; D. 两总体均数相等 9、完全随机设计的方差分析结果,P≤ 0.05,可认为。 A. 各样本均数不等或不全等; B. 各样本均数都不相等; C. 各总体均数不等或不全等; D. 各总体均数都不相等 10、某地某年肝炎发病人数占总人数的5%,这是该地该年肝炎的。 A. 年发病率; B. 年患病率; C. 患病构成比; D. 患者平均数 11、已知甲县人口较乙县年青,今欲比较两县死亡率的高低,适当的比较方法是。 A.将两县的总死亡率直接比较; B.对年龄进行标准化后,再比较两县总死亡率; C.将两县的总死亡率进行 t 检验后再比较; D.将两县的总死亡率进行χ2检验后再比较 12、下面哪一点不是Poisson 分布的性质。 A. λ =σ2; B. 当λ≥ 20 时,近似正态分布; C. 可加性; D. 相互影响性 13、χ2检验中理论数T 的计算式为。 A. n r (1 n c ) ; B. (1 n r ) n c; C. n r n c; D. n r n c N N N N 14、已知两组计量资料方差不齐,可用检验。 A. t 检验; B. U 检验; C. F 检验; D. 秩和检验 15、对一组既做相关分析又做回归分析的资料,有。 A. b=r ; B. t b=t r; C. b=a; D. r=1

医学统计学章节重点归纳

医学统计学章节重点归纳 第一节概述 1、主要内容:a、卫生统计学的基本原理和方法(研究设计和数据处理中的统计理论和方法)b、健康统计(医 学人口统计、疾病统计和生长发育统计)c、卫生服务统计(卫生资源、医疗卫生服务的需求和利用、医疗保健制度和管理中的统计问题)。 2、 卫生统计工作的步骤:设计、资料的搜集、资料的整理、资料的分析 3、医学统计资料主要四个方面:统计报表、报告卡(单)、日常医疗卫生工作记录,专题研究或实验。 4、观察单位:是获得数据的最小单位,观察单位是根据研究目的确定的,观察单位可以是人、标本、家庭、国 家等。 5、变异:是指客观事物的多样性和不确定性。 6、变量: 观察单位的某种特征,称为变量。a、数值变量(定量变量)b、分类变量(定型变量或字符变量)。 7、总体:根据研究目的所确定的同质研究对象的全体。确切的说是性质相同的所有观察单位的某种变量的集合。 8、样本:从总体中随机抽取部分观察单位,其变量值就构成样本,通过样本信息来推断总体特征。 9、概率:事件发生的可能性大小的量度,通常以符号P表示。 10、误差:测量值与真值之差或样本指标和总体指标之差。分为随机误差和系统误差。 第二节数值资料的统计描述 1、频数分布就是观察值在所取得范围内分布的情况。重要特征:集中趋势和离散趋势。 2、频数分布类型:正态分布型频数、正偏态分布型频数,负偏态分布型频数。 3、集中趋势指标:算术平均数(均数)、几何均数、中位数。 指标使用条件计算公式 算术平均数适用于正态或近似正态分布 的数值变量资料 几何均数①对数正态分布,即数据经 过对数变换后呈正态分布的 资料;②等比级数资料,即 观察值之间呈倍数或近似倍 数变化的资料。 中位数①非正态分布资料(对数正 态分布除外);②频数分布 的一端或两端无确切数据的 资料③总体分布不清楚的资 料。为奇数 , 为偶数, 4、离散型趋势指标:极差、标准差和变异系数 指标计算公式主要优缺点 极差R=Xmax-Xmin 计算简单,便于理解;只考虑最大值与最小值之差异,不能反映 组内其它观察值的变异度,不稳定,受样本量影响很大。

2001级研究生医学统计学试卷

2001级研究生卫生统计学试卷 2002.1.5. 姓名学号得分 一.选择题:(每小题2分,共30分) ( d )1.在众多的变异指标中,有一种可以用以比较单位不同的两组定量资料(同一组内的数据单位相同)的变异性大小,它就是: (A)标准差(B)相关系数 (C)标准误(D)变异系数 (d )2.在进行显著性检验时,通常要先给定α值,根据样本数据计算出某统计量的值之后便可计算出一个p值来。可以说α值与p值之间有如下关系: (A)p=2α(B)p=α (C)p与α值在数量上有关,但无法简单地将其表达出来 (D)p与α值在数量上无关,但可按它们之间的大小作出统计推断 ( d )3.有些人在处理定量资料时习惯于用多次t检验代替方差分析和两两比较,这样做将会导致: (A)计算量增大(B)假阴性错误率增大 (C)试验误差大(D)假阳性错误率增大 ( b )4.为了解两种治疗方法对原发性肝癌的疗效,随机把病人分成两组,一组用5-氟尿嘧啶+辅助治疗,另一组用安慰剂+辅助治疗。治疗结果按缓解、死亡划分。第 一组12人,7人缓解、5人死亡;第二组11人,4人缓解、7人死亡,要分析两 种疗法的治疗效果之间的差别有无显著性意义,应选用的统计方法是: (A)χ2检验(B)Fisher的精确概率 (C)t检验(D)秩和检验 (a )5.某医生测得男、女各50人淋巴细胞计数L(%)(即占白细胞数的百分比),想用成组设计资料的t检验分析男、女两性之间的差别有无显著性意义,在作检验前 最好对数据作()变换。 (A)平方根(B)对数(C)平方根反正弦(D)倒数 ( a )6.有5份血清的抗体效价分别为:1:80、1:20、1:320、1:40、1:640,最合适反映此资料平均水平的指标是: (A)几何均数(B)算术均数(C)中位数(D)标准差 ( b )7.若分析肺活量和身高之间的数量关系,拟用身高值预测肺活量值,则采用(A)相关分析(B)直线回归分析 (C)方差分析(D)χ2检验 ( c )8.用二项分布直接计算概率法检验,H0:π=0.45,H1:π<0.45,当随机样本含

健康管理师考试重点归纳总结

第一章健康管理概论 健康管理是以现代健康概念(生理、心理和社会适应能力)和新的医学模式(生理、心理、社会)以及中医治未病为指导,通过采用现代医学和现代管理学的理论、技术、方法和手段,对个体或群体整体健康状况及其影响健康的危险因素进行全面检测、评估、有效干预与连续跟踪服务的医学行为及过程。 其目的是以最小投入获取最大健康效益。 健康管理的八大目标: 1.完善健康和福利 2.减少健康危险因素 3.预防疾病高危人群患病 4.易化疾病的早期诊断 5.增加临床效用、效率 6.避免可预防的疾病相关并发症的发生 7.消除或减少无效或不必要的医疗服务 8.对疾病结局作出度量并提供持续的评估和改进 健康管理的特点: 标准化足量化个体化系统化 健康管理的三个基本步骤: 1.了解和掌握健康,开展健康信息收集和健康检查 2.关心和评价健康,开展健康风险评价和健康评估 3.干预和促进健康,开展健康风险干预和健康促进 健康风险评估是手段,健康干预是关键,健康促进是目的 健康管理的五个服务流程: 1.健康调查与健康体检 2.健康评估 3.个人健康咨询 4.个人健康管理后续服务 5.专项的健康和疾病管理服务 健康管理的六个基本策略: 1.生活方式管理 2.需求管理 3.疾病管理 4.灾难性病伤管理 5.残疾管理 6.综合群体健康管理 生活方式管理的特点: 1.以个体为中心,强调个体的健康责任和作用

2.以预防为主,有效整合三级预防 生活方式的四大干预技术: 教育激励训练营销 影响需求管理的四大主要因素: 1.患病率 2.感知到的需要 3.消费者选择偏好 4.健康因素以外的动机(残疾补贴、请病假的能力等) 需求管理的策略: 1.小时电话就诊和健康咨询 2.转诊服务 3.基于互联网的卫生信息数据库 4.健康课堂 5.服务预约 疾病管理的三个特点: 1.目标人群是患有特定疾病的个体 2.不以单个病例和(或)其单次就诊事件为中心,而关注个体或群体连续性的健康状况与 生活质量 3.医疗卫生服务以及干预措施的综合协调至关重要 灾难性病伤管理的五大特点: 1.转诊及时 2.综合考虑各方面因素,制订出适宜的医疗服务计划 3.具备一支包含多种医学专科及综合业务能力的服务队伍,能够有效应对可能出现的多种 医疗服务需要 4.最大程度地帮助病人进行自我管理 5.尽可能使患者及其家人满意 残疾管理的八大目标: 1.防止残疾恶化 2.注重功能性能力 3.设定实际康复和返工的期望值 4.详细说明限制事项和可行事项 5.评估医学和社会心理学因素 6.与病人和雇主进行有效沟通 7.有需要时要考虑复职情况 8.实行循环管理 《健康中国2030规划纲要》 1.强调预防为主,防患未然

医学统计学知识点范文.doc

第一章绪论 1、统计学,是关于数据收集、整理、分析、表达和解释的普遍原理和方法。 2、研究对象:具有不确定性结果的事物。 3、统计学作用:能够透过偶然现象来探测其规律性,使研究结论具有科学性。 4、统计分析要点:正确选用统计分析方法,结合专业知识作出科学的结论。 5、医学统计学基本内容:统计设计、数据整理、统计描述、统计推断。 6、医学统计学中的基本概念 (1) 同质与变异 同质,指根据研究目的所确定的观察单位其性质应大致相同。 变异,指总体内的个体间存在的、绝对的差异。 统计学通过对变异的研究来探索事物。 (2) 变量与数据类型 变量,是反映实验或观察对象生理、生化、解剖等特征的指标。 变量的观测值,称为数据 分为三种类型:定量数据,也称计量资料,指对每个观察单位某个变量用测量或其他定量方法准确获得的定量结果。(如身高、体重、血压、温度等) 定性数据,也称计数资料,指将观察单位按某种属性分组计数的定性观察结果。包括二分类、无序多分类。(进一步分为二分类和多分类,如性别分为男和女,血型分为A、B、O、AB等) 有序数据,也称半定量数据或等级资料,指将观察单位按某种属性的不同程度或次序分成等级后分组计数的观察结果,具有半定量性质。 统计方法的选用与数据类型有密切的关系。 (3)总体与样本 总体,指根据研究目的确定的所有同质观察单位的全体,包括所有定义范围内的个体变量值。 样本,是从研究总体中随机抽取部分有代表性的观察单位,对变量进行观测得到的数据。抽样,是从研究总体中随机抽取部分有代表性的观察单位。 参数,指描述总体特征的指标。 统计量,指描述样本特征的指标。 (4)误差 误差,指观测值与真实值、统计量与参数之间的差别。 可分为三种:系统误差,也称统计偏倚,是某种必然因素所致,不是偶然机遇造成的,误差的大小通常恒定,具有明确的方向性。 随机测量误差,是偶然机遇所致,误差没有固定的大小和方向。 抽样误差,是抽样引起的统计量与参数间的差异。 抽样误差主要来源于个体的变异。 统计学主要研究抽样误差。 (5)概率 概率,是描述某事件发生可能性大小的量度。 必然事件,事件肯定发生,概率P(U)=1; 随机事件,事件可能发生,可能不发生,概率介于0≤P(A)≤ 1; 不可能事件,事件肯定不发生,概率P(∮)=0; 小概率事件,事件发生的可能性很小,概率P(A)≤ 0.05、或P(A)≤ 0.01。 医学科研中,P(A)≤0.05作为事物差别有统计意义,P(A)≤ 0.01作为事物差别有高度统

医学统计学知识点总结

医学统计学 1. 对定量资料进行统计描述时,如何选择适宜的指标 定量资料统计描述常用的统计指标及其适用场合描述内容指 标 意义适用场合 平均水平;均 数 个体的平均值· 对称分布 几何均数平均倍数取对数后对称分布 中位数[ 位次居中的观察值 ①非对称分布;②半定量资料;③末端开 口资料;④分布不明 众 数 频数最多的观察值不拘分布形式,概略分析 ? 调和均数 基于倒数变换的平均值正偏峰分布资料 变异度全 距 观察值取值范围不拘分布形式,概略分析 标准差 (方差) 观察值平均离开均数的 程度对称分布,特别是正态分布资料 四分位数 间距 ? 居中半数观察值的全距 ①非对称分布;②半定量资料;③末端开 口资料;④分布不明 变异系数标准差与均数的相对比①不同量纲的变量间比较;②量纲相同但 数量级相差悬殊的变量间比较 定性资料:阳性事件的概率,概率分布,强度和相对比。 ¥ 2. 应用相对数时应注意哪些问题 答:(1)防止概念混淆相对数的计算是两部分观察结果的比值,根据这两部分观察结果的特点,就可以判断所计算的相对数属于前述何种指标。 (2)计算相对数时分母不宜过小样本量较小时以直接报告绝对数为宜。 (3)观察单位数不等的几个相对数,不能直接相加求其平均水平。 (4)相对数间的比较须注意可比性,有时需分组讨论或计算标准化率。 3. 常用统计图有哪些分别适用于什么分析目的 常用统计图的适用资料及实施方法 < 图形 适用资料实施方法 条图组间数量对比用直条高度表示数量大小 直方图用直条的面积表示各组段的频数或频率

( 定量资料的分布 百分条图构成比用直条分段的长度表示全体中各部分的构成比 饼图构成比用圆饼的扇形面积表示全体中各部分的构成比 定量资料数值变动线条位于横、纵坐标均为算术尺度的坐标系 、 线图 半对数线图定量资料发展速度线条位于算术尺度为横坐标和对数尺度为纵坐标的坐标 系 散点图} 双变量间的关联点的密集程度和形成的趋势,表示两现象间的相关关系箱式图定量资料取值范围用箱体、线条标志四分位数间距及中位数、全距的位置茎叶图定量资料的分布' 用茎表示组段的设置情形,叶片为个体值,叶长为频数 第3章概率分布(连续随机变量的正态分布;离散随机变量的二项分布及Poisson分布)1. 服从二项分布及Poisson分布的条件分别是什么 二项分布成立的条件:①每次试验只能是互斥的两个结果之一;②每次试验的条件不变;③各次试验独立。 Poisson分布成立的条件:除二项分布成立的三个条件外,还要求试验次数n很大,而所关心的事件发生的概率 很小。 、 2. 二项分布、Poisson分布分别有什么特征 ①二项分布、Poisson分布都是离散型分布。 ②二项分布的形状取决于π与n的大小。π=时,不论n大小,对称分布。π≠时,图形呈偏态,随n增大而逐渐对称。当n足够大,π或1-π不太小,二项分布近似正态。 ③Poisson分布μ越小,分布越偏。μ越大,分布越对称。当n足够大时,分布接近正态。 4、正态分布应用 ①估计变量值的频数分布 《 ②制定参考值范围 ③质量控制 ④正态分布是很多统计方法的基础 5. 正态分布特征 ①以均数为中心,左右对称 ②正态曲线在横轴上方均数处取得最高点 ~ ③正态分布有两个参数,即均数(位置参数)和标准差(变异度参数)(μ,σ2 ;标准0,1)

医学统计学研究生题库汇编

医学统计学复习练习题库 研究生教材使用 一、最佳选择题 1.卫生统计工作的步骤为 A.统计研究调查、搜集资料、整理资料、分析资料 B.统计资料收集、整理资料、统计描述、统计推断 C.统计研究设计、搜集资料、整理资料、分析资料 D.统计研究调查、统计描述、统计推断、统计图表 E.统计研究设计、统计描述、统计推断、统计图表 2.统计分析的主要内容有 A.统计描述和统计学检验 B.区间估计与假设检验 C.统计图表和统计报告 D.统计描述和统计推断 E.统计描述和统计图表 3.统计资料的类型包括 A.频数分布资料和等级分类资料 B.多项分类资料和二项分类资料 C.正态分布资料和频数分布资料 D.数值变量资料和等级资料 E.数值变量资料和分类变量资料 4.抽样误差是指 A.不同样本指标之间的差别 B.样本指标与总体指标之间由于抽样产生的差别 C.样本中每个体之间的差别 D.由于抽样产生的观测值之间的差别 E.测量误差与过失误差的总称 5.统计学中所说的总体是指 A.任意想象的研究对象的全体 B.根据研究目的确定的研究对象的全体 C.根据地区划分的研究对象的全体 D.根据时间划分的研究对象的全体 E.根据人群划分的研究对象的全体 6.描述一组偏态分布资料的变异度,宜用 A.全距 B.标准差 C.变异系数 D.四分位数间距

E.方差 7.用均数与标准差可全面描述其资料分布特点的是 A.正偏态分布 B.负偏态分布 C.正态分布和近似正态分布 D.对称分布 E.任何分布 8.比较身高和体重两组数据变异度大小宜采用 A.变异系数 B.方差 C.极差 D.标准差 E.四分位数间距 9.频数分布的两个重要特征是 A.统计量与参数 B.样本均数与总体均数 C.集中趋势与离散趋势 D.样本标准差与总体标准差 E.样本与总体 10.正态分布的特点有 A.算术均数=几何均数 B.算术均数=中位数 C.几何均数=中位数 D.算术均数=几何均数=中位数 E.以上都没有 11.正态分布曲线下右侧5%对应的分位点为 A.μ+1.96σ B.μ-1.96σ C.μ+2.58σ D.μ+1.64σ E.μ-2.58σ 12.下列哪个变量为标准正态变量 A.s x μ- B.σμ-x C. x s x μ- D.x x σμ- E. s x μ- 13.某种人群(如成年男子)的某个生理指标(如收缩压)或生化指标 (如血糖水平)的正常值范围一般指 A.该指标在所有人中的波动范围 B.该指标在所有正常人中的波动范围 C.该指标在绝大部分正常人中的波动范围 D.该指标在少部分正常人中的波动范围 E.该指标在一个人不同时间的波动范围 14.下列哪一变量服从t 分布 A. σμ-x B. σμ-x C. x x σμ- D. x s x x - E. x s x μ- 2.统计分析的主要内容有

医学统计学重点总结

医学统计学 第一章 医学统计中的基本概念 1 医学统计工作的内容:设计,收集资料,整理资料,分析资料。 2 资料的类型:计量资料(数值变量),计数资料(无序分类),等 变异(variation):在同质的基础上被观察个体的差异。级分组资料(有序分类)。 3 同质(homogeneity):对研究指标有影响的非实验因素相同。 4 总体(population):根据研究目的确定的同质的全部研究对象称总体 。 样本(sample):根据随机化的原则从总体中抽出有代表性的一部分观察单位组成的子集称样本。 5 参数(parameter):总体的设计指标称为参数。 统计量(statistic):样本的统计指标称为统计量。 6 变量(variable):观察对象的特征或指标称为变量,测量的结果即为变量值。 7 概率(probability):描述随机事件发生的可能性的大小的一个量度,其概率介于0与1之间。 第二章 集中趋势的统计描述 一 算术均法(mean)简称为均数,适用于正态或近似正态分布资料 (一)直接法 X n x n X X X n ∑= +?++= 21 (二)加权法(针对频数表)n fx n x f f f X k k ∑= +++= (21) 二 几何均数(geometic mean,G)适用于倍数关系变化,经对数转换后呈正态分布(如:抗体滴度, 血清凝集效价,细菌计数,某些物质浓度等) G= n n X X X ?21 为了计算方便,常改用对数的形式计算,即=G lg 1 -( n X ∑lg ) 对于频数表资料,可用公式 G=lg 1 -( n x f ∑lg ) 三 中位数(M)与百分位数 中位数:适用于偏态分布资料,末端无确切数值的资料及分布情况不确定 公式:M=L+( M L f f n -5.0) M i L,M i ,M f 分别为M 所在组段的下限,组距与频数,L f 为M 所在组段之前各组数的累积频数。 百分位数:用符号X P 表示,x 即百分位 公式:x P =L+( x L f f x n -%·)x i 式中L,x i ,x f 分别为x P 所在组段的下限,组距与频数,L f 为x P 所在组段之前各组段的累积频数

医学统计学考试重点整理

一、基本概念 1.总体与样本 总体:所有同质观察单位某种观察值(即变量值)的全体 样本:是总体中抽取部分观察单位的观察值的集合 2.普查与抽样调查 普查:就是全面调查,即调查目标总体中全部观察对象 抽样调查:是一种非全面调查,即从总体中抽取一定数量的观察单位组成样本,对样本进行调查 3.参数与统计量 参数:总体的某些数值特征 统计量:根据样本算得的某些数值特征 4.Ⅰ型与Ⅱ型错误 假设检验的结论 真实情况拒绝H0不拒绝H0 H0正确Ⅰ型错误(ɑ) 推断正确(1 ?ɑ) H0不正确推断正确(1?β) Ⅱ型错误(β) Ⅰ型错误(ɑ错误): H0为真时却被拒绝,弃真错误 Ⅱ型错误(β错误): H0为假时却被接受,取伪错误 5.随机化原则与安慰剂对照 随机化原则:是将研究对象随机分配到实验组和对照组,使每个研究对象都有同等机会被分配到各组中去,以平衡两组中已知和未知的混杂因素,从而提高两组的可比性,避免造成偏倚。(意义:①是提高组间均衡性的重要设计方法;②避免有意扩大或缩小组间差别导致的偏倚;③各种统计学方法均建立在随机化基础上) 安慰剂对照:是一种常用的对照方法。安慰剂又称伪药物,是一种无药理作用的制剂,不含试验药物的有效成分,但其感观如剂型、大小、颜色、质量、气味及口味等都与试验药物一样,不能被受试对象和研究者所识别。(安慰剂对照主要用于临床试验,其目的在于控制研究者和受试对象的心理因素导致的偏倚,并提高依从性。安慰剂对照还可以控制疾病自然进程的影响,显示试验药物的效应) 6.误差与标准误(区分率与均数) ㈠均数 抽样误差:由个体变异产生的、随机抽样引起的样本统计量与总体参数间的差异。 标准误:是指样本均数的标准差,反映抽样误差大小的定量指标,其公式表示为S x =S/√n ㈡样本率 率的抽样误差:样本率p和总体率π的差异 率的标准误:样本率的标准差,公式为σp=√π(1-π)/n

医学统计学重点图表总结

描述内容 指 标 意 义 适 用 场 合 平均水平 均 数 个体的平均值 对称分布 几何均数 平均倍数 取对数后对称分布 中 位 数 位次居中的观察值 ①非对称分布;②半定量资料;③末端开口资料;④分布不明 众 数 频数最多的观察值 不拘分布形式,概略分析 调和均数 基于倒数变换的平均值 正偏峰分布资料 变 异 度 全 距 观察值取值范围 不拘分布形式,概略分析 标 准 差 (方 差) 观察值平均离开均数的程度 对称分布,特别是正态分布资料 四分位数间距 居中半数观察值的全距 ①非对称分布;②半定量资料;③末端开口资料;④分布不明 变异系数 标准差与均数的相对比 ①不同量纲的变量间比较;②量纲相同但数量级相差悬殊的变量间比较 4. 常用统计图有哪些?分别适用于什么分析目的? 常用统计图的适用资料及实施方法 图 形 适 用 资 料 实 施 方 法 条 图 组间数量对比 用直条高度表示数量大小 直 方 图 定量资料的分布 用直条的面积表示各组段的频数或频率 百分条图 构成比 用直条分段的长度表示全体中各部分的构成比 饼 图 构成比 用圆饼的扇形面积表示全体中各部分的构成比 线 图 定量资料数值变动 线条位于横、纵坐标均为算术尺度的坐标系 半对数线图 定量资料发展速度 线条位于算术尺度为横坐标和对数尺度为纵坐标的坐标系 散 点 图 双变量间的关联 点的密集程度和形成的趋势,表示两现象间的相关关系 箱 式 图 定量资料取值范围 用箱体、线条标志四分位数间距及中位数、全距的位置 茎 叶 图 定量资料的分布 用茎表示组段的设置情形,叶片为个体值,叶长为频数 定性资料统计描述常用的统计指标及其适用场合 指标 计算公式 适用场合 频率 n/N 估计总体中某一结局发生的概率 频率分布 n 1/N ,n 2/N,…..,n k /N 估计总体中所有可能结局发生的概率 强度 阳性人数/总观察人时数 估计总体中单位时间内某一结局发生的概率 比 A/B 估计两个指标的相对大小 4.常用参考值范围的制定? 参考值范 围(%) 正态分布法 百分位数法 双侧 单侧 双侧 单侧 下限 上限 下限 上限 90 S X 64.1± S X 1.28- S X 1.28+ P 5~P 95 P 10 P 90 95 S X 96.1± S X 64.1- S X 64.1+ P 2.5~P 97.5 P 5 P 95 99 S X 58.2± S X 2.33- S X 2.33+ P 0.5~P 99.5 P 1 P 99

医学统计学知识点汇总(精华)

医学统计学知识点汇总(精华) 一.概论 1,医学统计学:运用概率论和数理统计学的原理和方法,研究医学领域中随机现象有关数据的搜集、整理、分析和推断,进而阐明其客观规律性的一门应用科学。 2,医学统计学的主要内容: 1)统计研究设计调查研究设计和实验研究设计 2)医学统计学的基本原理和方法研究设计和数据处理中的基本统计理论和方法。 A:资料的搜集与整理 B:常用统计描述,集中趋势和离散趋势,相对数,相关系数,回归系数,统计表,统计图 C:统计推断,如参数估计和假设检验。 3)医学多元统计方法多元线性回归和逐步回归分析、判别分析、聚类分析、主成分分析、因子分析、logistic回归与Cox回归分析。 3,统计工作步骤: 1)设计明确研究目的和研究假说,确定观察对象与观察单位,样本含量和抽样方法,拟定研究方案,预期分析指标,误差控制措施,进度与费用。 2)搜集材料 A,搜集材料的原则及时、准确、完整 B,统计资料的来源医学领域的统计资料的来源主要有三个方面。一是统计报表,二是经常性工作记录,三是专题调查或专题实验。 C,资料贮存 3)整理资料 a检查核对b设计分组c拟定整理表d归表 4)分析资料统计分析包括统计描述和统计推断

4,同质(homogeneity):指被研究指标的影响因素相同。 变异(variation):同质基础上的各观察单位间的差异。 变量(variable):收集资料过程中,根据研究目的确定同质观察单位,再对每 个观察单位的某项特征进行测量或观察,这种特征称为变量变量值:变量的观察结果或测量值。 5,总体(population)根据研究目的所确定的同质研究对象中所有观察单位某 变量值的集合。总体具有的基本特征是:同质性 样本(sample)从总体中随机抽取部分观察单位,其变量值的集合构成样本。 样本必须具有代表性。代表性是指样本来自同质总体,足够的样 本含量和随机抽样的前提。

医学统计学期末重点总结

误差:观测值与真实值、样本计量与总体参数之间的差别。 相对数:两个有关的绝对数之比,也可以是两个有关联统计指标之比。 相对比:相对比是A、B两个有关联指标值之比,用以描述两者的对比水平,说明A是B 的若干倍或百分之几。 统计描述:描述及总结一组数据的重要特征,目的是使实验或观察得到的数据表达清楚并便于分析。 统计推断:指由样本数据的特征推断总体特征的方法,包括参数估计和假设检验。 同质:指根据研究目的所确定的观察单位其性质应大致相同。 变量:反映实验或观察对象生理、生化、解剖等特征的指标,变量的观测值称为数据。 定量数据:也称计量资料。变量的观测值是定量的,其特点是能够用数值大小衡量其水平的高低,一般有计量单位。根据变量的取值特征可分为连续型数据和离散型数据。 有序数据:也称半定量数据或等级资料。变量的观测值是定性的,但各类别(属性)之间有程度或顺序上的差别。 总体:根据研究目的确定的所有同质观察单位的全体,它包括所有定义范围内的个体变量值。样本:从研究总体中抽取部分有代表性的观察单位,对变量进行观测得到的数据。 参数:描述总体特征的指标称为参数。 统计量:描述样本特征的指标称为统计量。 概率:描述某事件发生可能性大小的度量。 小概率事件:习惯上将P≤0.05的事件称为小概率事件。 平均数:是描述一组观察值集中位置或平均水平的统计指标,常用的有算术均数、几何均数和中位数。 率:率表示在一定空间或时间范围内某现象的发生数与可能发生的总数之比。 构成比:表示某事物内部各组成部分在整体中所占的比重,常以百分数表示,计算公式为区间估计:是指按预先给定的概率,计算出一个区间,使它能够包含未知的总体均数。 线性相关的概念:研究两个变量之间是否具有直线相关关系。 相关系数:是说明具有线性相关关系的两个数值变量间相关的密切程度与相关方向的统计量。 研究对象:根据研究目的而确定的观察总体,也可称为受试对象或实验对象。 处理因素:根据研究目而欲施研究对象的干预措施。 处理水平:处理因素在实验中所处的状态称为因素的水平(level),亦称处理水平。 对照:指在实验中应设立对照组,其目的是通过与对照组效应对比鉴别出实验组的效应大小。随机化:是指每个受试对象有相同的概率或机会被分配到不同的处理组。 重复:是指在相同实验条件下重复进行多次观察。 统计学的基本内容:统计设计,数据整理,统计描述,统计判断 数据类型:定量数据,定性数据,有序数据 误差的类型:系统误差,随机测量误差,抽样误差 配对样本t检验配对设计:同源配对,异源配对,自身配对 方差分析的基本思想:将全部观测值的总变异按影响因素分解为相应的若干部分变异,在此基础上,计算假设检验的统计量F 值,实现对总体均数是否有差别的推断。 非参数检验的适用范围:①总体分布类型未知或非正态分布数据;②有序或半定量资料;③数据两端无确定的数值。 标准差与标准误的区别与联系:区别:标准差:意义,描述个体观察值变异程度的大小,标准差越小,均数对一组观察值的代表性越好。应用,与X拔结合,用以描述个体观察值的

医学统计学重点总结

<<医学统计学>>重点总结 1. 总体:根据研究的目的确定的同质研究对象中所有的观察单位变量值的集合。 2. 样本:按随机化原则从同质总体中随机抽取的部分观察单位某变量值的集合。 3. 同质:影响研究指标的主要因素易控制的因素基本上相同。 4. 抽样误差:在抽样研究中,由于变异的存在,即使在同一总体中抽取的几个样本,各样本统计量往往不等。样本统计量与总体参数也不等,这种由于抽样研究所至样本之间和样本与总体之间的差异称为。。。 5. 变量:观察指标在统计学上统称为指标变量,它反应的是生物个体间的变异情况,根据其性质可分为定性变量(分类)和定量变量(连续)。 6. 截尾数据:生存时间观察过程被人为的截止称为截尾,又称删失或终检。原因:失访/退出/ 终止(研究时限已到而终止观察)。 7. 卡方基本思想:X2分布是一种连续型分布,可用于检验资料的实际频数和按检验假设计算的理论频数是否相等等问题。X2反应实现了实际频数与理论频数的吻合程度。如果检验假设成立,则A-T 一般不大,X2应很小,即出现大X2值概率很小。即X2越大,P越小,若P≤a时,就怀疑假设的成立,拒绝H0。若P>a则没有理由拒绝H0。 8. X2用途: (1)实际频数与拟合频数拟合优度:A推断两个或两个以上总体率或构成比有无差别(四格表/行x 列表)。B两变量之间有无相互关系。C频数分布的拟合优度检验(判断次样本是否来自某种分布)。(2)某些分布可用X2近似。 (3)间接应用:如t分布和F分布就是在X2分布基础上推导出来的。 9. 方差分析的基本思想:根据研究目的和设计类型,把总体变异中离均差平方和分解成两部分或更多部分,也把总变异中的自由度相应分成两部分或更多部分,然后再进行比较,评价由某种因素引起的变异是否具有统计学意义。 10. 假设检验中P,a,b(倍他)的关系及统计学意义: a:检验水准,即显著性检验,在此概率之下的认为是小概率事件,统计学上以为此事件“不可能发生”,以此判断是否不拒绝H0无效假设,在假设检验中,按a检验水准,拒绝了原来正确的H0,即犯了第1类错误,犯此错误的概率为a。 b:在T假设检验中,按照a检验标准,没有拒绝原来错误的无效假设,即犯了第2类错误,犯次错误的概率是b。 P:是在H0成立时大于等于用样本计算的统计值出现的概率用P值与检验水准a比较,根据比较的结果作出统计判断。如果P≤a时,就怀疑假设的成立,拒绝H0。若P>a则接受H0拒绝H1。P值越小只能说明作出拒绝H0,接受H1的推论时犯错误的机会越小。 11.行x列表X2检验应注意: (1)行x列表中不宜有1/5以上格子的理论频数小于5或有一个格子的理论频数小于1,若发生上述情况可采用:A将理论频数过小的格子所在的行或列与性质相近的邻近行或列中的实际频数合并,使重新计算的理论频数增大。B删去理论频数过小的行或列。C增大样本含量以增大理论频数。 (2)当效应按强弱分为若干级别,则按实验结果可整理为单向有序行x列表,在比较各处理组的效应有无差别时,宜用秩和检验,ridit分析等。如作X2检验只说明各组构成比的差异有无统计学意义。

研究生医学统计学试题

南昌大学医学院硕士生试卷 试卷编号: 卷 课程名称:医学统计学 适用专业: 科学学位 专业: 班级 姓名: 学号: 学院 (系 ): 考试日期: 题号 一 二 三 四 五 六 七 八 九 十 总分 统 分 题分 30 15 25 30 100 签名 得分 考生注意事项: 1、本试卷共 6 页,请查看试卷中是否有缺页或破损。如有立即举手 报告以便更换。 2、考试结束后,考生不得将试卷、答题纸和草稿纸带出考场。 一、最佳选择题 (每题 2 分,共 30 分) 得 评 阅 把每题的答案填入下表中: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 A B C D B B A C C C B B C D B 1、描述一组正态分布资料的集中趋势,以 指标为好。 A. 算术平均数; B. 几何平均数; C. 中位数; D. 变异系数 2、比较成人身高和儿童身高的离散趋势,宜用 。 A. 标准差; B. 变异系数; C. 方差; D. 离均差平方和 3、对于正态分布资料, X +1.96S ,所对应的面积占总面积的 。 A. 95% ; B. 99% ; C. 47.5%; D. 49.5% 4、下列说法哪个是错误的?中位数适用于描述 资料。 A. 最小组段无下限; B. 最大组段无上限; C. 偏态分布; D. 正态分布 5、 大,表示用该样本均数估计总体均数的可靠性小。 A. S X ; B. S ; C.CV ; D. Q U —Q L 6、某地 1992 年随机抽取 100 名健康女性,算得其血清总蛋白含量的均数为 74g/L ,标准 差为 4g/L ,则其 95%的可信区间为 。

医学统计学重点总结

1.简述总体和样本的定义,并且举例说明。 总体是研究目的确定的所有同质观察单位的全体。样品是从研究总体中抽取部分有代表性的观察单位。 2.简述参数和统计量的定义,并且举例说明。 描述总体特征的指标称为参数,描述样本特征的指标称为统计量。 3.变量的类型有哪几种?举例说明各种类型变量有什么特点。 ①定量数据:计量资料;定量的观测值是定量的,其特点是能够用数值的大小衡量其水平的 高低。 ②定性数据:计数资料;变量的观测值是定性的,表现为互不相容的类别或属性。 ③有序数据:半定量数据/等级资料;变量的观测值是定性的,但各类别(属性)有程度或顺 序上的差异。 4.请举例说明一种类型的变量如何变换为另一种类型的变量。定量数据>有序数据>定性数据 ---------------> 5.请简述什么是小概率事件? 概率是描述事件发生可能性大小的度量,P0.05事件称为小概率事件。 6.举例说明什么是配对设计。 配对设计是将受试对象按某些重要特征相近的原则配成对子,每对中的两个个体随机地给予两种处理。①同源配对:同一受试对象或同一标本的两个部分,随机分配接受两种不同处理;②异源配对:为消除混杂因素的影响,将两个同质受试对象配对分别接受两种处理。 7.非参数假设检验适合什么类型数据进行分析? ①总体分布类型未知或非正态分布数据;②定量或半定量数据;③数据两端无确定的数值。 8.简述P 25 P 50 P 75 的统计学意义。(条件:明显偏态且不能转化为正态或近似对称;一端或两端无 确定数值;分布情况未知) 用来描述资料的观测值序列在某百分位置的水平,四分位数间距可以作为说明个体差异的指标(说明个体在不同位置的变异情况)。 9.直条图、直方图、圆饼图的使用条件是什么? 直条图:各自独立的统计指标的数值大小和他们之间的对比; 直方图:连续变量频数分布情况; 圆饼图:全体中各部分所占的比例。 10.统计分析包括哪两个方面的内容?为什么要进行统计推断? 统计描述和统计分析; 统计描述用来描述及总结一组数据的重要特征,其目的是使实验或观察得到的数据表达清楚并便于分析。统计推断指由样本数据的特征推断总体特征的方法,包括参数估计(点估计和区间估计)和假设检验(判断随机波动引起差别的概率大小)。 统计推断是通过样本推断总体的统计方法/根据样本提供的信息和抽样分布的规律,以一定的概率推断总体的特征。总体是通过总体分布的数量特征即参数 (如方差) 来反映的。很多时候并不知道总体的参数,只能由样本统计量推断获得。 11.定量数据如何进行统计描述?请举例说明。通过具体数值反应高低水平。 12.定性数据如何进行统计描述?请举例说明。根据类别或属性的不同分类。 13.简述均数的抽样误差及率的抽样误差。 由抽样造成的样本统计量与总体参数的差异称为抽样误差,样本均数不等于总体均数μ,总体率参数π不等于样本率p。 14.简述正态分布和标准正态分布的关系。 (μ=0,)关系:标准正态分布是正态分布的一种,具有正态分布的所有特征。所有 正态分布都可以通过Z分数公式转换成标准正态分布。 区别:正态分布的平均数为μ,标准差为σ;不同的正态分布可能有不同的μ值和d值,正态分布曲线形态因此不同。标准正态分布平均数μ=0,标准差σ=1,μ和σ都是固定值;标准正态分布曲线形态固定。

相关主题
文本预览
相关文档 最新文档