当前位置:文档之家› 医学统计学总结

医学统计学总结

医学统计学总结
医学统计学总结

医学统计学总结

一 .绪论

1,医学统计学:运用概率论和数理统计学的原理和方法,研究医学领域中随机现象有关数据的搜集、整理、分析和推断,进而阐明其客观规律性的一门应用科学。

2,医学统计学的主要内容:

1)统计研究设计调查研究设计和实验研究设计

2)医学统计学的基本原理和方法研究设计和数据处理中的基本统计理论和方法。A:资料的搜集与整理

B:常用统计描述,集中趋势和离散趋势,相对数,相关系数,回归系数,统计表,统计图 C:统计推断,如参数估计和假设检验。

3 )医学多元统计方法多元线性回归和逐步回归分析、判别分析、聚类分析、主成分分析、因子分析、

logistic 回归与 Cox 回归分析。

3,统计工作步骤:

1)设计明确研究目的和研究假说,确定观察对象与观察单位,样本含量和抽样方法,拟定研究方案,预

期分析指标,误差控制措施,进度与费用。

2)搜集材料

A,搜集材料的原则及时、准确、完整

B,统计资料的来源医学领域的统计资料的来源主要有三个方面。一是统计报表,二是经常性工作记录,三是专题调查或专题实验。

C,资料贮存

3)整理资料 a 检查核对b 设计分组c 拟定整理表d 归表

4)分析资料统计分析包括统计描述和统计推断

4,同质(homogeneity):指被研究指标的影响因素相同。变异(variation):同质基础上的各观察单位间的差异。

变量(variable) :收集资料过程中,根据研究目的确定同质观察单位,再对每个观察单位的某项特

征进行测量或观察,这种特征称为变量

体具有的基本特征是:同质性

样本( sample ) 从总体中随机抽取部分观察单位,其变量值的集合构成样本。样本必须具有代表性。代表性是指样本来自同质总体,足够的样本含量和随机抽样的前提。

统计量(statistics)描述样本变量值特征的指标( 样本率,样本均数,样本标准差)。

衡量率的抽样误差大小的指标是率的标准误 差越大。

其中 为总体率。实际工作中,由于 往往是未知的,可用样本率 p 作

的估计值,计算率的标准误

参数(parameter)描述总体变量值特征的指标( 总体率, 标准差, 总体均数)。

抽样误差(sampling error):由于个体差异的存在,即使在同一整体中随机抽取若干样本,各样本的

统计量往往不等,统计量与参数也会有所不同。这种因抽样研究引起的差异称抽样误 差。

随机事件(random event )对随机试验的各种可能结果的集合。 概率(probability ) 描述随机事件发生的可能性大些哦的一个度量。

小概率事件 若随机事件 A 的概率 P (A)≤α,习惯上,α=0.05 时,就称 A 为小概率事件。其统计学 意义是小概率事件在一次随机试验中认为不会发生。 抽样误差

1,抽样误差(sampling error ) 由抽样而造成的样本统计量与总体参数之间的差异或各样本统计量之间的 差异。在医学统计学中,常把由抽样造成的样本均数与总体均数间的差异称为均数的抽样误差;由抽样造 成的样本率与总体率之间的差异称为率的抽样误差。

样误差大;反之, 小,抽样误差小。

实际工作中 往往未知的 ,可用样本 标准差 s 作 的 估计值,计 算标 准误的估 计值

3,标准误的用途:a ,衡量样本均数的可靠性;b ,估计总体均数的置信区间;3,用于均数的假设检验。 4,标准误的估计值 的用途:

a ,描述抽样误差的大小;

b ,总体参数的估计;

c ,用来进行假设检验。

5,率的抽样误差:由抽样造成的样本率与总体率的差异称为率的抽样误差。

2,样本均数的标准差

简称标准误,standard error )

反映均数的抽样误差大小的指标。 大,抽

越大,率的抽样误

的估计值

3.4)。

标准差(s

)标准误

计算公式s=

(1)表示观察值的变异程度(1)估计均数的抽样误差的大小

(2)计算变异系数 CV= 100%(2)估计总体均数的可信区间(,)

(3)确定医学参考值范围(3)进行假设检验

(4)计算标准误

区别:(1)含义不同:标准差 S 表示观察值的变异程度,描述个体变量值(x)之间的变异度大小,S 越

大,变量值(x)越分散;反之变量值越集中,均数的代表性越强。标准误估计均数的抽样误差的大小,是描述样本均数之间的变异度大小,标准误越大,样本均数与总体均数间差异越大,抽样误差越大;反之,样本均数越接近总体均数,抽样误差越小。(2)与n的关系不同: n增大时,S趋于σ(恒定),标准误减少并趋于0(不存在抽样误差)。(3)用途不同:标准差表示x 的变异度大小、计算变异系数、确定医学参考值范围、计算标准误等,标准误用于估计总体均数可信区间和假设检验。联系:二者均为变异度指标,样本均数的标准差即为标准误,标准差与标准误成正比。

标准差:标准误:

二.分布

正态分布

1,正态分布的函数

其中为总体均数,为总体标准差,为圆周率,为自然对数的底,且仅为变量。以为横轴,为纵轴,当均数和标准差已知时即可绘出正态分布曲线。

为应用方便,将式中进行变量变换,使原来的正态分布变为的标准正态分布,亦称分布。被称为标准正态变量或标准正态离差,将代入上述公式即得标准正态分布的密度函数

2,正态分布的特征

1)正态曲线(normal curve )在横轴上方均数处最高。 2)正态分布以均数为中心,左右对称。

3)正态分布有2 个参数(parameter ),即均数 (位置)和标准差 (形状)。当 固定不变时,

越大,曲线沿横轴越向右移动;反之, 越小,则曲线沿横轴越向左移动。当 固定不变时, 越 大,曲线越平阔; 越小,曲线越尖峭。通常用 N ( , )表示均数为 、方差为 用(0,1)表示标准正态分布。(4)正态分布在 1 处各有一个拐点。(5)正态曲线下面积的分布有 一定规律。

3,常用的两个区间: 1.96 及 2.58 的区间面积分别占总面积的 95%及 99%。

4,正态分布的应用

1 ),制定医学参考值范围

a,正态分布法 适用于正态或近似正态分布的资料 双侧界值:

c ,百分位数法 常用于偏态分布资料及资料中一端或两端无确切数值

的资料。双侧界值:

2)正态分布是多种统计方法的理论基础 如 t 分布,F 分布, 分布都是在正态分布的基础上推导出 来的, 分布也是以正态分布为基础的。另外 t 分布,二项分布,poisson 分布的极限为正态分布,一定条 件下可按正态分布原理处理。 t 分布

t 分布的特征为:

1. 以 0 为中心,左右对称的单峰分布。

2.17)

2.18)

b ,对数正态分布法 适用于对数正态分布资料 双侧界值: 的正态分布。 或单侧下界:

;单侧上界:

;单侧上界:

,或单侧下界

;单侧上界:

,或单侧下界:

1,t 分布:

3.5)

2. t 分布曲线形态变化与自由度的大小有关。自由度 越小,则t 值越分散,曲线越低平;自 由

度 逐渐增大时,则 t 分布逐渐逼近正态分布(标准正态分布)。当 = 时,t 分布为 u 分布。 t 界值表附图中非阴影部分面积的概率为:

2,总体均数的估计:用样本指标估计总体参数称为参数估计,是统计推断的一个重要方面。总体均数的估 计有 2 种方法。一是直接用统计量 估计总体参数 ,称为点值估计。由于抽样误差的存在,此法很难 估计准确。二是区间估计(interval estimation )法。区间估计是按一定的概率 100(1- )%估计总体均数 所在的范围,亦称可信区间(confidence interval ,CI )。常取的可信度为 95%和 99%,即 95%可信区间和 99%可信区间。计算方法有 3 种:

1) 未知且n 小 按t 分布原理用式(3.6)计算可信区间。

由于 将

则总体均数的 100(1- )% 可信区间的通式为: ( 3.6)或写成

2) 未知,但 n 足够大时(n>100) t 分布逼近 u 分布,按正态分布原理,用式(3.7)估计可信区间。

) (3.7 )

3)

已知 按正态分布原理,用式(3.8)估计可信区间。

( )(3.8 )

标准正态分布(u 分布)与 t 分布有何异同?

答:相同点:t 分布和标准正态分布(u 分布)都是以0 为中心的正态分布。标准正态分布是t 分布的特例 (自由度是无限大时)。

不同点: t 分布为抽样分布, u 分布为理论分布; t 分布比标准正态分布的峰值低,且尾部翘得更高; t 分布受自由度大小的影响,随着自由度的增大,逐渐趋近于标准正态分布;t 分布有无数条曲线,而 u 分布 只有唯一一条曲线。 二项分布

1,二项分布(binomial distribution )是对只具有 2 种互斥结果的离散型随机事件的规律性进行描述的一种 概率分布。

二项分布概率公式:

(3.9)

式中 n 为独立的贝努力试验次数, 为成功的概率,(1- )为失败的概率,X 为在 n 次贝努力试验中出 现“成功”的次数, 表示在 n 次试验中出现X 的各种组合数,在此称为二项系数(binomial coefficient ) 。

代入

2,二项分布的应用条件:

(1)各观察单位只能具有相互对立的一种结果,如阳性或阴性,生存或死亡。

(2)已知发生某一结果(阳性)的概率为,其对立结果的概率为1- ,实际工作中要求是从大量观察中获得比较稳定的数值。

(3)n 次试验在相同条件下进行,且各个观察单位的观察结果相互独立。

3,二项分布的性质:

A,二项分布的均数和标准差在二项分布的资料中,

当和n 已知时,它的均数及其标准差如下: =n (3.11 )

(3.12 )

若均数和标准差不用绝对数表示,而是用率表示时,即对式(3.11)(3.12)分别除以n,得:

3.13)

是样本率的标准误的理论值,当未知时,常用样本率p 作为的估计值,则:

B,二项分布的累计概率二项分布的累计概率(cumulative probability)常用的有左侧累计和右侧累计2 种方法。

从阳性率为的总体中随机抽取n 个个体,则

(1)最多有k 例阳性的概率

( 3.16 )

2)最少有k 例阳性的概率

D,二项分布的形状取决于和n 的大小:

(1)当 =0.5 时,分布对称;当 <0.5 时,分布呈正偏态,且固定n 时,越小,分布越偏;当 >0.5 时,分布呈负偏态,且固定n 时,越大,分布越偏。

(2)对固定的,分布随n 的增大趋于对称。 4,总体率的估计

总体率的估计也有点估计和区间估计,点估计是简单地用样本率来估计总体率;区间估计是求出总体率的可能范围。样本率的理论分布和样本含量n、阳性率p 的大小有关,所以需要根据n 和p的大小不同,分别选用下列 2 种方法。

(一)查表法 当样本含量n 较小,如 n ≤50,特别是p 很接近于0 或1 时,按二项分布的原理估计总体率 的可信区间。

(二)正态近似法 当样本含量n 足够大,且样本率p 或1-p 均不太小,如np 与n (1-p )均大于5时,样

本率的p 的抽样分布近似正态分布,总体率 的可信区间可按下列式(3.17)进行估计。

Poisson 分布 1,Poisson 分布 泊松分布是在 很小,样本含量 n 趋向于无穷大时,二项分布的极限形式。更多地用于 研究单位时间、单位人群、单位空间内,某罕见事件发生的次数的分布。

X=0 ,1 ,2 (3.19)

式中 =n 为Poisson 分布的总体均数,X 为单位时间或单位空间内某事件的发生数,e 为自然对数的底,

约等于 2.71828 。在实际运算中,P (X )亦可按式(3.20 )作递推计算。

该分布是一种单参数的离散型分布,其参数为 ,它表示单位时间或空间内某件事平均发生的 次

数,又称强度参数。

已知 ,就可按公式计算得出X=0,1,2, 时的P (X )值,以X 为横坐标,以P (X )为纵坐标作图, 即可会出 Poisson 分布的图形。

值越小,分布越偏,随着 的增大,分布越趋于对称,当 =20 时,分布接近正态分布,当 =50 时, 可以认为 Poisson 分布呈正态分布 N ( , )按正态分布处理。 5,Poisson 分布具有可加性 6,总体参数的估计

3.17)

2, P oisson 分布应用条件: 要求事件

的发生是相互独立 发生的概率相等 结果是二分类 A , B , C ,

3, P oisson 分布的性质: A , B , Poisson

分布的方差 和均数 相等,即 = C , Poisson 分布的累计概率 1) 最多为k 次的概率

2) 最少为 k 次的概率

4, P oisson 分布的图形

由样本均数(样本计数)X 估计总体均数 也有点(值)估计和区间估计,区间估计的方法,需视样本 计数(样本均数)X 的大小而定,X 小时用查表法,X 大时用正态近似法。 (一)查表法

当样本计数 X 时,用 X 值查附表 poisson 分布 的可信区间,可得总体均数 的 95%或 99% 可信区间。

(二)正态近似法

当样本计数 X>50 时 , 可用正态近似原 理 下 面 公式求 总 体 均 数 的 95%或 99%可信区间

正态分布、二项式和泊松分布的关系:

二项分布(binomial distribution ):对只具有两种互斥结果的离散型随机事件的规律性进行描述的一种 概率分布。Poisson 分布是在π很小,样本含量 n 趋于无穷大时,二项分布的极限形式。当 v=∞时,t 分布 即为 u 分布,趋向正态分布。 可信区间与参考值范围的区别:

意义、计算公式和用途均不同。(1)参考值范围是指同质总体内包括百分之几十个体值的估计范围。而可 信区间是指在百分之几十的可信度估计的总体参数的所在范围。(2)同样的百分之几十,参考值范围是样 本范围,可信区间是指可信度范围,二者有着本质的不同。(3)从意义来看,95%参考值范围是指同质总 体内包括 95%个体值的估计范围,而总体均数 95%可信区间是指按 95%可信度估计的总体均数的所在范 围。(4)从计算公式看,若指标服从正态分布,95%参考值范围的公式是: ±1.96s 。总体均数 95%可

自由度为 v 的t 界值。(5)从用途上看,可信区间用来估计总体均数,参考值范围用来判断观察对象的某 项指标是否正常。

简述检验假设与可信区间的联系与区别。

答:(1)可信区间用于推断总体参数所在的范围,假设检验用于推断总体参数是否不同。前者估计总体参 数的大小,后者推断总体参数有无质的不同。(2)可信区间也可回答假设检验的问题。但可信区间不能提 供确切的 P 值范围,只能给出在α水准上有无统计意义。(3)可信区间还可提示差别有无实际意义。

统计图表

1,绘制统计图的基本要求:

A , 根据资料性质和分析目的据顶适当图形。

B , 标题应说明资料的内容、时间和地点,一般位于图的下方。

C , 图的纵、横轴应注明标目及对应单位,尺度应等距或具有规律性,一般自左而右、自下而上、由

小到大。

D , 为使图形美观并便于比较,统计图的长宽比例一般为 7:5,有时为了说明问题也可以变动。

E , 比较、说明不同的事物时,可用不同颜色或线条表示,并常附图例说明,但不宜过多。 2,常用统计图的适用条件与绘制

1. 条图(bar graph ) 用等宽长条的高度表示按性质分类资料各类别的数值大小,用于表示它们之

信区间的公式是: 。前者用标准差,后者用标准误。前者用 1.96,后者用α为 0.05,

的对比关系。

2. 圆图(pie graph ) 圆形图适用于百分构成比资料,表示事物各组成部分所占的比重或构成。 3. 百分条图(percent bar ) 意义及适用资料同圆图,也称构成条图。

4. 线图(line graph ) 线图适用于连续性资料,以不同的线段升降来表示资料的变化,并可表明一 事物

随另一食物(时间)而变动的情况。

5. 直方图(histogram ) 直方图用于表达连续性资料的频数分布。

6. 散点图(scatter diagram ) 散点图以直角坐标系中各点的密集程度和趋势来表示两现象间的关系。

常用在对资料进行相关分析之前适用。

单变量资料

一,数值变量 统计描述

1,频数表的编制 求全距 定组段和组距 列频数表 画频数图 2,频数分布的两个重要特征:集中趋势和离散趋势

3,频数分布可以分为正态分布和偏态分布

4,频数表的用途:揭示资料分布类型和分布特征,以便选取适当的统计方法;便于进一步计算指标和统计 处理;便于发现某些特大或者特小的可疑值。

5,集中趋势的描述:均数 几何均数 中位数 百分位数

均数(mean):算术均数的简称。常用 = = 表示。

7,中位数(median):一组由小到大按顺序排列的观察值中位次居中的数值,用 M 表示。可用于描述任何分 布,特别是偏态分布资料以及频数分布的一端或两端无确切数据资料的中心位置。 8,百分位数(percentile)是一种位置指标,用

表示。一个百分位数 P 将一组观察值分为两部分,理论

上有 x%的观察值比它小,有(100-x )%的观察值比它大。可用于确定非正态分布资料的医学参考值范围。 9,离散趋势的描述:全距(range ) 四分位数间距(quartile ) 方差 标准差

10,全距(range ) 亦称极差,为一组同质观察值中最大值和最小值之差。反映个体差异的范围,优点是 计算简单,缺点是:1)只考虑最大最小值之间的差异,不能反映组内其他观察值的变异度;2)样本含量 相差悬殊时不宜用全距比较。

11,四分位数间距(quartile ) 上四分位数与下四分位数之差。常用于描述偏态频数分布以及分布的一端或 两端无确切数值资料的离散程度。

12,方差(variance )离均差的平方和表示。

13,标准差(standard variance )的作用:a ,估计变量值的离散程度 b ,计算变异系数 c ,与均数结合,估 计变异值的频数分布范围 d ,计算标准误

14,变异系数(coefficient of variation ) 常用于比较度量单位不同或均数相差悬殊的两组或多组资料的变异

度。CV= 100%

样本)

假设检验

1,假设检验(hypothesis test)亦称显著性检验(significance test),其基本思想是先对总体的参数或分布做出某种假设,如设总体均数(或率)为一定值;两总体均数(或率)相等;总体服从正态分布或两分布相同等,然后根据样本信息选用适当的方法,推断此假设应当拒绝或不拒绝。

2,假设检验的一般步骤:

(1)建立假设和确定检验水准:根据实际情况确定单、双侧检验,建立假设,确定检验水准;

(2)选定检验方法和计算统计量:根据设计的类型及研究目的选择合适的检验方法并计算出对应的统计量;(3)确定P 值并做出推断结论。若t≥tα,v,则P≤α,按检验水准,拒绝H0,接受H1,尚可认为差异显著有统计学意义;相反则差异不显著,无统计学意义

3,假设检验时应注意的事项:

(1)要有严密的抽样研究设计;样本必须是从同质总体中随机抽取的,要保证组间的均衡性和资料的可比性,可能影响结果的非处理因素在对比组间应尽可能相同或相近;

(2)正确选择检验方法;根据现有的资料类型、设计类型、分析目的、样本含量等因素选用适当的检验方法,如不符合条件可做适当转换;

(3)正确理解“差别无显著性”的含义,差别有统计学意义,不能理解为两者差差大,也不能理解为所分析的指标在实际应用上就有“显著效果”。

(4)检验假设的推断结论为概率结论,不能绝对化:检验水准人为规定,是相对的,报告结论时应列出检验统计量和P 值的确切范围。

(5)注意是单侧检验还是双侧检验

I 型错误和II 型错误:

I 型错误(type I error)拒绝了实际上成立的,即样本原本来自的总体,由于抽样的偶然性得到了较大的t 值,所以拒绝了,接受了,这类弃真错误称为第一类错误,犯第一类错误的概率是。

II型错误(type II error)是不拒绝实际上不成立的,即“存伪”即样本原本来自的总体,但是由于抽样的偶然性,得到了较小的t 值,得到了较大的P 值,没有拒绝,这类存伪错误称为第二类错误,

犯第二类错误的概率是1-

正态性检验:用均数和标准差描述资料的分布特征,对例数n 较小的样本进行t 检验时,首先要求样本取

自正态分布的总体。

两个方差的齐性检验:两样本均数比较的t 检验和多个样本均数比较的方差分析要求各样本所来自的总体

方差相等。两样本方差的齐性检验:

4.12)

为较小的样本方差,为分子的自由度,为分母的自由度,相应的样本

式中为较大的样本方差,

例数分别为和。当两总体方差齐同时,F 值一般不会离 1 太远;若算得

的 F 值较大,大于我们规定的界值时,就认为两样本所在总体的方差不齐。

t 检验

t 检验:常用于总体标准差未知且样本含量较小时样本均数与总体均数的比较,成组设计的两个小样本的均数的比较及配对设计的两样本均数的比较。

t 检验的应用条件:a,n≤50 b,样本来自正态分布的总体c,两样本均数比较时要求两样本总体方差相等。1,单样本t 检验(one sample t-test):样本均数与已知总体均数比较,目的是推断样本所代表的未知总体均数与已知总体均数有无差别。

()(4.1 )

式中为样本均数,为已知总体均数,s 为样本标准差,n 为样本含量,为自由度。

步骤如下(可为u 检验)

1)建立假设,确定检验水准。

H0:μ=μ0 H1:μ≠μ0

α=0.05

2)计算统计量。

已知,(总体均数)μ0=,n=,=,s=

3)确定P 值,做出推断结论。

按v=n-1 ,查t 界值表,得P>0.05 (或P<0.05 ),按α 检验水准,不拒绝H0(或拒绝H0,接受H1),即根据本资料尚不能(可以)认为?与?有差异。

2,配对设计资料的t 检验分为3 种情况:①将受试对象按一定条件配成对子(同种属、同体重、同年龄、同性别等),再随机分配每对中的2 个受试对象到不同的处理组;②同一受试对象分别接受2 种不同处理,其目的是推断 2 种处理的效果有无差别;③同一受试对象处理前后的比较,其目的是推断某种处理有无作用。

配对设计资料的t 检验(paired t-test for dependent samples)的基本思路:首先计算出各对差值 d 的均数,

当2 种处理结果无差别或某种处理不起作用时,理论上差值的总体均数应该为0,故可将配对设计资料

的t 检验视为样本均数与总体均数的比较。

( 4.2 )

式中为样本中各对差值 d 的均数,为样本差值

的标准差,n为对子数,为自由度。

已知,n1=,∑X1=,∑

=, n2=,∑X2=,∑

=

先列表求差值 d 和

1)建立假设,确定检验水准。 H0:μd =0 H1:μd≠0 α=0.05 2)计算统计量。 已知,n=,∑d=,∑

=

3)确定P 值,做出推断结论。

按 v=n-1 ,查 t 界值表,得 P>0.05 (或 P<0.05 ),按 α 检验水准,不拒绝 H0(或拒绝 H0,接受 H1),即 根据本资料尚不能(可以)认为?。

3,成组设计资料两样本均数比较的 t 检验(two-sample t-test for independent samples ):在临床医学研究中, 进行配对设计比较困难,一般分别从 2 个总体中随机抽样,进行成组设计两样本均数的比较,目的是推断 2 个总体均数是否相等。所比较的两个样本含量最好相等,此时抽样误差最小。

可为 t ,u 检验

1)建立假设,确定检验水准。

:μ1≠μ2 α=0.05

2)计算统计量。

4.3)

1=μ2

1=∑X1/n1=, 2=∑X2/n2=

已知,n1=, 1=,s1=,n2=, 2=,s2=

3)确定P 值,做出推断结论。

按v=n1+n2-2 ,查t 界值表,得P>0.05(或P<0.05),按α检验水准,不拒绝H0(或拒绝H0,接受H1),可以认为?的差别无(或有)统计学意义。

检验

u 检验(u-test,或Z-test):用检验统计量u 来命名的。用于样本含量n 足够大(n>50),或n 虽小但总体标准差已知时的样本均数与总体均数的比较、成组设计两样本均数的比较。

1,单样本u 检验(one sample u-test):

4.4)

式中为样本均数,为已知总体均数,s 为样本标准差,n 为样本含量。

2,成组设计的两样本均数比较的u 检验(two-sample u-test for independent samples):

式中为分别为两样本的方差,、分别为两样本例数。

标准正态分布(u 分布)与t 分布有何异同?

答:相同点:t分布和标准正态分布(u 分布)都是以0 为中心的正态分布。标准正态分布是t分布的特例(自由度是无限大时)。不同点:t分布为抽样分布,u 分布为理论分布;t 分布比标准正态分布的峰值低,且尾部翘得更高;t 分布受自由度大小的影响,随着自由度的增大,逐渐趋近于标准正态分布;t 分布有无数条曲线,而u 分布只有唯一一条曲线。

方差分析

1,方差分析的基本思想:按研究目的和设计类型,将总变异中的离均差平方和SS和自由度分别分解成相应的若干部分,然后求得各相应部分的变异;由于其中的组内(或误差)变异主要反映个体差异或抽样误差,其他各部分的变异与之比较得出统计量F值,根据F值的大小确定P值,并做出推断。

2,方差分析的优点:

(1)不受比较组数的限制,可比较多组均数

(2)可同时分析多个因素的作用

(3)可分析同类间的交互作用

3,方差分析的应用范围:

(1)2 个或多个样本均数间的比较

(2)分析 2 个或多个因素间的交互作用

(3)回归方程的线性假设检验

(4)多元线性回归分析中偏回归系数的假设检验

(5)两样本方差齐性检验

完全随机设计的方差分析:

是将总变异中的离均差平方和 SS 和自由度 分别分解成组间和组内两部分,SS / 和 SS

/SS 分别为组间变异(MS )和组内变异(MS ),两者之比即为统计量 F 。

(1)总离均差平方和及自由度:

2)组间离均差平方和、自由度和均方:

SS =

=

(组数-1 )

MS =

3)组内离均差平方和、自由度和均方:

SS =SS -SS

=N-k (样本量-组数)

MS =

当方差分析的推断结果为拒绝 H 0,接受 H 1,各总体均数不同或不全相同时,应对均数进一步两两比较, 即多重比较(multiple comparisons )。可用 q 检验进行分析:

式中 为方差分析的组内均方,若为两因素或两因素以上的方差分析,则为误差项均方

; 和 分别为两样本的样本含量。

配伍组设计资料的方差分析

配伍组设计亦称随机区组设计(randomized block design ),其多个样本均数比较可用无重复数据的两因素 方差分析(two-way ANOVA )。2 个因素是指主要的研究因素和配伍组因素。两因素的方差分析是把总变 异中的离均差平方和与自由度分别分解成处理组间、配伍组间和误差三部分。计算公式如下:

变异来源 离均差平方和

自由度

均方 MS

F

-C

SS =

,为配伍组数

二,分类变量

统计描述常用相对数,即率,构成比,和相对比对分类资料进行统计描述

1,率(rate):率又称频率指标,它说明某现象发生的频率或强度

2,构成比(proportion):又称构成指标,它说明一事物内部各组成部分所占的比重或分布,常以百分数表示

构成比=

3,相对比(relative ratio)亦称比,是A,B 2 个有关指标之比,说明 A 和 B 的若干倍或百分之几,是相对数的最简单形式。A,B 性质可相同可不同。

相对比=

4,应用相对数时应注意的事项:

(一)计算相对数的分母不宜过小。

(二)分析时不能以构成比代替率。

(三)对观察单位数不等的几个率,不能直接用相加求其平均率。

(四)资料的对比应注意可比性。

(五)对样本率(或构成比)的比较应遵循随机抽样,要做假设检验。

(六)区别清分子分母。

5,率的u 检验

6.5)

四格表资料的专用公式:

(6.6)

式中 a 、b 、c 、d 分别为四格表的实际频数=a+b+c+d 。

① 当所有 T>5,n>40 时用上述公式;

1),样本率与总体率比较:目的是推断样本率所代表的总体率 与某已知总体率 是否相等。根据资料 的不同情况,可以采用不同的假设检验方法:①若 很小,可用 Poisson 分布原理做检验;②若 不太 靠近 0 或1 时,可用二项分布原理做检验;当样本含量 n 足够大时,或 且 ,二项

分布逼近正态分布,可用u 检验计算其样本检验统计量。

6.1)

式中 p 为样本率, 为已知总体率(常为理论值或标准值),n 为样本含量。

2),两样本率比较:两个样本率作比较的目的是推断两个样本各自代表的两总体率是否相等,当两个样本 满足正态近似条件且样本含量较大时,可用u 检验,其公式:

式中 、 分别为两个样本率,

6.2)

分别为两样本含量, 为两个样本率之差的标准误, 为

合并阳性率, , 、 为两个样本阳性例数。 四格表资料的 检验

适用于分类变量资料中推断两个或多个总体率(或构成比)之间有无差别,两个分类指标之间有无相关关 系的检验以及检验频数分布的拟合优度。

(6.3)

式中 A 代表实际频数,T 代表理论频数。格子理论频数 可用同样方法求得,其计算公式为:

6.4)

四格表的

值的校

正。

②当有140 时,需进行连续性校正:

6.7)

( 6.7 )

③或n<40 时,需用四格表资料的确切概率法。

行×列表资料的检验。

(6.9)

式中n 是总例数,A是每个格子的实际频数,,分别为某格子对应的行合计和列合

行×列表检验注意事项

(1)X2检验要求理论频数不宜太小,否则将导致偏性。一般认为行X 列表资料中不宜有1/5 以上的格子理论数小于5,或有一个格子理论数小于1。处理方法:最好的方法是增加样本例数,以增大理论频数;且精确概率法;进行合理的合并;删除理论频数太小的行和列,后两种方法将损失一定的信息并影响样本的随机性。

(2)单向有序列行X列表的统计处理:当效应按强弱分为若干个级别,试验结果整理为单向有序行列表,在比较各处理组的效应有无差别时,宜用秩和检验或Ridit 分析。

3)当多个样本率比较的检验。结论为拒绝H0,只能认为各总体率或总体构成比之间总的说来有差别,但不能说明它们彼此间都有差别,或某两者间有差别。若要进一步解决此问题,可用卡方分割法。配对四格表资料的卡方检验:

(一)关联性分析:

(1)建立假设检验,确定检验水准。

H0:两种方法的检验结果无关系

H1:两种方法的检验结果有关系α=0.05

(2)计算统计量X2值。

①n>=40,T>=5,

②n>=40,1

③n<40 或T<1,四格表确切概率法。

(3)确定P 值,做出推断结论。

X2>3.84,P<0.05,按α=0.05 检验水准,拒绝H0,接受H1,可以认为两种方法的检验结果有关系。

(二)差别性检验:

(1)建立假设检验,确定检验水准。

H0:两总体的B=C

H1:两总体的B 不等于C

α=0.05

(2)计算统计量X2值。

①b+c>40 时:

②b+c<40 时,

(3)确定P 值,做出推断结论。

X2>3.84,P<0.05,按α=0.05 检验水准,拒绝H0,接受H1,可以认为两种方法的检验结果有差别。

(X20.05(1)=3.84, X20.005(1)=7.88)

非参数检验

参数检验和非参数检验的优缺点:

参数检验的优点是对资料的分析利用充分,统计分析的效率高;缺点是对资料的要求高,适用范围有限。非参数检验的优点:(1)适用范围广,对变量的类型和分布无特殊要求,不受总体分布的限制;(2)对数据的要求不严,对某些指标不便准确测定的资料也可应用;(3)方法简便,易于理解和掌握。缺点是如果对符合参数检验的资料用了非参数检验,因不能充分利用资料提供的信息,会使检验效能低于非参数检验;若要使检验效能相同,往往需要更大的样本含量。

配对设计的符号秩和检验

Wilcoxon 符号秩和检验(Wilcoxon signed rank test)是推断其差值是否来自中位数为零的总体的方法,可用于配对设计差值的比较和单一样本与总体中位数的比较。

(一)基本思想其假设是差值的总体中位数等于0 ,备择假设是差别的总体中位数不等于0 ,

如果差别太大,就拒绝;反之,不拒绝。

(二)方法步骤: 1 ,建立检验假设,确定检验水准; 2 ,计算检验统计量T 值: a ,求各对的差值; b ,编秩;c,求秩和,确定统计量T;3,确定P 值,做出推断结论。完全随机设计两样本比较的秩和检验

亦称两个样本比较的秩和检验,利用两样本观察值的秩和来推断样本分别代表的总体分布是否相同。成组设计多样本比较的秩和检验,

利用多个样本的秩和来推断各样本分别代表的总体的分布有无差别。

配伍组设计的秩和检验M 检验

秩和检验步骤:

(1)建立检验假设,确定检验水准。

H0:?和?的?总体分布相同。

H1:?和?的?总体分布不同。

(2)计算统计量T 值。

1)编秩将2 组数据由小到大统一编秩,相同数据取平均秩次。

2)求秩和,确定统计量T 2 组秩次分别相加,若两组例数相等,则任取一组的秩和为统计量;若两组例

数不等,则以样本例数较小者对应的秩和为统计量。

3)确定P 值,做出推断结论。

查T 界值表(成组设计用),若T值在界值范围内,P>0.05,按α=0.05 检验水准,不拒绝H0,可以认为两者的总体分布相同;若T 值<=界值或在界值范围外,P<=0.05,按α=0.05 检验水准,,拒绝H0,接受H1,可以认为两的分布位置不同。

如n1 或n2-n1 超出了成组设计T 界值的范围,可用正态近似检验:

如相同秩次较多(>25%),应校正:

uc=?>1.96,P<0.05。按α=0.05 检验水准,,拒绝H0,接受H1,可以认为两的分布位置不同。

非参数统计检验的适用条件:(1)资料不符合参数统计法的应用条件(总体为正态分布、且方差相等)或总体分布类型未知;(2)等级资料;(3)分布呈明显偏态又无适当的变量转换方法使之满足参数统计条件;(4)在资料满足参数检验的要求时,应首选参数法,以免降低检验效能。

直线回归方程的应用:(1)定量描述两变量之间的依存关系;(2)利用回归议程进行预测;(3)利用回归议程进行统计控制。应用直线回归的注意事项:

(1)作回归分析要有实际意义;

(2)直线回归分析的资料,一般要求因变量Y 是来自正态分布总体的随机变量,自变量X可以是正态随机变量,也可以是精确测量和严格控制的值.

(3)进行回归分析时,应先绘制散点图,如提示有直线趋势,可作线性回归分析,否则应考虑作数据转换或进行非线性回归;

(4)对离群值应检查核对,予以修正或剔除;

(5)回归直线不要外延。

简述直线相关与回归的区别与应用。答:区别:(1)资料要求不同,相关要求两个变量是双变量正态分布;回归要求应变量Y服从正态分布,而自变量X 是能精确测量和严格控制的变量。(2)统计意义不同,相关反映两变量间的伴随关系这种关系是相互的,对等的;不一定有因果关系;回归则反映两变量间的依存关系,有自变量与应变量之分,一般将“因”或较易测定、变异较小者定为自变量。这种依存关系可能是因果关系或从属关系。(3)分析目的不同,相关分析的目的是把两变量间直线关系的密切程度及方向用一统计指标表示出来;回归分析的目的则是把自变量与应变量间的关系用函数公式定量表达出来。联系:(1)变量间关系的方向一致,对同一资料,其r 与b 的正负号一致。(2)假设检验等价,对同一样本,tr=tb,由于tb计算较复杂,实际中常以r的假设检验代替对b的检验。(3)相关和回归可以相互解释,相关系数的平方r2(又称决定系数)是回归平方和与总的离均差平方和之比,故回归平方和是引入相关

变量后总平方和减少的部分。4)对于II型回归,r与b 值可相互换算,

简述相关系数和回归系数的联系与区别。

答:区别:(1)两种系数的意义不同:回归系数是表明两个变量之间数量上的依存关系,回归系数越大回归直线越陡峭,表示应变量随自变量变化越快;相关系数是表明两个变量之间相关的方向和紧密程度的,相关系数越大,两个变量的关联程度越大。(2)r 与b 有区别,回归系数b表示X每增(减)一个单位,Y 平均改变 b 个单位;相关系数r 说明具有直线关系,收集整理的两个变量间相关关系的密切程度与相关

方向。(3)计算公式不一样。(4)取值范围不一样:-∞

联系:(1) r与b值可相互换算,;(2) r与b正负号一致;(3)r与b的假设检验等价;(4)回归可解释相关。相关系数的平方r2(又称决定系数)是回归平方和与总的离均差平方和之比,故回归平方和是引入相关变量后总平方和减少的部分。

判别分析:是根据一批已知类别的样品多指标观察数据,制定出一个分类标准,以指导对未知类别煌新个体归类的多元统计分析方法。

协方差分析:是把直线回归分析与方差分析结合焉的一种统计分析方法,用来消除混杂因素对处理效应的影响,提高分析结果的真实性,属多元统计方法范畴。

思想:将因变量Y的残差分为两部分,即为修正均数间的变异和组内残差。应用条件:A.各样本来自正态分布总体,且总体方差相等;B.各处理组的总体直线回归系数相等,且都不为0。

Fisher准则:从方差分析的观点,要求投影点的类间方差与类内方差之比最大。

医学统计知识点整理(1)

医学统计学知识点整理 第一节统计学中基本概念 一、同质与变异 同质:统计研究中,给观察单位规定一些相同的因素情况。 如儿童的生长发育,规定同性别、同年龄、健康的儿童即为同质的儿童。 变异:同质的基础上个体间的差异。 “同质”是相对的,是客观事物在特定条件下的相对一致性,而“变异”则是绝对的 二、总体与样本 1、总体:是根据研究目的所确定的,同质观察对象(个体)所构成的全体。 2、样本:是从总体中随机抽取的部分观察单位变量值的集合。 三、参数与统计量 总体参数:根据总体个体值统计计算出来的描述总体的特征量。用希腊字母表示。μ.δ.π 样本统计量:根据样本个体值统计计算出来的描述样本的特征量。用拉丁字母表示。X.S.p 总体参数一般是不知道的,抽样研究的目的就是用样本统计量来推断总体参数,包括区间估计和假设检验 四、误差:实测值与真值之差★ 1.随机误差:是一类不恒定的、随机变化的误差,由多种尚无法控制的因素引起。随机测量误差、抽样误差。 2.系统误差:是一类恒定不变或遵循一定变化规律的误差,其产生原因往往是可知的或可能掌握的。 3.非系统误差:过失误差,可以避免或清除。 五、概率 是用来描述事件发生可能性大小的一个量值,常用P表示。概率取值0~1。 统计上一般将P≤0.05或P≤0.01的事件称为小概率事件,表示其发生的概率很小,可以认为在一次抽样中不会发生。 第二节统计资料的类型★

变量:确定总体之后,研究者应对每个观察单位的某项特征进行观察或测量,这种特征能表现观察单位的变异性,称为变量。 一、数值变量资料 又称为计量资料、定量资料:观测每个观察单位某项指标的大小而获得的资料。表现为数值大小,带有度、量、衡单位。如身高(cm)、体重(kg)、血红蛋白(g)等。 二、无序分类变量资料 又称为定性资料或计数资料:将观察对象按观察对象的某种类别或属性进行分组计数,分组汇总各组观察单位后得到的资料。 分类:二分类:+ -;有效,无效;多分类:ABO血型系统 特点:没有度量衡单位,多为间断性资料 【例题单选】某地A、B、O、AB血型人数分布的数据资料是( ) A.定量资料 B.计量资料 C.计数资料 D.等级资料 【答案】C 【解析】ABO血型系统人数分布资料属于无序分类变量资料,又称为计数资料。因为是按照变量的血型分类,血型表现为互不相容的属性。所以本题选C。 【例题单选】测量正常人的脉搏数所得的变量是() A.二分类变量 B.多分类变量 C.定量变量 D.定性变量 【答案】C 【解析】脉搏数有数值大小,有度量衡,所以这个资料属于定量资料。本题选C。 三、有序分类变量资料 半定量资料或等级资料:将观察对象按观察对象的某种属性的不同程度分成等级后分组计数,分组汇总各组观察单位后得到的资料。 特点:每一个观察单位没有确切值,各组之间有性质上的差别或程度上的不同举例:- + ++ +++ 第三节统计工作的基本步骤★ 1.统计设计 2.收集资料

医学统计学章节重点归纳

医学统计学章节重点归纳 第一节概述 1、主要内容:a、卫生统计学的基本原理和方法(研究设计和数据处理中的统计理论和方法)b、健康统计(医 学人口统计、疾病统计和生长发育统计)c、卫生服务统计(卫生资源、医疗卫生服务的需求和利用、医疗保健制度和管理中的统计问题)。 2、 卫生统计工作的步骤:设计、资料的搜集、资料的整理、资料的分析 3、医学统计资料主要四个方面:统计报表、报告卡(单)、日常医疗卫生工作记录,专题研究或实验。 4、观察单位:是获得数据的最小单位,观察单位是根据研究目的确定的,观察单位可以是人、标本、家庭、国 家等。 5、变异:是指客观事物的多样性和不确定性。 6、变量: 观察单位的某种特征,称为变量。a、数值变量(定量变量)b、分类变量(定型变量或字符变量)。 7、总体:根据研究目的所确定的同质研究对象的全体。确切的说是性质相同的所有观察单位的某种变量的集合。 8、样本:从总体中随机抽取部分观察单位,其变量值就构成样本,通过样本信息来推断总体特征。 9、概率:事件发生的可能性大小的量度,通常以符号P表示。 10、误差:测量值与真值之差或样本指标和总体指标之差。分为随机误差和系统误差。 第二节数值资料的统计描述 1、频数分布就是观察值在所取得范围内分布的情况。重要特征:集中趋势和离散趋势。 2、频数分布类型:正态分布型频数、正偏态分布型频数,负偏态分布型频数。 3、集中趋势指标:算术平均数(均数)、几何均数、中位数。 指标使用条件计算公式 算术平均数适用于正态或近似正态分布 的数值变量资料 几何均数①对数正态分布,即数据经 过对数变换后呈正态分布的 资料;②等比级数资料,即 观察值之间呈倍数或近似倍 数变化的资料。 中位数①非正态分布资料(对数正 态分布除外);②频数分布 的一端或两端无确切数据的 资料③总体分布不清楚的资 料。为奇数 , 为偶数, 4、离散型趋势指标:极差、标准差和变异系数 指标计算公式主要优缺点 极差R=Xmax-Xmin 计算简单,便于理解;只考虑最大值与最小值之差异,不能反映 组内其它观察值的变异度,不稳定,受样本量影响很大。

医学统计学教学大纲

医学统计学教学大纲 一、课程的性质、任务 《医学统计学》是开展医学研究的重要手段,是认识和揭示医学领域里各种数量特征的科学分析方法,是使医学科研得以成功的一种重要辅助工具。科技的迅速发展,大量信息的产生要求我们面对纷乱复杂的数据世界能够正确、科学地去认识和处理,医学统计分析是医学生教育培训必修课程,特别是中、高级医学人才的培养,应该使其懂得和掌握一些基本的医学科研设计原则或实验研究方法,能正确处理医学信息和数据,在未来的实践工作中发挥作用。医学统计是一种有力工具。它同科研的总体设计、资料采集、整理、分析直到最后作出结论都有密切关系。掌握了这个工具可以使用较少的人力、物力和时间获得比较可靠的结果。只有正确运用统计分析方法,才不致于造成不应有的缺陷或得出错误的结论。数据作为信息的主要载体广泛存在。我们就要借助统计学这个工具,在混沌中发现规律。统计学就是研究数据及其存在规律的科学。 (本大纲规定教学时数为62学时,理论讲授38学时,实习或讨论24学时) 二、课程教学目标 本教学大纲适用于大专检验专业学生。同学在具备一定医学基础知识后,再通过本课程的学习使学生理解和知道随着现代医学的发展,正确地运用统计学方法和理念,进行实验设计和实验数据处理,系统地学习统计学使学员对医学科研工作的认识和提高自身文化素质和业务水平,具有十分重要的实际意义。 大纲中应当体现理论联系实际的原则,教学过程中完全采用医学中的实例,讲述基本概念及基本原理,注意贯彻启发式教学原则,把统计思维方法的训练作为课堂教学的内容,对于统计公式着重讲解其意义、使用方法、应用条件和应用时注意事项,不必追究公式的数学原理和推导过程。本课程通过讲授、课堂实习、课堂讨论,使学生熟悉统计的基本理论、掌握统计方法的应用,通过课后复习、完成作业,加深对基本理论和基本概念的理解,进一步掌握基本方法。理论讲授38学时,实习或讨论24学时 【教学内容分作三级要求】 第一级是学生必须掌握的内容,教师应于理论课详细讲授,亦为实习课与考试的重点。 第二级是要求熟悉的内容,教师应选择性讲授,未讲授部分由学生自学。 第三级为一般了解内容,供学有余力的学生自学,教师亦可选择性讲授,但不在考试范围内。 三、教学内容和要求

健康管理师考试重点归纳总结

第一章健康管理概论 健康管理是以现代健康概念(生理、心理和社会适应能力)和新的医学模式(生理、心理、社会)以及中医治未病为指导,通过采用现代医学和现代管理学的理论、技术、方法和手段,对个体或群体整体健康状况及其影响健康的危险因素进行全面检测、评估、有效干预与连续跟踪服务的医学行为及过程。 其目的是以最小投入获取最大健康效益。 健康管理的八大目标: 1.完善健康和福利 2.减少健康危险因素 3.预防疾病高危人群患病 4.易化疾病的早期诊断 5.增加临床效用、效率 6.避免可预防的疾病相关并发症的发生 7.消除或减少无效或不必要的医疗服务 8.对疾病结局作出度量并提供持续的评估和改进 健康管理的特点: 标准化足量化个体化系统化 健康管理的三个基本步骤: 1.了解和掌握健康,开展健康信息收集和健康检查 2.关心和评价健康,开展健康风险评价和健康评估 3.干预和促进健康,开展健康风险干预和健康促进 健康风险评估是手段,健康干预是关键,健康促进是目的 健康管理的五个服务流程: 1.健康调查与健康体检 2.健康评估 3.个人健康咨询 4.个人健康管理后续服务 5.专项的健康和疾病管理服务 健康管理的六个基本策略: 1.生活方式管理 2.需求管理 3.疾病管理 4.灾难性病伤管理 5.残疾管理 6.综合群体健康管理 生活方式管理的特点: 1.以个体为中心,强调个体的健康责任和作用

2.以预防为主,有效整合三级预防 生活方式的四大干预技术: 教育激励训练营销 影响需求管理的四大主要因素: 1.患病率 2.感知到的需要 3.消费者选择偏好 4.健康因素以外的动机(残疾补贴、请病假的能力等) 需求管理的策略: 1.小时电话就诊和健康咨询 2.转诊服务 3.基于互联网的卫生信息数据库 4.健康课堂 5.服务预约 疾病管理的三个特点: 1.目标人群是患有特定疾病的个体 2.不以单个病例和(或)其单次就诊事件为中心,而关注个体或群体连续性的健康状况与 生活质量 3.医疗卫生服务以及干预措施的综合协调至关重要 灾难性病伤管理的五大特点: 1.转诊及时 2.综合考虑各方面因素,制订出适宜的医疗服务计划 3.具备一支包含多种医学专科及综合业务能力的服务队伍,能够有效应对可能出现的多种 医疗服务需要 4.最大程度地帮助病人进行自我管理 5.尽可能使患者及其家人满意 残疾管理的八大目标: 1.防止残疾恶化 2.注重功能性能力 3.设定实际康复和返工的期望值 4.详细说明限制事项和可行事项 5.评估医学和社会心理学因素 6.与病人和雇主进行有效沟通 7.有需要时要考虑复职情况 8.实行循环管理 《健康中国2030规划纲要》 1.强调预防为主,防患未然

医学统计学知识点范文.doc

第一章绪论 1、统计学,是关于数据收集、整理、分析、表达和解释的普遍原理和方法。 2、研究对象:具有不确定性结果的事物。 3、统计学作用:能够透过偶然现象来探测其规律性,使研究结论具有科学性。 4、统计分析要点:正确选用统计分析方法,结合专业知识作出科学的结论。 5、医学统计学基本内容:统计设计、数据整理、统计描述、统计推断。 6、医学统计学中的基本概念 (1) 同质与变异 同质,指根据研究目的所确定的观察单位其性质应大致相同。 变异,指总体内的个体间存在的、绝对的差异。 统计学通过对变异的研究来探索事物。 (2) 变量与数据类型 变量,是反映实验或观察对象生理、生化、解剖等特征的指标。 变量的观测值,称为数据 分为三种类型:定量数据,也称计量资料,指对每个观察单位某个变量用测量或其他定量方法准确获得的定量结果。(如身高、体重、血压、温度等) 定性数据,也称计数资料,指将观察单位按某种属性分组计数的定性观察结果。包括二分类、无序多分类。(进一步分为二分类和多分类,如性别分为男和女,血型分为A、B、O、AB等) 有序数据,也称半定量数据或等级资料,指将观察单位按某种属性的不同程度或次序分成等级后分组计数的观察结果,具有半定量性质。 统计方法的选用与数据类型有密切的关系。 (3)总体与样本 总体,指根据研究目的确定的所有同质观察单位的全体,包括所有定义范围内的个体变量值。 样本,是从研究总体中随机抽取部分有代表性的观察单位,对变量进行观测得到的数据。抽样,是从研究总体中随机抽取部分有代表性的观察单位。 参数,指描述总体特征的指标。 统计量,指描述样本特征的指标。 (4)误差 误差,指观测值与真实值、统计量与参数之间的差别。 可分为三种:系统误差,也称统计偏倚,是某种必然因素所致,不是偶然机遇造成的,误差的大小通常恒定,具有明确的方向性。 随机测量误差,是偶然机遇所致,误差没有固定的大小和方向。 抽样误差,是抽样引起的统计量与参数间的差异。 抽样误差主要来源于个体的变异。 统计学主要研究抽样误差。 (5)概率 概率,是描述某事件发生可能性大小的量度。 必然事件,事件肯定发生,概率P(U)=1; 随机事件,事件可能发生,可能不发生,概率介于0≤P(A)≤ 1; 不可能事件,事件肯定不发生,概率P(∮)=0; 小概率事件,事件发生的可能性很小,概率P(A)≤ 0.05、或P(A)≤ 0.01。 医学科研中,P(A)≤0.05作为事物差别有统计意义,P(A)≤ 0.01作为事物差别有高度统

医学统计学分析基本思路指南

医学统计学分析基本思路指南 医学统计学的学习一定要以理解为主。对于初学者,不必强记一大堆的公式,也不要死钻牛角尖,非要弄明白为什么这种方法叫“t检验”、“F检验”,为什么这个残差叫做“学生化残差”等等。这些都是历史遗留问题,感兴趣的读者可以查阅统计学史。对于只想应用的人来讲,你只要了解在什么情况下应该用什么方法,什么指标应该用于什么情形。尽管多数统计教材都说了数据分析应该先做假设检验,然后选定统计量,然后怎么怎么。但实际中我们拿到一堆数据的时候,不会坐在桌上先列出零假设和备择假设,也不会满座子地计算统计量。 更实际的分析思路是: (1)先确定研究目的,根据研究目的选择方法。不同研究目的采用的统计方法不同,常见的研究目的主要有三类:一是差异性研究,即比较组间均数、率等的差异,可用的方法有t检验、方差分析、χ2检验、非参数检验等。二是相关性分析,即分析两个或多个变量之间的关系,可用的方法有相关分析。三是影响性分析,即分析某一结局发生的影响因素,可用的方法有线性回归、logistic回归、Cox回归等。 (2)明确数据您身边的论文好秘书:您的原始资料与构思,我按您的意思整理成优秀论文论著,并安排出版发表,扣1550116010 、766085044自信我会是您人生路上不可或缺的论文好秘书类型,根据数据类型进一步确定方法。不同数据类型采用的统计方法也不同。定量资料可用的方法有t检验、方差分析、非参数检验、线性相关、线性回归等。分类资料可用的方法有χ2检验、对数线性模型、logistic回归等。图1.6简要列出了不同研究目的、不同数据类型常用的统计分析方法。 (3)选定统计方法后,需要利用统计软件具体实现统计分析过程。SAS中,不同的统计方法对应不同的命令,只要方法选定,便可通过对应的命令辅之以相应的选项实现统计结果的输出。 (4)统计结果的输出并非数据分析的完成。一般统计软件都会输出很多结果,需要从中选择自己需要的部分,并做出统计学结论。但统计学结论不同于专业结论,最终还需要结合实际做出合理专业结论。下面是本人简单总结的常用方法的选择,可供读者参考。

医学统计学知识点总结

医学统计学 1. 对定量资料进行统计描述时,如何选择适宜的指标 定量资料统计描述常用的统计指标及其适用场合描述内容指 标 意义适用场合 平均水平;均 数 个体的平均值· 对称分布 几何均数平均倍数取对数后对称分布 中位数[ 位次居中的观察值 ①非对称分布;②半定量资料;③末端开 口资料;④分布不明 众 数 频数最多的观察值不拘分布形式,概略分析 ? 调和均数 基于倒数变换的平均值正偏峰分布资料 变异度全 距 观察值取值范围不拘分布形式,概略分析 标准差 (方差) 观察值平均离开均数的 程度对称分布,特别是正态分布资料 四分位数 间距 ? 居中半数观察值的全距 ①非对称分布;②半定量资料;③末端开 口资料;④分布不明 变异系数标准差与均数的相对比①不同量纲的变量间比较;②量纲相同但 数量级相差悬殊的变量间比较 定性资料:阳性事件的概率,概率分布,强度和相对比。 ¥ 2. 应用相对数时应注意哪些问题 答:(1)防止概念混淆相对数的计算是两部分观察结果的比值,根据这两部分观察结果的特点,就可以判断所计算的相对数属于前述何种指标。 (2)计算相对数时分母不宜过小样本量较小时以直接报告绝对数为宜。 (3)观察单位数不等的几个相对数,不能直接相加求其平均水平。 (4)相对数间的比较须注意可比性,有时需分组讨论或计算标准化率。 3. 常用统计图有哪些分别适用于什么分析目的 常用统计图的适用资料及实施方法 < 图形 适用资料实施方法 条图组间数量对比用直条高度表示数量大小 直方图用直条的面积表示各组段的频数或频率

( 定量资料的分布 百分条图构成比用直条分段的长度表示全体中各部分的构成比 饼图构成比用圆饼的扇形面积表示全体中各部分的构成比 定量资料数值变动线条位于横、纵坐标均为算术尺度的坐标系 、 线图 半对数线图定量资料发展速度线条位于算术尺度为横坐标和对数尺度为纵坐标的坐标 系 散点图} 双变量间的关联点的密集程度和形成的趋势,表示两现象间的相关关系箱式图定量资料取值范围用箱体、线条标志四分位数间距及中位数、全距的位置茎叶图定量资料的分布' 用茎表示组段的设置情形,叶片为个体值,叶长为频数 第3章概率分布(连续随机变量的正态分布;离散随机变量的二项分布及Poisson分布)1. 服从二项分布及Poisson分布的条件分别是什么 二项分布成立的条件:①每次试验只能是互斥的两个结果之一;②每次试验的条件不变;③各次试验独立。 Poisson分布成立的条件:除二项分布成立的三个条件外,还要求试验次数n很大,而所关心的事件发生的概率 很小。 、 2. 二项分布、Poisson分布分别有什么特征 ①二项分布、Poisson分布都是离散型分布。 ②二项分布的形状取决于π与n的大小。π=时,不论n大小,对称分布。π≠时,图形呈偏态,随n增大而逐渐对称。当n足够大,π或1-π不太小,二项分布近似正态。 ③Poisson分布μ越小,分布越偏。μ越大,分布越对称。当n足够大时,分布接近正态。 4、正态分布应用 ①估计变量值的频数分布 《 ②制定参考值范围 ③质量控制 ④正态分布是很多统计方法的基础 5. 正态分布特征 ①以均数为中心,左右对称 ②正态曲线在横轴上方均数处取得最高点 ~ ③正态分布有两个参数,即均数(位置参数)和标准差(变异度参数)(μ,σ2 ;标准0,1)

常用医学统计学方法汇总

选择合适的统计学方法 1连续性资料 1.1 两组独立样本比较 1.1.1 资料符合正态分布,且两组方差齐性,直接采用t检验。 1.1.2 资料不符合正态分布,(1)可进行数据转换,如对数转换等,使之服从正态分布,然后对转换后的数据采用t检验;(2)采用非参数检验,如Wilcoxon检验。 1.1.3 资料方差不齐,(1)采用Satterthwate 的t’检验;(2)采用非参数检验,如Wilcoxon检验。 1.2 两组配对样本的比较 1.2.1 两组差值服从正态分布,采用配对t检验。 1.2.2 两组差值不服从正态分布,采用wilcoxon的符号配对秩和检验。 1.3 多组完全随机样本比较 1.3.1资料符合正态分布,且各组方差齐性,直接采用完全随机的方差分析。如果检验结果为有统计学意义,则进一步作两两比较,两两比较的方法有LSD检验,Bonferroni法,tukey 法,Scheffe法,SNK法等。 1.3.2资料不符合正态分布,或各组方差不齐,则采用非参数检验的Kruscal-Wallis法。如果检验结果为有统计学意义,则进一步作两两比较,一般采用Bonferroni法校正P值,然后用成组的Wilcoxon检验。 1.4 多组随机区组样本比较 1.4.1资料符合正态分布,且各组方差齐性,直接采用随机区组的方差分析。如果检验结果为有统计学意义,则进一步作两两比较,两两比较的方法有LSD检验,Bonferroni法,tukey 法,Scheffe法,SNK法等。 1.4.2资料不符合正态分布,或各组方差不齐,则采用非参数检验的Fridman检验法。如果检验结果为有统计学意义,则进一步作两两比较,一般采用Bonferroni法校正P值,然后用符号配对的Wilcoxon检验。 ****需要注意的问题: (1)一般来说,如果是大样本,比如各组例数大于50,可以不作正态性检验,直接采用t 检验或方差分析。因为统计学上有中心极限定理,假定大样本是服从正态分布的。 (2)当进行多组比较时,最容易犯的错误是仅比较其中的两组,而不顾其他组,这样作容易增大犯假阳性错误的概率。正确的做法应该是,先作总的各组间的比较,如果总的来说差别有统计学意义,然后才能作其中任意两组的比较,这些两两比较有特定的统计方法,如上面提到的LSD检验,Bonferroni法,tukey法,Scheffe法,SNK法等。**绝不能对其中的两

医学统计学重点总结

医学统计学 第一章 医学统计中的基本概念 1 医学统计工作的内容:设计,收集资料,整理资料,分析资料。 2 资料的类型:计量资料(数值变量),计数资料(无序分类),等 变异(variation):在同质的基础上被观察个体的差异。级分组资料(有序分类)。 3 同质(homogeneity):对研究指标有影响的非实验因素相同。 4 总体(population):根据研究目的确定的同质的全部研究对象称总体 。 样本(sample):根据随机化的原则从总体中抽出有代表性的一部分观察单位组成的子集称样本。 5 参数(parameter):总体的设计指标称为参数。 统计量(statistic):样本的统计指标称为统计量。 6 变量(variable):观察对象的特征或指标称为变量,测量的结果即为变量值。 7 概率(probability):描述随机事件发生的可能性的大小的一个量度,其概率介于0与1之间。 第二章 集中趋势的统计描述 一 算术均法(mean)简称为均数,适用于正态或近似正态分布资料 (一)直接法 X n x n X X X n ∑= +?++= 21 (二)加权法(针对频数表)n fx n x f f f X k k ∑= +++= (21) 二 几何均数(geometic mean,G)适用于倍数关系变化,经对数转换后呈正态分布(如:抗体滴度, 血清凝集效价,细菌计数,某些物质浓度等) G= n n X X X ?21 为了计算方便,常改用对数的形式计算,即=G lg 1 -( n X ∑lg ) 对于频数表资料,可用公式 G=lg 1 -( n x f ∑lg ) 三 中位数(M)与百分位数 中位数:适用于偏态分布资料,末端无确切数值的资料及分布情况不确定 公式:M=L+( M L f f n -5.0) M i L,M i ,M f 分别为M 所在组段的下限,组距与频数,L f 为M 所在组段之前各组数的累积频数。 百分位数:用符号X P 表示,x 即百分位 公式:x P =L+( x L f f x n -%·)x i 式中L,x i ,x f 分别为x P 所在组段的下限,组距与频数,L f 为x P 所在组段之前各组段的累积频数

医学统计学考试重点整理

一、基本概念 1.总体与样本 总体:所有同质观察单位某种观察值(即变量值)的全体 样本:是总体中抽取部分观察单位的观察值的集合 2.普查与抽样调查 普查:就是全面调查,即调查目标总体中全部观察对象 抽样调查:是一种非全面调查,即从总体中抽取一定数量的观察单位组成样本,对样本进行调查 3.参数与统计量 参数:总体的某些数值特征 统计量:根据样本算得的某些数值特征 4.Ⅰ型与Ⅱ型错误 假设检验的结论 真实情况拒绝H0不拒绝H0 H0正确Ⅰ型错误(ɑ) 推断正确(1 ?ɑ) H0不正确推断正确(1?β) Ⅱ型错误(β) Ⅰ型错误(ɑ错误): H0为真时却被拒绝,弃真错误 Ⅱ型错误(β错误): H0为假时却被接受,取伪错误 5.随机化原则与安慰剂对照 随机化原则:是将研究对象随机分配到实验组和对照组,使每个研究对象都有同等机会被分配到各组中去,以平衡两组中已知和未知的混杂因素,从而提高两组的可比性,避免造成偏倚。(意义:①是提高组间均衡性的重要设计方法;②避免有意扩大或缩小组间差别导致的偏倚;③各种统计学方法均建立在随机化基础上) 安慰剂对照:是一种常用的对照方法。安慰剂又称伪药物,是一种无药理作用的制剂,不含试验药物的有效成分,但其感观如剂型、大小、颜色、质量、气味及口味等都与试验药物一样,不能被受试对象和研究者所识别。(安慰剂对照主要用于临床试验,其目的在于控制研究者和受试对象的心理因素导致的偏倚,并提高依从性。安慰剂对照还可以控制疾病自然进程的影响,显示试验药物的效应) 6.误差与标准误(区分率与均数) ㈠均数 抽样误差:由个体变异产生的、随机抽样引起的样本统计量与总体参数间的差异。 标准误:是指样本均数的标准差,反映抽样误差大小的定量指标,其公式表示为S x =S/√n ㈡样本率 率的抽样误差:样本率p和总体率π的差异 率的标准误:样本率的标准差,公式为σp=√π(1-π)/n

医学统计学重点图表总结

描述内容 指 标 意 义 适 用 场 合 平均水平 均 数 个体的平均值 对称分布 几何均数 平均倍数 取对数后对称分布 中 位 数 位次居中的观察值 ①非对称分布;②半定量资料;③末端开口资料;④分布不明 众 数 频数最多的观察值 不拘分布形式,概略分析 调和均数 基于倒数变换的平均值 正偏峰分布资料 变 异 度 全 距 观察值取值范围 不拘分布形式,概略分析 标 准 差 (方 差) 观察值平均离开均数的程度 对称分布,特别是正态分布资料 四分位数间距 居中半数观察值的全距 ①非对称分布;②半定量资料;③末端开口资料;④分布不明 变异系数 标准差与均数的相对比 ①不同量纲的变量间比较;②量纲相同但数量级相差悬殊的变量间比较 4. 常用统计图有哪些?分别适用于什么分析目的? 常用统计图的适用资料及实施方法 图 形 适 用 资 料 实 施 方 法 条 图 组间数量对比 用直条高度表示数量大小 直 方 图 定量资料的分布 用直条的面积表示各组段的频数或频率 百分条图 构成比 用直条分段的长度表示全体中各部分的构成比 饼 图 构成比 用圆饼的扇形面积表示全体中各部分的构成比 线 图 定量资料数值变动 线条位于横、纵坐标均为算术尺度的坐标系 半对数线图 定量资料发展速度 线条位于算术尺度为横坐标和对数尺度为纵坐标的坐标系 散 点 图 双变量间的关联 点的密集程度和形成的趋势,表示两现象间的相关关系 箱 式 图 定量资料取值范围 用箱体、线条标志四分位数间距及中位数、全距的位置 茎 叶 图 定量资料的分布 用茎表示组段的设置情形,叶片为个体值,叶长为频数 定性资料统计描述常用的统计指标及其适用场合 指标 计算公式 适用场合 频率 n/N 估计总体中某一结局发生的概率 频率分布 n 1/N ,n 2/N,…..,n k /N 估计总体中所有可能结局发生的概率 强度 阳性人数/总观察人时数 估计总体中单位时间内某一结局发生的概率 比 A/B 估计两个指标的相对大小 4.常用参考值范围的制定? 参考值范 围(%) 正态分布法 百分位数法 双侧 单侧 双侧 单侧 下限 上限 下限 上限 90 S X 64.1± S X 1.28- S X 1.28+ P 5~P 95 P 10 P 90 95 S X 96.1± S X 64.1- S X 64.1+ P 2.5~P 97.5 P 5 P 95 99 S X 58.2± S X 2.33- S X 2.33+ P 0.5~P 99.5 P 1 P 99

医学统计学知识点汇总(精华)

医学统计学知识点汇总(精华) 一.概论 1,医学统计学:运用概率论和数理统计学的原理和方法,研究医学领域中随机现象有关数据的搜集、整理、分析和推断,进而阐明其客观规律性的一门应用科学。 2,医学统计学的主要内容: 1)统计研究设计调查研究设计和实验研究设计 2)医学统计学的基本原理和方法研究设计和数据处理中的基本统计理论和方法。 A:资料的搜集与整理 B:常用统计描述,集中趋势和离散趋势,相对数,相关系数,回归系数,统计表,统计图 C:统计推断,如参数估计和假设检验。 3)医学多元统计方法多元线性回归和逐步回归分析、判别分析、聚类分析、主成分分析、因子分析、logistic回归与Cox回归分析。 3,统计工作步骤: 1)设计明确研究目的和研究假说,确定观察对象与观察单位,样本含量和抽样方法,拟定研究方案,预期分析指标,误差控制措施,进度与费用。 2)搜集材料 A,搜集材料的原则及时、准确、完整 B,统计资料的来源医学领域的统计资料的来源主要有三个方面。一是统计报表,二是经常性工作记录,三是专题调查或专题实验。 C,资料贮存 3)整理资料 a检查核对b设计分组c拟定整理表d归表 4)分析资料统计分析包括统计描述和统计推断

4,同质(homogeneity):指被研究指标的影响因素相同。 变异(variation):同质基础上的各观察单位间的差异。 变量(variable):收集资料过程中,根据研究目的确定同质观察单位,再对每 个观察单位的某项特征进行测量或观察,这种特征称为变量变量值:变量的观察结果或测量值。 5,总体(population)根据研究目的所确定的同质研究对象中所有观察单位某 变量值的集合。总体具有的基本特征是:同质性 样本(sample)从总体中随机抽取部分观察单位,其变量值的集合构成样本。 样本必须具有代表性。代表性是指样本来自同质总体,足够的样 本含量和随机抽样的前提。

《医学统计学》教学大纲

《流行病学》教学大纲供临床医学专业使用 锦州医学院教务处 2003年5月

《流行病学》教学大纲 适用专业: 临床医学 总学时:24,其中理论学时:18、实验学时:6 一、课程的性质和任务 流行病学(Epidemiology)是研究特定人群中与健康相关的状态和事件的分布和决定因素并用以控制健康问题的学科。近数十年来,随着危害人类生命和健康疾病谱的变化,随着医学模式由单纯生物学向生物学、心理学、社会医学相结合模式的转变,流行病学的研究对象、研究方法、研究内容也在不断发展。到现在为止,比较一致认可的流行病学定义为:流行病学是研究人群中疾病与健康状态的分布及其影响因素,制定和评价预防、控制和消灭疾病的对策和措施,并评价这些对策和措施的效果。其研究对象已由仅研究传染病扩大到非传染性疾病,又从疾病扩大、引伸到健康和与健康有关的事件;研究内容既包括了描述“分布”,分析“决定因素”,又包括了研究、提出、评价预防、保健的对策与措施。由此可见流行病学既是一门方法学,又是一门应用性很强的学科。其研究范围已包括了与人类疾病和健康有关的一切问题。 通过本课程的教学使学生掌握流行病学的基本原理、方法和技能,拓宽学生的思路,开阔学生的视野,提高学生能够应用流行病学方法,在疾病的预防、健康促进、病因研究和预防效果评价等方面独立分析问题和解决问题的能力,为今后从事疾病预防和控制工作打下基础。 二、相关课程的衔接 本门课程的前继课程是:基础医学相关课程、计算机基础和医学统计学。 三、教学的基本要求 教学目的 培养学生掌握流行病学基本理论、基本知识、流行病学方法的选择与应用,并了解相应的扩展知识和新进展知识,为学习预防医学各类卫生专业课程奠定流行病学理论基础,也为今后在卫生防疫实际工作中或其他有关学科中运用流行病学的理论和方法奠定基础。 教学要求 1、基本理论理论课教学要根据教学大纲的要求,重点突出教授基本理论和基本知识,详细讲授和解释,同时注意教授一定比例的扩展知识、新进展知识和实际应用知识,加强学生创新能力的培养,开拓思路、启发思维,调动学生的学习积极性。内容精练,条理清楚,合理使用教学设备和教具。也可根据本章节的特点规定学生必要的自学内容。

医学统计学公式总结

医学统计学公式总结-标准化文件发布号:(9556-EUATWK-MWUB-WUNN-INNUL-DDQTY-KII

一 资料的描述性统计 (一)算术均数(mean) (1)简单算术平均值定义公式为(直接法): (2)利用频数表计算均数(加权法): (二)方差(即标准差的平方) (三)变异系数 二 参数估计与参考值范围 (一)均数的标准误 (二)样本率的标准误 (p 为样本率) (三)T 分布 (u 为总体均数) (四)总体均数的区间估计 (一 般要求 计算95%或99%的可信区间) (五)总体率的区间估计 n x n x x x x x n ∑= ++++= 321∑∑=++++++++= f fx f f f f x f x f x f x f x k k k 3213322111 ) (22 --=∑n x x s 222()/1 x x n s n -= -∑∑%100?= x s CV n s s x = n p p s p ) 1(-= n s x t μ -= x x s t x s t x ναναμ,2/,2/+<<-p p s u p s u p 2/2/ααπ+<<-

(六)参考值范围估计 双侧1-a 参考值范围: s u x a 2/± 单侧1-a 参考值范围:s u x a ->或 s u x a +< (可信区间计算是用标准误,参考值范围计算用标准差,百分位数法大家自己看书) 三 T 检验与方差分析 (一)T 检验 (1)单样本T 检验 检验假设: (假设样本来自均数为0 u 的正态总体) 统计量t 值的计算: (2)配对T 检验 检验假设: 统计量t 值的计算: (d 为两组数据 的差值,Sd 为差值的标准差) (3)两样本T 检验 检验假设: 统计量t 值的计算: 0μμ=:H 1 ,/00-=-=-=n n s x s x t x νμμ0 210==-μμμ:H d d d t s μ-==1-=n ν2 10μμ=:H 2 1)()(2121x x s x x t ----=μμ221-+=n n ν? ?? ?+= -2 1121s s C x x )()(2 222112∑-∑+-= x x x x s C

医学统计学期末重点总结

误差:观测值与真实值、样本计量与总体参数之间的差别。 相对数:两个有关的绝对数之比,也可以是两个有关联统计指标之比。 相对比:相对比是A、B两个有关联指标值之比,用以描述两者的对比水平,说明A是B 的若干倍或百分之几。 统计描述:描述及总结一组数据的重要特征,目的是使实验或观察得到的数据表达清楚并便于分析。 统计推断:指由样本数据的特征推断总体特征的方法,包括参数估计和假设检验。 同质:指根据研究目的所确定的观察单位其性质应大致相同。 变量:反映实验或观察对象生理、生化、解剖等特征的指标,变量的观测值称为数据。 定量数据:也称计量资料。变量的观测值是定量的,其特点是能够用数值大小衡量其水平的高低,一般有计量单位。根据变量的取值特征可分为连续型数据和离散型数据。 有序数据:也称半定量数据或等级资料。变量的观测值是定性的,但各类别(属性)之间有程度或顺序上的差别。 总体:根据研究目的确定的所有同质观察单位的全体,它包括所有定义范围内的个体变量值。样本:从研究总体中抽取部分有代表性的观察单位,对变量进行观测得到的数据。 参数:描述总体特征的指标称为参数。 统计量:描述样本特征的指标称为统计量。 概率:描述某事件发生可能性大小的度量。 小概率事件:习惯上将P≤0.05的事件称为小概率事件。 平均数:是描述一组观察值集中位置或平均水平的统计指标,常用的有算术均数、几何均数和中位数。 率:率表示在一定空间或时间范围内某现象的发生数与可能发生的总数之比。 构成比:表示某事物内部各组成部分在整体中所占的比重,常以百分数表示,计算公式为区间估计:是指按预先给定的概率,计算出一个区间,使它能够包含未知的总体均数。 线性相关的概念:研究两个变量之间是否具有直线相关关系。 相关系数:是说明具有线性相关关系的两个数值变量间相关的密切程度与相关方向的统计量。 研究对象:根据研究目的而确定的观察总体,也可称为受试对象或实验对象。 处理因素:根据研究目而欲施研究对象的干预措施。 处理水平:处理因素在实验中所处的状态称为因素的水平(level),亦称处理水平。 对照:指在实验中应设立对照组,其目的是通过与对照组效应对比鉴别出实验组的效应大小。随机化:是指每个受试对象有相同的概率或机会被分配到不同的处理组。 重复:是指在相同实验条件下重复进行多次观察。 统计学的基本内容:统计设计,数据整理,统计描述,统计判断 数据类型:定量数据,定性数据,有序数据 误差的类型:系统误差,随机测量误差,抽样误差 配对样本t检验配对设计:同源配对,异源配对,自身配对 方差分析的基本思想:将全部观测值的总变异按影响因素分解为相应的若干部分变异,在此基础上,计算假设检验的统计量F 值,实现对总体均数是否有差别的推断。 非参数检验的适用范围:①总体分布类型未知或非正态分布数据;②有序或半定量资料;③数据两端无确定的数值。 标准差与标准误的区别与联系:区别:标准差:意义,描述个体观察值变异程度的大小,标准差越小,均数对一组观察值的代表性越好。应用,与X拔结合,用以描述个体观察值的

最新医学统计学公式总结

一 资料的描述性统计 (一)算术均数(mean) (1)简单算术平均值定义公式为(直接法): (2)利用频数表计算均数(加权法): (二)方差(即标准差的平方) (三)变异系数 二 参数估计与参考值范围 (一)均数的标准误 (二)样本率的标准误 (p 为样本率) (三)T 分布 (u 为总体均数) (四)总体均数的区间估计 (一般要求 计算95%或99%的可信区间) (五)总体率的区间估计 (六)参考值范围估计 双侧1-a 参考值范围: s u x a 2/± 单侧1-a 参考值范围: s u x a ->或s u x a +< (可信区间计算是用标准误,参考值范围计算用标准差,百分位数法大家自己看书) 三 T 检验与方差分析 (一)T 检验 (1)单样本T 检验 n x n x x x x x n ∑= ++++= 321∑∑= ++++++++=f fx f f f f x f x f x f x f x k k k 3213322111 )(2 2--= ∑n x x s 22 2()/1 x x n s n -= -∑∑%100?= x s CV n s s x = n p p s p ) 1(-=n s x t μ-=x x s t x s t x ναναμ,2/,2/+<<-p p s u p s u p 2/2/ααπ+<<-

检验假设: (假设样本来自均数为0 u 的正态总体) 统计量t 值的计算: (2)配对T 检验 检验假设: 统计量t 值的计算: (d 为两组数据 的差值,Sd 为差值的标准差) (3)两样本T 检验 检验假设: 统计量t 值的计算: 其中 两样本方差齐性检验 (即为两样本方差的比值) (二)单因素方差分析 SS MS F SS MS νν= = B B B W W W (1)完全随机设计资料的方差分析 这里 (T 即为该组数据之和) (2)随机单位组设计资料的方差分析 SS 总=SS 处理+SS 区组+SS 误差 V 总=V 处理+V 区组+V 误差 μμ=:H 1 ,/0 0-=-=-= n n s x s x t x νμμ0210==-μ μμ:H d d t s μ-== 1 -=n ν210μμ=:H 2 1)()(2121x x s x x t ----=μμ2 21-+=n n ν ? ??? ??+=-2121121n n s s C x x 2)()(112222112-+∑-∑+-=n n x x x x s C 2221s s F =111-=n ν1 2 2-=n ν组内组间总SS SS SS +=组内 组间总ννν+=2()/C x N =∑ij j T x = ∑

医学统计学重点总结

<<医学统计学>>重点总结 1. 总体:根据研究的目的确定的同质研究对象中所有的观察单位变量值的集合。 2. 样本:按随机化原则从同质总体中随机抽取的部分观察单位某变量值的集合。 3. 同质:影响研究指标的主要因素易控制的因素基本上相同。 4. 抽样误差:在抽样研究中,由于变异的存在,即使在同一总体中抽取的几个样本,各样本统计量往往不等。样本统计量与总体参数也不等,这种由于抽样研究所至样本之间和样本与总体之间的差异称为。。。 5. 变量:观察指标在统计学上统称为指标变量,它反应的是生物个体间的变异情况,根据其性质可分为定性变量(分类)和定量变量(连续)。 6. 截尾数据:生存时间观察过程被人为的截止称为截尾,又称删失或终检。原因:失访/退出/ 终止(研究时限已到而终止观察)。 7. 卡方基本思想:X2分布是一种连续型分布,可用于检验资料的实际频数和按检验假设计算的理论频数是否相等等问题。X2反应实现了实际频数与理论频数的吻合程度。如果检验假设成立,则A-T 一般不大,X2应很小,即出现大X2值概率很小。即X2越大,P越小,若P≤a时,就怀疑假设的成立,拒绝H0。若P>a则没有理由拒绝H0。 8. X2用途: (1)实际频数与拟合频数拟合优度:A推断两个或两个以上总体率或构成比有无差别(四格表/行x 列表)。B两变量之间有无相互关系。C频数分布的拟合优度检验(判断次样本是否来自某种分布)。(2)某些分布可用X2近似。 (3)间接应用:如t分布和F分布就是在X2分布基础上推导出来的。 9. 方差分析的基本思想:根据研究目的和设计类型,把总体变异中离均差平方和分解成两部分或更多部分,也把总变异中的自由度相应分成两部分或更多部分,然后再进行比较,评价由某种因素引起的变异是否具有统计学意义。 10. 假设检验中P,a,b(倍他)的关系及统计学意义: a:检验水准,即显著性检验,在此概率之下的认为是小概率事件,统计学上以为此事件“不可能发生”,以此判断是否不拒绝H0无效假设,在假设检验中,按a检验水准,拒绝了原来正确的H0,即犯了第1类错误,犯此错误的概率为a。 b:在T假设检验中,按照a检验标准,没有拒绝原来错误的无效假设,即犯了第2类错误,犯次错误的概率是b。 P:是在H0成立时大于等于用样本计算的统计值出现的概率用P值与检验水准a比较,根据比较的结果作出统计判断。如果P≤a时,就怀疑假设的成立,拒绝H0。若P>a则接受H0拒绝H1。P值越小只能说明作出拒绝H0,接受H1的推论时犯错误的机会越小。 11.行x列表X2检验应注意: (1)行x列表中不宜有1/5以上格子的理论频数小于5或有一个格子的理论频数小于1,若发生上述情况可采用:A将理论频数过小的格子所在的行或列与性质相近的邻近行或列中的实际频数合并,使重新计算的理论频数增大。B删去理论频数过小的行或列。C增大样本含量以增大理论频数。 (2)当效应按强弱分为若干级别,则按实验结果可整理为单向有序行x列表,在比较各处理组的效应有无差别时,宜用秩和检验,ridit分析等。如作X2检验只说明各组构成比的差异有无统计学意义。

【免费下载】医学统计学课程教学大纲

《医学统计学》课程教学大纲 课程编号:140087 学分:1.5 总学时:34 大纲执笔人:刘艺敏大纲审核人: 一、课程性质与目的 使学生掌握医学统计学的基本理论知识、方法和技能,为其运用到医学实践,进行科学研究,学习其它课程和阅读专业书刊打下必要的统计学基础。 二、面向专业 临床医学专业、口腔医学专业五年制 采用多媒体演示教学和学生每人一台计算机操作,要求学生通过实习课重点掌握统计学的基本概念和不同资料的统计分析思路,同时要求学生基本掌握国际流行统计软件SAS或SPSS的使用方法,能用软件来完成课后的习题。并通过接触真实的科研资料,逐步引导学生提出分析思路、分析方法,直至用计算机软件完成统计分析的全过程。使学生在掌握统计学基本理论知识的基础上,进一步培养他们综合分析问题、动手解决问题的能力,拓宽学生的知识面,有利于学生实践能力和创新精神的培养。 三、课程基本要求 学习医学统计学应着重理解基本概念、基本理论,掌握收集资料、整理资料和分析资料的基本知识、基本技能。培养科学的统计思维方法。 四、实验基本要求 采用多媒体演示教学和学生每人一台计算机操作,要求学生通过实习课重点掌握统计学的基本概念和不同资料的统计分析思路,同时要求学生基本掌握能用软件来完成课后的习题。并通过接触真实的科研资料,逐步引导学生提出分析思路、分析方法,直至用计算机软件完成统计分析的全过程。使学生在掌握统计学基本理论知识的基础上,进一步培养他们综合分析问题、动手解决问题的能力,拓宽学生的知识面,有利于学生实践能力和创新精神的培养。 五、课程基本内容 第一章绪论 第一节统计学与医学统计方法 了解统计学与医学统计学的定义、医学统计学在医学研究中的应用。 第二节统计学基本概念 重点掌握内容:随机变量的概念及其分类-离散型变量及连续型变量;误差的定义,系统误差与随机误的概念;三种数据类型-计数资料、计量资料、等级资料及三者间的转换;总体与样本的概念,总体参数与样本统计量的概念,抽样误差的概念;概率与频率的概念。

相关主题
文本预览
相关文档 最新文档