1、生物统计学是数理统计的原理和方法在生物科学研究中的应用,是一门应用数学。
2、作用:提供整理、分析资料的方法,提供试验设计的方法
生物统计的两个特点:通过样本推断总体(基本特点);有很大的可靠性,但有一定的错误率。
3、术语
总体:研究对象的全体。
样本:从总体中抽取的一部分有代表性的个体。
抽样:从总体中抽取样本的过程。
随机抽样:总体中的每个个体都有相同的机会被抽取作为样本的抽样方式。
变量:存在变异的某种可描述或可度量的特征。
观测值:对变量的变现进行观察或测量所获得的数值。
参数:描述总体特征的数。由样本来推断,描述整体随机变量的特性;希腊字母;在群体内不变。
统计数:描述样本特征的量。由样本估计出;描述样本随机变量的特性;不同样本结果不同;拉丁字母。准确性:度量值与真实值接近的程度,又叫准确度。
精确性:同一样品不同观察值之间的接近程度,又称精确度。
随机误差:无法控制的内在和外在因素引起的,也叫抽样误差。影响精确性;由偶然因素引起,不可预测系统误差:试验条件引起,又称片面误差。可重复;影响实验的准确性
试验因子:被固定的因子在全试验中保持一致,构成了相对一致的试验条件;
被变动并设有待比较的一组处理的因子称为试验因素。
水平:量的不同级别或质的不同状态。
4、数据的分类:
离散型资料→计数资料
分类资料:无序:公称尺度(毛色、性别)
有序:等级尺度(难产、成绩、疗效)
5、条形图——离散型、分类
直方图——连续型
饼图——分类(类别少)
线形图——动态变化
散点图——变量间的关系、变化趋势
6、描述性统计量
集中趋势:算术离散趋势:极差
几何方差:离均差平方和/自由度
调和标准差
中位数变异系数
众数
离散趋势之间的比较:
①全距:易计算,易受极端值影响,只利用2个值,随样本数增大而增大
②方差:计算量,利用所有的观察值,随数据的离散程度变化而变化,但单位不直观
③标准差:与观察值单位一致-称为平均离差
④变异系数:可比较不同单位的数据之间的离散程度,但理论上其性质很复杂
7、小概率事件、小概率事件不发生原理
①随机事件的概率表示了随机事件在一次试验中出现的可能性大小。若随机事件的概率很小,例如小于0.05、0.01、0.001,称之为小概率事件。
②在统计学上,把小概率事件在一次试验中看成是实际不可能发生的事件称为小概率事件实际不可能性原理,亦称为小概率原理。小概率原理是统计学上进行假设检验(显著性检验)的基本依据。
8、dbinom(k,n,p):二项分布概率函数
pbinom(k,n,p):二项分布分布函数
例题:
①评价两种疫苗:假设疫苗A完全无效,则15头家畜注射后无发病个体的概率:pbinom(0,15,0.2)
假设疫苗B完全无效,则15头家畜注射后最多有1头发病的概率:pbinom(1,15,0.2)②猪治疗后所有可能死亡头数的概率:k<-0:5
dbinom(k,5,0.2)
9、正态分布
①参数:μ是位置参数。σ恒定,μ↑,曲线沿x轴向右移动;μ↓,曲线沿x轴向左移动。
σ是形状参数。μ恒定,σ↑,曲线愈平坦,变“胖”;σ↓,曲线愈陡峭,变“瘦”。
②性质:两个正态分布的和或者差仍然是正态分布
③计算:P(0≤u<u1)=Φ(u1)-0.5pnorm(u1)-0.5
P(u≥u1)=Φ(-u1)1-pnorm(u1)或pnorm(-u1)
P(|u|)≥u1)=2Φ(-u1)2*pnorm(-u1)
P(|u|<u1)=1-2Φ(-u1)
P(u1≤u<u2)=Φ(u2)-Φ(u1)pnorm(u2)-pnorm(u1)
R语言:pnorm(u,μ,σ)
q norm(p,μ,σ)
例题:P454.8猪血红蛋白含量,求l1,l2
>qnorm(0.03)
[1]-1.880794
>qnorm(0.03)*1.33+12.86
[1]10.35854
>12.86-qnorm(0.03)*1.33
[1]15.36146
10、卡方分布、F分布、t分布的概念及特点
㈠卡方分布:
特征:①卡方值无负值,分布于区间[0,+∞)
②具有可加性
③卡方分布是非对称分布,分布曲线随自由度大小而改变,自由度越大,分布越趋近对称
计算:dchisq(u,df)高度
pchisq(u,df)面积
qchisq(p ,df)横坐标
㈡t 分布:
特点:①t 分布受自由度的制约,每一个自由度都有一条t 分布密度曲线。
②t 分布密度曲线以纵轴为对称轴,左右对称,且在t =0时,分布密度函数取得最大值。
③与标准正态分布曲线相比,t 分布曲线顶部略低,两尾部稍高而平。df 越小这种趋势越明显。df 越大,t 分布越趋近于标准正态分布。当n >30时,t 分布与标准正态分布的区别很小;n >100时,t 分布基本与标准正态分布相同;n →∞时,t 分布与标准正态分布完全一致。
计算:dt(u,df)高度
pt(u,df)面积
qt(p ,df)横坐标
㈢F 分布:
特征:①F 分布的平均数等于1,取值区间为[0,+∞)。
②F 分布曲线的形状仅决定于df1和df2。当df1=1或2时,F 分布曲线呈严重倾斜的反向J 形,当df1≥3时,转为左偏曲线。
计算:df(u,df 1,df 2)高度
pf(u,df 1,df 2)面积
qf(p ,df 1,df 2)横坐标
11、中心极限定理:若随机变量x 服从平均数是μ,方差是σ2的分布(不是正态分布)
,x 1,x 2,…,x n 是由此总体的来的随机样本,则统计量n x x /∑=
的概率分布,当n 相当大时逼近正态分布N (μ,
σ2/n )。
12、观察值的标准差与平均数的标准误
①标准差(SD ):
–对观察值的离散程度的度量
–显示观察值与平均数的接近程度
–可“理解”为每个观察值与平均数的离差的平均
–可以用于确定总体中大部分观察值所在的范围-正常值
②标准误(SE ):
–测量用样本平均数估计总体平均数时的精确程度
–用于估计抽样误差,反映的是样本平均数抽样分布的离散程度
–显示该样本平均数与总体平均数的接近程度
–用于确定估计的总体平均数的置信区间
13、统计推断:根据样本和假定模型对总体做出的概率形式结论的过程。
参数估计:用样本统计量估计总体参数。参数估计时,必须提供估计的准确度,用标准误和置信区间衡量点估计:用某样本统计量作为总体参数的估计
区间估计:对参数真值的可能取值范围进行估计
假设检验:计算样本统计量,以判定我们对总体分布特征的描述正确与否
14、备择假设陈述的是处理组与对照组有区别,但比对照组高还是低未知——双侧检验(两尾检验)
备择假设陈述的是处理组与对照组之间单向的区别——单侧检验(单尾检验)
15、检验统计量计算出的值与某一概率相联系,称为相伴概率?P值
16、I型错误:正确错判;II型错误:错误正判
I型错误的概率:显著水平——α,易控制,在试验之初就定下来
II型错误与α(↑↓)、样本数(↑↓)和处理效应大小等有关。α不可能太小,n不可能无限大II型错误用β表示,不易计算。理解为处理有效但推断为无效的概率
1-β称为检验功效:指处理有效推断亦为有效!
17、配对试验设计:根据实验要求将试验单位两两配对,然后将配成对子的两个试验单位随机分配到两个处理中。
目的:降低组内误差
自身配对:一个动物的两个部位,同一处理的前后
亲缘配对:全同胞、半同胞等
18、例题:
㈠单个样本平均数的假设检验P66例5.1
母猪的怀孕期为114天。今抽测10头母猪的怀孕期分别为116、115、113、112、114、117、115、116、114、113天。问抽测结果的平均数是否与总体平均数114天一致?
>days<-c(116,115,113,112,114,117,115,116,114,113)
>t.test(days,mu=114)
One Sample t-test
data:days
t=1,df=9,p-value=0.3434
alternative hypothesis:true mean is not equal to114
95percent confidence interval:
113.3689
sample estimates:
mean of x
114.5
㈡两个样本的假设检验(非配对)P68例5.3
某种猪场测定长白和蓝塘后备种猪90kg时的背膘厚度,测定结果如表5-3所示。设两品种90kg 时的背膘厚度服从正态分布,且方差相等。问该两品种后备种猪90kg时的背膘厚度有无显著差异?bf1<-c(1.2,1.32,1.1,1.28,1.35,1.08,1.18,1.25,1.3,1.12,1.19,1.05)
bf2<-c(2,1.85,1.6,1.78,1.96,1.88,1.82,1.7,1.68,1.92,1.8)
t.test(bf1,y=bf2,var.equal=T)
var.test(bf1,bf2)
t.test(bf1,y=bf2,var.equal=F)
㈢配对P71例5.5
用家兔10只试验某批注射液对体温的影响,测定每只家兔注射前后的体温,见表5-6。设体温服从正态分布,问注射前后体温有无显著差异?
tmp1<-c(37.8,38.2,38.0,37.6,37.9,38.1,38.2,37.5,38.5,37.9)
tmp2<-c(37.9,39,38.9,38.4,37.9,39,39.5,38.6,38.8,39)
t.test(tmp1,y=tmp2,paired=TRUE)
Paired t-test
data:tmp1and tmp2
t=-5.1893,df=9,p-value=0.0005722
alternative hypothesis:true difference in means is not equal to0
95percent confidence interval:
-1.0482244-0.4117756
sample estimates:
mean of the differences
-0.73
19、多个处理平均数间的相互比较为什么不宜用t检验法?
①检验工作量大。若有k个处理,则要做Ck2次检验。
②无统一的试验误差,误差估计的精确性和检验的灵敏性低。
③推断的可靠性低,检验的Ⅰ型错误率大。
20、什么是方差分析?
答:方差分析是将k个处理的观测值作为一个整体看待,把观测值总变异的平方和及自由度分解为相应的不同变异来源的平方和及自由度,进而获得不同变异来源总体方差估计值;通过计算这些总体方差的估计值的适当比值,检验各样本所属总体平均数是否相等,其实质上关于观测值变异原因的数量分析,在科学研究中应用十分广泛。
21、举例说明试验指标、试验因素、因素水平、试验处理、试验单位、重复等常用名词的含义。
试验指标:试验测定的项目或者性状。衡量试验结果(好坏)或处理效应(高低)日增重、产仔数…试验因素:影响试验指标的因素。如温度、营养水平
试验水平:试验因素所处的特定状态或数量等级称为因素水平,简称水平。如日粮中粗蛋白质含量。试验处理:实施在试验单位上的具体项目,简称处理。比如:进行饲料比较试验,实施在某种畜禽的具体项目,饲喂某种一种饲料。
单因素试验:是试验因素的一个水平;多因素试验:是试验因素的一个水平组合
试验单位:试验载体。如一只家禽、一只鱼
重复:一个处理实施在两个或两个以上的试验单位上,称为处理有重复。试验的单位数称处理的重复数。如用某种饲料喂4头奶牛,就是说这个处理有4次
22、方差分析的基本假定:效应的可加性、分布的正态性、方差的同质性
一般而言,具有了方差的同质性,同时就具有效应的可加性和分布的正态性。
23、方差分析的基本步骤:(1)计算各项平方和与自由度。
(2)列出方差分析表,进行F检验。
(3)若F检验显著,则进行多重比较。
变异来源平方和自由度均方F值
组间(处理)SS A df A MA S=SS A/df A MS A/MS E
组内(误差)SS E df E MA E=SS E/df E
总变异SS T df T
24、多重比较:方差分析差异显著或极显著时,进行多个平均数两两间的相互比较。
最小显著差数法(LSD)
最小显著极差法(LSR)
25、例题:P96例6.35个品种若干头母猪的窝产仔数的差异是否显著?
ls<-c(8,13,12,9,9,7,8,10,9,7,13,14,10,11,12,13,9,8,8,10,12,11,15,14,13)
bred<-as.factor(rep(1:5,each=5))
case1<-aov(ls~bred)
summary(case1)
TukeyHSD(case1)—————————————————————多重比较
Df Sum Sq Mean Sq F value Pr(>F)
bred473.218.30 5.8280.002813**
Residuals2062.8 3.14
---
Signif.codes:0‘***’0.001‘**’0.01‘*’0.05‘.’0.1‘’1
26、数据转换:分布的非正态性和方差的不同质性经常相伴出现,我们可以考虑利用某种数据转换,使得转换后的数据具有方差同质性,而非正态性的缺陷也同时得到改善。
①平方根转换:
适用范围:方差与平均数之间有某种比例关系
总体呈泊松分布
②对数转换:
适用范围:标准差或全距与平局数成比例
效应为相乘性或非加性
③反正弦转换:
适用范围:服从二项分布的资料。如:发病率、死亡率
④倒数转换:
适用范围:生存时间
27、两因素资料的分类:、
28、简单效应:在某因素同一水平上,另一因素不同水平对试验指标的影响。
主效应:由于因素水平的改变而引起的平均数的改变量。
交互作用:在多因素试验中,一个因素的作用要受到另一个因素的影响,表现为某一因素在另一因素的不同水平上所产生的效应不同,这种现象称为该两因素存在交互作用。
29、对频率的检验:Z检验&置信区间法
对频数的检验:卡方检验——单样本:适合性检验
多样本:独立性检验
适合性检验:判断实际观察的属性类别分配是否符合已知属性类别分配理论或学说的假设检验
例题:P139例7.1毛色
color<-matrix(c(79,181),1,2)
prop.test(color,p=0.25)
独立性检验:根据次数资料判断两类因子彼此相关或相互独立的假设检验
30、简单线性回归:用最能代表散点图中数据点的直线描述两随机变量的关系:X和Y→Y=a+bX
x<-c(80,86,98,90,120,102,95,83,113,105,110,100)
y<-c(2350,2400,2720,2500,3150,2680,2630,2400,3080,2920,2960,2860)
plot(y~x)
plot(y~x,pch=16,col='red',cex=1.5,xlab='X',ylab='Y')
case1<-lm(y~x)
summary(case1)
31、协方差分析:将和回归分析结合起来的一种统计分析方法
使用条件:当试验指标(Y)的变异既受一个或几个分类变量,也受一个或几个连续变量的影响目的:消除连续变量X对Y的影响,使方差分析的检验功效更高,结果更可靠
?连续变量可能会增大Y的组间变异,导致错误结论
?连续变量可能会增大Y的组内变异,降低检验功效
消除分类变量的影响,使回归分析的结果更可靠
试验控制:为了提高试验的精确性和准确性,对处理以外的一切条件都需要采取有效措施严加控制,使他们尽量一致,叫做试验控制。
统计控制:试验控制的一种辅助手段。经过这种矫正,试验误差将减小,对试验处理效应估计更为准确。
例:试验控制:选用初始体重相同(近)的猪进行分组试验→方差分析
当试验控制不能实现时——
统计控制:利用增重对初始重的回归关系,对初始重的影响进行校正→
回归分析+方差分析=协方差分析
试验控制永远是第一位的!
R语言
x<-1:5#生成整数数列
x<-seq(1,5,0.1)#生成数列
x<-rep(5:6,times=10)#重复数列
x<-rep(5:6,times=c(3,2))#重复数列
x<-rnorm(10,0,1)#生成随机数字
生物统计 第一章绪论 1.什么是生物统计?它在动物科学研究中有何作用? 2.什么是总体、个体、样本、样本容量?统计分析的两个特点是什么? 3.什么是参数、统计数?二者有何关系? 4.什么是试验或调查的准确性与精确性?如何提高试验或调查的准确性与精确性? 5.什么是随机误差与系统误差?如何控制、降低随机误差,避免系统误差? 6.统计学发展的概貌可分为哪三种形态?拉普拉斯、高斯、高尔顿、皮尔森、哥塞特、费 舍尔对统计学有何重要贡献? 第二章资料的整理 1.资料可以分为哪几种类型?它们有何区别与联系? 2.为什么要对资料进行整理?对于计量资料,整理成次数分布表的基本步骤是什么? 3.统计表与统计图有何用途?常用统计表、统计图有哪些?编制统计表、绘制统计图有 何基本要求? 4.某品种100头猪的血红蛋白含量资料单位:g/100ml列于下表,将其整理成次数分布表, 并绘制次数分布直方图与折线图。 表格1 4某品种100头猪的血红蛋白含量(g/100ml) 13. 4 13. 8 14. 4 14. 7 14. 8 14. 4 13. 9 13. 13. 12. 8 12. 5 12. 3 12. 1 11. 8 11. 10. 1 11. 1 10. 1 11. 6 12. 12. 12. 7 12. 6 13. 4 13. 5 13. 5 14. 15. 15. 1 14. 1 13. 5 13. 5 13. 2 12. 7 12. 8 16. 3 12. 1 11. 7 11. 2 10. 5 10. 5 11. 3 11. 8 12. 2 12. 4 12. 8 12. 8 13. 3
A 题 细胞体内代谢物浓度预测 随着基因组、转录组、蛋白质组等各种“组学”研究计划的蓬勃开展,生命科学进入了“组学”时代。代谢组学作为系统生物学的重要分支,其研究的重点是细胞内代谢物种类与浓度的定性和定量分析以及代谢网络的构建和模拟。 对代谢物的检测及浓度测定主要采用实验方法,包括核磁共振、气相色谱-质谱联用和液相色谱-质谱联用等技术。但由于代谢物种类繁多,且大部分浓度较低(μM 数量级),尤其是胞内代谢物提取难度非常大,精确测定其浓度异常困难,而且实验测定需要消耗大量财力物力和人力,因此通过计算机方法对代谢物浓度预测和分析变得越来越重要。 活细胞的代谢物浓度由什么决定?除了一些特定的代谢和酶的作用以外,有没有那种能全局影响浓度值的性质? 试根据附件中的数据完成如下问题: 1 根据不同类型的数据,分析代谢物浓度与其物理化学性质之间的关系。 2 筛选合适的物理化学性质,建立预测代谢物浓度的预测模型,并对此模型进行评价; 1.线性插补法处理缺失数据 原理:用该列数据缺失值前一个数据和后一个数据建立线性插值,然后用缺失点在线性插值函数的函数值填充该缺失值,即: 在于消除不同变量的量纲的影响,而且标准化转化不会改变变量的相关系数。 代谢物浓度:取对数 代谢物理化性质:标准差标准化法 )1,1( m j n i S x x x j j ij ij ≤≤≤≤-=' 式中:.)(11,1121∑∑==--= =n i j ij j n i ij j x x n S x n x 3.SAS 软件建立多元线性回归方程 回归模型一般形式: u X b X b X b b Y k k +++++= (22110)
本科《生物统计附试验设计》课程代码:02793 一,名词解释题 1.中位数:将资料所有观测值按从小到大的顺序排列,处于最中间的数. 2.I型错误:是拒绝H0时犯下的错误,其错误是把真实差异错叛为非真实差异. 3.总体:是由研究目的的确定的研究对象的个体总和. 4.参数:是指由总体计算的特征数. 5.相关分析:即两个以上的变量之间共同受到另外因素的影响. 6.回归分析:即一个变量的变化受到一个或几个变量的影响. 7.精确性:是重复观测值之间彼此接近的程度. 8.显著水平:是检验无效假设的水准.但另一方面它也是进行检验时犯错误概率大小. 9.随机单位组设计:它的原理与配对设计类似,抽每一头试验动物具有相等的机会,接受任一处理而不受人为影响. 10.统计量:由样本计算的特征数. 11.准确性:是观察值与真实值间的接近程度. 12.随机误差:是由试验中许多无法控制的偶然因素所造成的试验结果与真实结果之间产生的误差,是不可避免的. 13.系统误差:是由于试验处理以外的其它条件明显不一致所产生的带有倾向性的偏差. 14.样本:是在总体中进行抽样,从中抽取的部分个体. 15.众数:资料中出现最多的观测值或次数最多的一组中值. 16.样本标准差:统计学中样本平方差S^2的平方根 17.试验处理:在一项试验中,同一条件下所做的试验称为一个处理.
18.几何平均数:几个观测值相乘之积开n次方所得的方根称为几何平均数. 19.顺序抽样法:是将有限总体内所有个体编号,然后按照一定顺序每隔一定的数目,均匀抽出一个个体,组成样本,对样本进行调查. 20.试验指标:用来平衡量试验效果的量. 21.随机抽样法:是将总体内所有的个体编号,然后采取抽签,拈阄或用随机数字表的方法将部分个体取出而做为样本进行调查. 22.小概率原理:小概率事件在一次试验中实际不可能发生的原理. 23.重复:在试验中,同一处理内设置的动物数量,称为重复. 24.局部控制:在试验设计时采用各种技术措施,控制和减少非试验因素对试验指标的影响. 25.算术平均数:资料中各观测值的总和除以观测个数所得的商. 26.变异系数:是标准差相对平均数的百分数,用CV表示. 27.II型错误:在接受H0时犯下的错误,其错误是把真实差异错判为非真实差异. 28.因素水平:每个试验因素的不同状态(处理的某种特定状态或数量上的差别)称为因素水平. 29.配对设计:是指将条件一致的两头动物酿成对子,然后采取随机的方法在同一对子内两头动物进行分配处理. 30.试验处理:指对受试对象给予的某种外部干预或措施,是试验中实施的因子水平的一个组合. 31.调和平均数:资料中各观测值倒数的算术平均数的倒数称调和平均数. 32.效应:是指因素对某试验指标所起的增进或减退的作用. 33.顺序抽样:它是按某种既定顺序从总体(有限总体)中抽取一定数量的个体构
《生物统计附试验设计》 习题集 (动物医学专业用) 第一章绪论 一、名词解释 总体个体样本样本含量随机样本参数统计量准确性精确性 二、简答题 1、什么是生物统计?它在畜牧、水产科学研究中有何作用? 2、统计分析的两个特点是什么? 3、如何提高试验的准确性与精确性? 4、如何控制、降低随机误差,避免系统误差? 第二章资料的整理 一、名词解释 数量性状资料质量性状资料半定量(等级)资料计数资料计量资料 二、简答题 1、资料可以分为哪几类?它们有何区别与联系? 2、为什么要对资料进行整理?对于计量资料,整理的基本步骤怎样? 3、在对计量资料进行整理时,为什么第一组的组中值以接近或等于资料中的最小值为好? 4、统计表与统计图有何用途?常用统计图、统计表有哪些? 第三章平均数、标准差与变异系数 一、名词解释 算术平均数几何平均数中位数众数调和平均数标准差方差离均差的平方和(平方和)变异系数 二、简答题
1、生物统计中常用的平均数有几种?各在什么情况下应用? 2、算术平均数有哪些基本性质? 3、标准差有哪些特性? 4、为什么变异系数要与平均数、标准差配合使用? 三、计算题 1、10头母猪第一胎的产仔数分别为:9、8、7、10、1 2、10、11、14、8、9头。试计算这10头母猪第一胎产仔数的平均数、标准差和变异系数。 2、随机测量了某品种120头6月龄母猪的体长,经整理得到如下次数分布表。试利用加权法计算其平均数、标准差与变异系数。 组别组中值(x)次数(f) 80—84 2 88—92 10 96—100 29 104—108 28 112—116 20 120—124 15 128—132 13 136—140 3 3、某年某猪场发生猪瘟病,测得10头猪的潜伏期分别为2、2、3、3、 4、4、4、 5、9、12(天)。试求潜伏期的中位数。 4、某良种羊群1995—2000年六个年度分别为240、320、360、400、420、450只,试求该良种羊群的年平均增长率。 5、某保种牛场,由于各方面原因使得保种牛群世代规模发生波动,连续5个世代的规模分别为:120、130、140、120、110头。试计算平均世代规模。 6、调查甲、乙两地某品种成年母水牛的体高(cm)如下表,试比较两地成年母水牛体高的变异程度。 甲地137 133 130 128 127 119 136 132 乙地128 130 129 130 131 132 129 130 第四章常用概率分布 一、名词解释 随机事件概率的统计定义小概率原理正态分布标准正态分布双侧概率(两尾概率)单侧概率(一尾概率)二项分布波松分布标准误t分布
《生物统计学》实验教学教案 [实验项目] 实验一平均数标准差及有关概率的计算 [教学时数] 2课时。 [实验目的与要求] 1、通过对平均数、标准差、中位数、众数等数据的计算,掌握使用计算机计算统计量的方法。 2、通过对正态分布、标准正态分布、二项分布、波松分布的学习,掌握使用计算机计算有关概率和分位数的方法。为统计推断打下基础。 [实验材料与设备] 计算器、计算机;有关数据资料。 [实验内容] 1、平均数、标准差、中位数、众数等数据的计算。 2、正态分布、标准正态分布有关概率和分位数的计算。 3、二项分布有关概率和分位数的计算。 4、波松分布有关概率和分位数的计算。 [实验方法] 1、平均数、标准差、中位数、众数等数据的计算公式。 平均数=Average(x1x2…x n) 几何平均数=Geomean(x1x2…x n) 调和平均数=Harmean(x1x2…x n) 中位数=median(x1x2…x n) 众数=Mode(x1x2…x n) 最大值=Max(x1x2…x n) 最小值=Min(x1x2…x n) 平方和(Σ(x- )2)=Devsq(x1x2…x n) x 样本方差=Var (x1x2…x n) 样本标准差=Stdev(x1x2…x n) 总体方差=Varp(x1x2…x n) 总体标准差=Stdevp(x1x2…x n) 2、正态分布、标准正态分布有关概率和分位数的计算。 一般正态分布概率、分位数计算:
概率=Normdist(x,μ,σ,c) c 取1时计算 -∞-x 的概率 c 取0时计算 x 的概率 分位数=Norminv(p, μ, σ) p 取-∞到分位数的概率 练习: 猪血红蛋白含量x 服从正态分布N(12.86,1.332),(1) 求猪血红蛋白含量x 在11.53—14.19范围内的概率。(0.6826)(2) 若P(x <1l )=0.025,P(x >2l )=0.025,求1l ,2l 。 (10.25325) L1=10.25 L2=15.47 标准正态分布概率、分位数计算: 概率=Normsdist(x) c 取1时计算 -∞--x 的概率 c 取0时计算 x 的概率 分位数=Normsinv(p) p 取-∞到分位数的概率 练习: 1、已知随机变量u 服从N(0,1),求P(u <-1.4), P(u ≥1.49), P (|u |≥2.58), P(-1.21≤u <0.45),并作图示意。 参考答案: (0.080757,0.06811,0.00988,0.5605) 2、已知随机变量u 服从N(0,1),求下列各式的αu 。 (1) P(u <-αu )+P(u ≥αu )=0.1; 0.52 (2) P(-αu ≤u <αu )=0.42; 0.95 参考答案: [1.644854, 0.63345; 0.553385, 1.959964] 3、二项分布有关概率和分位数的计算。 概率=Binomdist(x,n,p,c) c 取1时计算 0-x 的概率 c 取0时计算 x 的概率 练习: 1、已知随机变量x 服从二项分布B (100,0.1),求μ及σ。 参考答案: 见P48,μ= np, σ=(npq)0.5 2、已知随机变量x 服从二项分布B(10,0.6),求P(2≤x ≤6),P(x ≥7),P(x<3)。 参考答案: 0.6054, 0.38228, 0.012295 4、波松分布有关概率和分位数的计算。 概率=Poisson(x,λ,c) c 取1时计算 0-x 的概率 c 取0时计算 x 的概率 练习: ),(m n Permut C m n =
生物统计学 名词解释: 1.生物统计学:是数理统计在生物学研究中的应用,它是应用数理统计的原理,运用 统计方法来认识、分析、推断和解释生命过程中的各种现象和试验调查资料的科学。 2.总体:具有相同性质或属性的个体所组成的集合称为总体,它是指研究对象的全 体; 3.个体:组成总体的基本单元称为个体; 4.样本:从总体中抽出若干个体所构成的集合称为样本; 5.样本容量:样本中所包含的个体数目称为样本容量。 6.集中性:资料中的观测值从某一数值为中心而分布的性质。 7.离散性:是变量有差离中心分散变异的性质。 8.变量(变数):指相同性质的事物间表现差异性或差异特征的数据。 9.常数:表示能代表事物特征和性质的数值,通常由变量计算而来,在一定过程中是 不变的。 10.参数:描述总体特征的数量称为参数,也称参量。常用希腊字母表示参数,例如用 μ表示总体平均数,用σ表示总体标准差; 11.统计数:描述样本特征的数量称为统计数,也称统计量。常用拉丁字母表示统计数, 例如用x表示样本平均数,用S表示样本标准差。 12.效应:通过施加试验处理,引起试验差异的作用称为效应。效应是一个相对量,而 非绝对量,表现为施加处理前后的差异。效应有正效应与负效应之分。 13.互作(连应):是指两个或两个以上处理因素间相互作用产生的效应。互作也有正效 应(协同作用)与负效应(拮抗作用)之分。 14.准确性:也叫准确度,指在调查或试验中某一试验指标或性状的观测值与其真值接 近的程度。 15.精确性:也叫精确度,指调查或试验中同一试验指标或性状的重复观测值彼此接近 的程度。 16.随机误差(抽样误差):这是由于试验中无法控制的内在和外在的偶然因素所造成。 随机误差越小,试验精确性越高。 17.系统误差(片面误差):这是由于试验条件控制不一致、测量仪器不准、试剂配制 不当、试验人员粗心大意使称量、观测、记载、抄录、计算中出现错误等人为因素而引起的。系统误差影响试验的准确性。只要以认真负责的态度和细心的工作作风是完全可以避免的。 18.试验误差:在试验过程中,由于试验条件及人为的一些因素而造成的试验结果与真 实值之间的偏差,来源于试验材料固有的差异和外界因素(管理措施、试验条件等)。 19.数量性状:是指能够以计数和测量或度量的方式表示其特征的性状。 20.质量性状:是指能观察到而不能直接测量的性状 21.次数资料:由质量性状量化得来的资料叫做次数资料。 22.试验:是对已有的或没有的事物加以处理的方法。 23.大数定律:是概率论中用来阐述大量随机现象平均结果稳定性的一系列定律的总称。 主要内容:样本容量越大,样本统计数与总体参数之差越小。 24.泊松分布:是一种可以用来描述和分析随机地发生在单位空间或时间里的稀有事件 的概率分布,也是一种离散型随机变量的分布。 25.假设检验:又称显著性检验,就是根据总体的理论分布和小概率原理,对未知或不完 全知道的总体提出两种彼此对立的假设,然后由样本的实际原理,经过一定的计算,
《生物统计附试验设计》复习题 (考试共有五种题型:其中名称解释5道共10分,单选10道共10分,判断题10道共10分,计算题4道共60分,问答题2道共10分) 一、名词解释题 1.总体: 4.准确性: 7.系统误差: 8.样本: 11.随机样本: 12.样本容量: 13.假想总体:, 15.数量性状资料: 17.全距: 18.简单表: 20.众数: 21.样本标准差: 22.几何平均数: 23.算术平均数: 24.调和平均数: 26.离均差: 28.变异系数: 29.统计推断: 30.小概率事件实际不可能性原理: 31.显著水平: 32.I型错误: 34.非配对设计: 35.配对设计:, 37.试验处理: 38.试验指标: 39.重复: 40.试验单位:
41.因素水平: 42.多重比较。 44.独立性卡方检验: 46.相关分析: 47.回归分析: 51.相关系数: 52.试验设计(狭义): 53.试验方案: 56.局部控制: 57.完全随机设计: 59.多因素试验: 试验中只进行一种因素的测定 62.完全随机抽样: 二、单项选择题 1、单因素方差分析的数学模型是()。 ①x ij =μ+αi+εij ②x ij =μ+αi③x i =μ+αi+βj +εij ④x ij =αi +εij 2、.在单因素方差分析中一定有() ①SST=SSt+SSe②SSt〉SSe③SSt=SSe④SSt<SSe 3、一元线性回归的假设检验()。 ①只能用t检验②只能用F检验③两者均可④两者均不可 4、在单因素方差分析中一定有() ①dfT=dft+dfe②dfT≠dft+dfe ③dfT=dft ④dft=dfe 5、简单相关系数的取值范围是() ①-1
试验设计与统计分析 试题式样 一、名词解释 1、置信区间:在一定概率保证下,估计总体参数μ所在的区间或范围。 2、回归系数:x 每增加一个单位数时,平均地将要增加或减少的单位数。 3、相关系数:表示变数x 和y 相关密切及其性质的统计数称相关系数。 4、多重比较:方差分析中平均数间的比较,称多重比较。 5、置信系数:保证置信区间能覆盖参数的概率称置信系数。 二、填空 (每空1分,共10分) 1、多重比较结果常用的表示方法有 列梯形法 、 划线法 、 字母表示法 。 2、裂区试验主区如采用随机区组排列,总变异可分解为 A 因素 、 区组 、 主 区误差 、 B 因素 、 A×B 、 副区误差 。 3、当多个处理与共用对照进行显著性比较时,常用 最小显著差数法(LSD) 方法进行 多重比较。 三、选择题(每题1分,共5分) 1、田间试验的顺序排列设计包括 ( C )。 A 、间比法 B 、对比法 C 、间比法、对比法 D 、阶梯排列 2、对一个单因素6个水平、3次重复的完全随机设计进行方差分析,若按最小显著差数法进行多重比较,比较所用的标准误及计算最小显著差数时查表的自由度分别为( C )。 A 、 , 3 B 、 , 3 C 、 , 12 D 、 , 12 3、下列哪种成对比较的无效假设的设立是正确的( B )。 A 、 H 0:d≤15 B 、 H 0:μd ≥12 C 、H 0:μ1-μ2≤10 D 、 H 0:d≠0 4、卡平方的连续性矫正的公式为( D )。 A 、Xc 2=∑(O i -E i )2/E i B 、Xc 2=∑(O i -E i -0.5)2/E i C 、 Xc 2=∑(|O i -E i |-0.5)2/O i D 、 Xc 2=∑(|O i - E i |-0.5)2/E i 5、回归系数b 的标准误等于( A ) 四、判断题(每小题1分,共5分) 1、否定正确无效假设的错误为统计假设测验的第一类错误。( √ ) 2、由固定模型中所得的结论仅在于推断关于特定的处理,而随机模型中试验结论则将用于推断处 理的总体。( √ ) 3、u 测验中,对 时,显著水平为5%,则测验的值 为 1.96。 ( × ) 4 “唯一差异”是指仅允许处理不同,其它非处理因素都应保持不变。( √ ) 5、A 群体标准差为5,B 群体的标准差为12,B 群体的变异一定大于A 群体。( × ) 五、简答题(每题5分,共15分) 1、方差分析中,常用的数据转换方法有哪些? (1)平方根转换 (2)对数转换 (3)反正弦转换 MSe/6MSe/62MSe/3MSe/3X SS n Q )2( A.-X X Y SS x X n s 2 /)(1 B.-+ X X Y SS x X n s 2 /)(11 .C -+ + X X Y SS x n s 2 /1 .D + H A :μμ<0αu
,生物统计 1,总体:根据研究目的确定的研究对象的全体 2、个体:总体中的一个研究单位 3、样本:实际研究中的一类假象总体 4、样本含量:样本中所包含的个体数目称为样本含量或大小 5、随机样本:一类从总体中随机抽得到的具有代表性的样本 6、统计量:由样本计算的特征数 7、参数:由总体计算的特征数 8、精确性:指在试验或调查中某一试验指标或性状的重复观察值彼此接近的程度9、系统误差:系统误差又叫做片面误差。它是在一定的测量条件下,对同一个被测尺寸进行多次重复测量时,误差值的大小和符号(正值或负值)保持不变;或者在条件变化时,按一定规律变化的误差。 10、偶然误差:一类由于偶然的或不确定的因素所造成的每一次测量值的无规则变化(涨落),叫做偶然误差,或随机误差。 11、连续性变数资料:指用量测方式获得的数量性状资料 12、离散型变数资料:指用计数方式获得的数量性状资料 13、算术平均数:指资料中的各观测值的总和除以观测值个数所得的商,简称平均数或均数 14、平均数:资料或代表数,主要包括算术平均数,中位数,众数,几何平均数及调和平均数 15、标准差:是各数据偏离平均数的距离的平均数,它是离均差平方和平均后的方根,用σ表示。 16、方差:度量总体(或样本)各变量间变异程度的参数(总体)或统计量(样本)。 17、离均差平方和:样本各观测值变异程度大小的另一个统计数 18、试验:在一定条件下对自然现象所进行的观察或试验统称为试验 19、随机事件:随机试验的每一种可能结果 20、概率:事件本身所固有的数量指标,不随人的主观意志而改变,人们称之为概率 21、正态分布:若连续性随机变量X的概率分布密度函数,则X服 从正态分布 22、标准正态分布:我们把平均数u=0,σ2 =1时,称为标准正态分布,记为N(0, 1) 23、双侧概率:我们把随机变量X在平均 数u加减不同倍数标准差σ区间 (u-kσ,u+kσ)之外,取值的概率称为双 侧概率 24、单侧概率:对应于两尾概率可以求得 随机变量x小于小于u-kσ或大于u+kσ的 概率 标准误:反映样本平均数的抽样误差的大 小的一种指标 25、假设检验(显著性检验):假设检验是 数理统计学中根据一定假设条件由样本推 断总体的一种方法。 26、t检验:两总体方差未知但相同,用 以两平均数之间差异显著性的检验。 27、无效假设:被检验的假设,通过检验可 能被否定,也可能未被否定。 28、备择假设:是在无效假设被否定时准 备接受的假设。 29、显著水平:用来确定无效假设是否被 否定的概率标准。 30、Ⅰ型错误:把非真实差异错判为真实 差异。 31、Ⅱ型错误:把真实差异错判为非真实 差异。 32、双侧检验(双尾检验):利用两侧尾部 的概率进行的检验。 33、单侧检验(单尾检验):利用一侧尾部 的概率进行的检验。 34、分位数:又称百分位点。若概率 0
Za)=α的 实数 35、配对设计:是指先根据配对的要求将 试验单位两两配对,然后将配对成子的两 个实验单位随机分配到两个处理组中。 36、区间估计:是指在一定概率保证下指 出总体参数的可能范围。 置信区间:是指在进行区间估计时所给出 的可能范围。 37、置信度(置信概率):是指在进行区间 估计时所给出的概率保证。 38、方差分析:实质上是关于观测值变异 原因的数量分析。 39、试验指标:用来衡量试验结果的好坏 或处理效应的高低,在试验中具有测定的 性状或观测的项目。 40、试验因素:实验中所研究的影响试验 指标的因素。 41、因素水平:试验因素所处的某种特定 状态或数量等级。 42、试验处理:率先设计好的实施在试验 单位上的具体项目。 43、试验单位:在试验中能够接受不同试 验处理的独立的试验载体。 44、多重比较:统计学上指多个平均数两两 之间的相互比较称为多重比较。 45、主效应:由于因素水平的改变而引起 试验指标观测值平均数的改变量称为主效 应。 46、简单效应:在某因素同一水平上,另 一因素不同水平试验指标观测值之差称为 简单效应。 47、适合性检验:判断实际观察的属性类 别分配是否符合已知属性类别分配理论或 学说的假设检验。 48、独立性检验:根据次数资料判断两类 因子彼此相关或相互独立的假设检验。 49、相关变量:存在相关关系的变量叫做 相关变量。 50、回归分析:是确定两种或两种以上变 数间相互依赖的定量关系的一种统计分析 方法。 51、相关分析:研究随机变量之间相关性 的统计分析方法。 52、直线回归分析:如果在回归分析中, 只包括一个自变量和一个因变量,且二者 的关系可用一条直线近似表示,这种回归 分析称为直线回归分析 53、直线相关分析:对两个相关变量间的 直线关系进行相关分析称为直线相关分析 54、相关系数:统计学上把决定系数r2 的平方根称为x与y的相关系数 55、试验设计:以概率论和数理统计为理 论基础,经济地,科学地安排试验的一项 技术。 56、随机:使用随机方法对试验动物分组, 使参试动物分入各试验处理组的机会相 等,以避免试验动物分组事试验人员主观 倾向的影响 57、重复:试验的每一个处理都实施在两
2006-2007第1学期生物统计考试试卷(B 卷)答案 一、名词解释(10×2) 1、参数:描述总体的特征数。 2、连续性变数:指在任意两个变量之间都有可能存在只有微量差异的第三个变量存在,这样一类变数称为连续性变数 3、唯一差异原则:除了被研究的因素具有的不同水平外,其余各种环境因素均应保持在某一特定的水平上。 4、两尾测验:有两个否定区,分别位于分布的两尾。 5、显著水平:否定无效假设0H 的概率标准。 6、互斥事件:如果事件1A 和2A 不能同时发生,即12A A 为不可能事件,则称事件1A 和2A 互斥。 7、无偏估计:在统计上,如果所有可能样本的某一统计数的平均数等于总体的相应参数,则称该统计数为总体相应参数的无偏估值。 8、相关系数:表示两组变数相关密切程度及性质的变数,r *9、否定区:否定无效假设0H 的区间。 *10、偏回归系数:任一自变数(在其他自变数皆保持一定数量水平时)对依变数的效应。 二、是非题(5×1) 1、二项分布的平均数为np ( √ ) 2、在二因素完全随机化设计试验结果的方差分析中,误差项自由度为(1)(1)n ab --。( × )
3、2χ分布是随自由度变化的一簇间断性曲线,可用于次数资料的假设测验。( × ) 4、一个显著的相关系数或回归系数说明X 和Y 变数的关系必为线性关系。( × ) 5、在一组变量中,出现频率最多的观察值,称为中位数。( × ) 三、选择题(10×2) 1、算术平均数的重要特征之一是离均差的总和( C ) A 、最小 B 、最大 C 、等于零 D 、接近零 2、一批种子的发芽率为0.75p =,每穴播5粒,出苗数为4时的概率( A ) A 、0.3955 B 、0.0146 C 、0.3087 D 、0.1681 3、回归截距a 的标准误等于( D ) A 、X SS n Q )2(- B 、 X X Y SS x X n S 2 )(1-+ C 、X X Y SS x X n S 2 )(11-++ D 、 X X Y SS x n S 2 1+ 4、Y~N(10, 80),当以1210n n ==进行抽样时,128y y ->的概率约为[ B ]。 A. 0.10 B. 0.05 C. 0.025 D. 0.01 5、成对比较的特点不包括( D ) A 、加强了试验控制 B 、可减小误差 C 、不必考虑总体方差是否相等 D 、误差自由度大 6、方差分析基本假定中除可加性、正态性外,尚有[ C ]假定。 A 、无偏性 B 、无互作 C 、同质性 D 、重演性 7、若否定 H ,则( ) A 、必犯α错误 B 、必犯β错误 C 、犯α错误或不犯错误 D 、犯β错误或不犯错误 8、随机抽取200粒棉花种子做发芽试验,得发芽种子为150粒,其与00.8p =的差异显著性为( A )。 A 、不显著 B 、显著 C 、极显著 D 、不能确定 9、当30n ≤时,测验一个样本方差2 s 和某一指定值C 是否有显著差异的方法用( B ) A 、F 测验 B 、2 χ测验 C 、t 测验 D 、u 测验 *10、多元线性回归方程的假设测验可用( A )。 A 、F 测验 B 、F 或t 测验 C 、t 测验 D 、u 测验
二、填空 1、生物统计分描述性统计和分析性统计。描述性统计是指运用分类、制表、图形以及计算概括性数据(平均数、标准差等)来描述数据特征的各项活动。分析性统计是进行数据观察、数据分析以及从中得出统计推断的各项活动。 2、统计分析的基本过程就是由样本推断总体的过程。该样本是该总体的一部分。 3、由样本获取总体的过程叫抽样。常用的抽样方法有随机抽样、顺序抽样、分等按比例抽样、整群抽样等。 4、样本平均数与总体平均数的差异叫抽样误差。常用 S/√N表示。 5、只有降低抽样误差才能提高试验结果的正确性。试验结果的正确性包括准确性和精确性。 6、试验误差按来源分为系统误差(条件误差)和随机误差(偶然误差)。系统误差(条件误差)影响试验结果的准确性,随机误差(偶然误差)影响试验结果的精确性。 7、系统误差(条件误差)可以控制,可通过合理的试验设计方法降低或消除。随机误差(偶然误差)不可控制,可通过理论分布来研究其变异规律,或相对比较其出现的概率的大小。 8、样本推断总体分假设检验和区间估计两大内容。常用的检验方法有t检验、F检验和卡方检验。 9、置信区间指在一定概率保证下总体平均数的可能范围。 10、t检验是通过样本平均数差值的大小来检验处理效应是否存在,两样本平均数的差值代表了试验的表观效应,它可能由处理效应(真实效应)和误差效应引起,要检验处理效应是否存在,常采用反证法。此法先建立无效假设:即假设处理效应不存在,样本平均数差值是由误差引起,根据差异在误差分布里出现的概率(即可能性大小的衡量)来判断无效假设是否成立。 11、判断无效假设是否成立的依据是小概率事件实际不可能原理,即假设检验的基本依据。用来肯定和否定无效假设的小概率,我们称之为显著水平,通常记为α。 12、t检验通常适合两样本连续性(非间断性)随机变量资料的假设检验,当二项分布逼近正态分布时,百分数资料也可用t检验。 13、F检验也叫方差分析。通常适合三个或三个以上样本连续性(非间断性)随机变量资料的假设检验。顾名思义,F检验是用方差的变异规律(即F分布)来检验处理效应是否存在。 14、F检验是从总离均差平方和与自由度的剖分开始,将总变异剖分为组间变异和组内变异。因为组间变异由处理效应和误差效应共同引起,组内变异由误差效应引起。因而,将计算出的组间方差和组内方差进行比较,就可判断处理效应是否存在。 15、F检验显著或极显著说明组间处理效应存在,但并不能说明每两组间都存在差异,要知道每两
渤海大学学生实验报告 课程名称:生物统计学实验任课教师:何余堂 实验室名称:计算机室房间号:理工Ⅱ--205 实验时间:2012-6-14 学院化学化工与食品安全学院专业食品质量与安 全 班级10-10 姓名宋帅婷学号10150142同组人其余19人 实验项目统计数据的整理及次数分布 表/图的制作 组 别第二组 实验成绩 一、实验目的 1、掌握Excel数据输入、输出与编辑方法; 2、掌握Excel用于描述性统计的基本菜单操作及命令; 3、掌握数据整理的基本方法; 4、熟练制作次数分布表/图。 二、实验原理 当观测值较多(n>30)时,宜将观测值分成若干组,以便统计分析。将观测值分组后,制成次数分布表,即可看到资料的集中和变异情况。 连续性资料的整理,需要先确定全距、组数、组距、组中值及组限,然后将全部观测值计数归组。分组结束后,将资料中的每一观测值逐一归组,统计每组内所包含的观测值个数,制作次数分布表。利用Excel的数据统计工具可以辅助完成上述工作。 三、实验步骤 1、加载分析工具库 单击Excel程序“工具”菜单中的“数据分析”命令可以浏览已有的分析工具。如果在“工具”菜单上没有“数据分析”命令,应在“工具”菜单上运行“加载宏”命令,在“加载宏”对话框中选择“分析工具库”。 2、练习 某地80例30~40岁健康男子血清总胆固醇(mol/L)测定结果如下: 4.77 4.56 5.18 4.38 4.03 5.16 4.88 4.52 4.47 5.38 3.37 4.37 5.77 4.89 5.85 5.10 5.55 4.38 3.40 3.89 6.14 5.39 4.79 4.09 5.85 3.04 4.31 3.91 4.60 3.95 6.30 5.12 5.32 3.35 4.79 4.55 4.58 2.70 4.47 3.56 4.77 4.56 5.18 4.38 4.03 5.16 4.88 4.52 4.47 5.38 3.37 4.37 5.77 4.89 5.85 5.10 5.55 4.38 3.40 3.89 6.14 5.39 4.79 4.09 5.85 3.04 4.31 3.91 4.60 3.95 6.30 5.12 5.32 3.35 4.79 4.55 4.58 2.70 4.47 3.56 5.21
一、填空 变量按其性质可以分为连续变量和非连续变量。 样本统计数是总体参数的估计量。 生物统计学是研究生命过程中以样本来推断总体的一门学科。 生物统计学的基本内容包括试验设计、统计分析两大部分。 统计学的发展过程经历了古典记录统计学、近代描述统计学、现代推断统计学3个阶段。 生物学研究中,一般将样本容量n≥30称为大样本。 试验误差可以分为随机误差、系统误差两类。 资料按生物的性状特征可分为数量性状资料变量和质量性状资料变量。 直方图适合于表示连续变量资料的次数分布。 变量的分布具有两个明显基本特征,即集中性和离散性。 反映变量集中性的特征数是平均数,反映变量离散性的特征数是变异数。 样本标准差的计算公式s=。 如果事件A和事件B为独立事件,则事件A与事件B同时发生地概率P(AB)=P(A)*P(B)。 二项分布的形状是由n和p两个参数决定的。 正态分布曲线上,μ确定曲线在x轴上的中心位置,σ确定曲线的展开程度。 等于σ/√n。 样本平均数的标准误 x t分布曲线和正态分布曲线相比,顶部偏低,尾部偏高。 统计推断主要包括假设检验和参数估计两个方面。
参数估计包括点估计和区间估计。 假设检验首先要对总体提出假设,一般应作两个假设,一个是无效假设,一个是备择假设。 对一个大样本的平均数来说,一般将接受区和否定区的两个临界值写作μ-uασ?x_ μ+uασ?x 在频率的假设检验中,当np或nq<30时,需进行连续性矫正。 2 χ检验主要有3种用途:一个样本方差的同质性检验、适应性检验和独立性检验。 2 χ检验中,在自由度df=(1)时,需要进行连续性矫正,其矫正的2 χ=(p85)。 c 2 χ分布是连续型资料的分布,其取值区间为[0.+∞)。 猪的毛色受一对等位基因控制,检验两个纯合亲本的F2代性状分离比是否符合孟德尔第一遗传规律应采用适应性检验法。 独立性检验的形式有多种,常利用列联表进行检验。 根据对处理效应的不同假定,方差分析中的数学模型可以分为固定模型、随机模型和混合模型混合模型3类。 在进行两因素或多因素试验时,通常应该设置重复,以正确估计试验误差,研究因素间的交互作用。 在方差分析中,对缺失数据进行弥补时,应使补上来数据后,误差平方和最小。方差分析必须满足正态性、可加性、方差同质性3个基本假定。 如果样本资料不符合方差分析的基本假定,则需要对其进行数据转换,常用的数据转换方法有平方根转换、对数转换、正反弦转换等。 相关系数的取值范围是[-1,1]。
SPSS在生物统计学中的应用 ——实验指导手册 实验五:方差分析 一、实验目标与要求 1.帮助学生深入了解方差及方差分析的基本概念,掌握方差分析的基本思想和原理 2.掌握方差分析的过程。 3.增强学生的实践能力,使学生能够利用SPSS统计软件,熟练进行单因素方差分析、两因素方差分析等操作,激发学生的学习兴趣,增强自我学习和研究的能力。 二、实验原理 在现实的生产和经营管理过程中,影响产品质量、数量或销量的因素往往很多。例如,农作物的产量受作物的品种、施肥的多少及种类等的影响;某种商品的销量受商品价格、质量、广告等的影响。为此引入方差分析的方法。 方差分析也是一种假设检验,它是对全部样本观测值的变动进行分解,将某种控制因素下各组样本观测值之间可能存在的由该因素导致的系统性误差与随即误差加以比较,据以推断各组样本之间是否存在显著差异。若存在显著差异,则说明该因素对各总体的影响是显著的。 方差分析有3个基本的概念:观测变量、因素和水平。 ●观测变量是进行方差分析所研究的对象; ●因素是影响观测变量变化的客观或人为条件; ●因素的不同类别或不通取值则称为因素的不同水平。在上面的例子中,农作物的产量和商品的销 量就是观测变量,作物的品种、施肥种类、商品价格、广告等就是因素。在方差分析中,因素常常是某一个或多个离散型的分类变量。 ?根据观测变量的个数,可将方差分析分为单变量方差分析和多变量方差分析; ?根据因素个数,可分为单因素方差分析和多因素方差分析。 在SPSS中,有One-way ANOV A(单变量-单因素方差分析)、GLM Univariate(单变量多因素方差分析);GLM Multivariate (多变量多因素方差分析),不同的方差分析方法适用于不同的实际情况。本节仅练习最为常用的单变量方差分析。 三、实验演示内容与步骤 ㈠单变量-单因素方差分析 单因素方差分析也称一维方差分析,对两组以上的均值加以比较。检验由单一因素影响的一个分析变量由因素各水平分组的均值之间的差异是否有统计意义。并可以进行两两组间均值的比较,称作组间均值的多重比较。主要采用One-way ANOV A过程。 采用One-way ANOV A过程要求:因变量属于正态分布总体,若因变量的分布明显是非正态,应该用非参数分析过程。若对被观测对象的实验不是随机分组的,而是进行的重复测量形成几个彼此不独立的变量,应该用Repeated Measure菜单项,进行重复测量方差分析,条件满足时,还可以进行趋势分析。 【例6.1】欲比较四种饲料对仔猪增重效果的优劣,随机选取了性别、年龄、体重相同,无亲缘关系的20头猪,随机分为4组,每组5头,分别饲喂一种饲料所得增重数据如下在。试利用这些数据对4种饲料对仔猪
请认真阅读完再下载:预览的题目顺序完全和您自己的试题顺序完全相同再下载! 试验设计与生物统计2-0001 浙江广播电视大学形成性测评系统课程代码:3305826 参考资料 试卷总分:100 单选题(共8题,共40分) 1.(5分) 下列不属于算术平均数的特征的是()。 A、平均数没有单位 B、平均数大小与每个样本值都有关 C、离均差的平方和最小 D、各观测值与平均数之差的总和等于0 参考答案:A 2.(5分) 某水稻试验中,从320株水稻杂交后代中随机抽样,全部样本中紫色株头有20株,黄色株头的有10株,该试验的样本容量是()。 A、320 B、30 C、20 D、10 参考答案:B 3.(5分) 一批数据中最大值与最小值之间的差距称为()。 A、极差 B、差值 C、区组 D、组距 参考答案:A 4.(5分) 标准差与平均数的比值称为()。 A、方差 B、标准差 C、变异系数 D、变数 参考答案:C 5.(5分) 对花的颜色、芒的有无、果实性状的圆扁等性状的观察记载数据,称为()。 A、质量变数 B、数量变数 C、连续性变数 D、间断性变数 参考答案:A 6.(5分) 在某冷藏库中,抽取红色切花的概率是40%,抽取玫瑰的概率是50%,那么抽取红色玫瑰切花的概率是()。
A、20% B、40% C、50% D、90% 参考答案:A 7.(5分) 某玉米品种成熟期测得5株的株高分别为240、243、245、250、257(单位:cm),那么该玉米品种的平均株高是()cm。 A、240 B、245 C、247 D、257 参考答案:C 8.(5分) 有100粒玉米种子,30粒为黄色、30粒为紫色、40粒为白色,采用复置抽样,连续两次抽到白色玉米的概率为()。 A、0.16 B、0.3 C、0.4 D、0.6 参考答案:A多选题(共5题,共30分) 9.(6分) 下列属于常用变异数的有()。 A、极差 B、方差 C、标准差 D、平均数 参考答案:ABC 10.(6分) 下列有关样本的表述正确的是()。 A、样本是总体中抽取的一部分 B、样本内个数为样本容量 C、随机样本能代表总体 D、样本和总体是具有相对性的 参考答案:ABCD 11.(6分) 下列有关频率和概率的表述正确的是()。 A、频率和概率是用于描述事件出现可能性的数量指标 B、事件A在n次试验中出现了a次,那么事件A出现的频率为a/n C、频率也可以称为概率 D、当次数n充分大时,能对随机事件出现的概率做出估计 参考答案:ABD 12.(6分) 正态分布在在理论和实践上所具有重要的意义在于()。
总体:根据研究目的确定的研究对象的全体 个体:总体中的一个研究单位 样本:实际研究中的一类假象总体 样本含量:样本中所包含的个体数目称为样本含量或大小 随机样本:一类从总体中随机抽得到的具有代表性的样本 统计量:由样本计算的特征数 参数:由总体计算的特征数 精确性:指在试验或调查中某一试验指标或性状的重复观察值彼此接近的程度 系统误差:系统误差又叫做片面误差。它是在一定的测量条件下,对同一个被测尺寸进行多次重复测量时,误差值的大小和符号(正值或负值)保持不变;或者在条件变化时,按一定规律变化的误差。 偶然误差:一类由于偶然的或不确定的因素所造成的每一次测量值的无规则变化(涨落),叫做偶然误差,或随机误差。 连续性变数资料:指用量测方式获得的数量性状资料 离散型变数资料:指用计数方式获得的数量性状资料 算术平均数:指资料中的各观测值的总和除以观测值个数所得的商,简称平均数或均数 平均数:资料或代表数,主要包括算术平均数,中位数,众数,几何平均数及调和平均数 标准差:是各数据偏离平均数的距离的平均数,它是离均差平方和平均后的方根,用σ表示。 方差:度量总体(或样本)各变量间变异程度的参数(总体)或统计量(样本)。
离均差平方和:样本各观测值变异程度大小的另一个统计数 试验:在一定条件下对自然现象所进行的观察或试验统称为试验 随机事件:随机试验的每一种可能结果 概率:事件本身所固有的数量指标,不随人的主观意志而改变,人们称之为概率小概率原理:小概率事件在一次试验中看成是实际不可能发生的事件称为小概率事件实际不可能原理 正态分布:若连续性随机变量X的概率分布密度函数,则X服从正态分布 标准正态分布:我们把平均数u=0,σ2 =1时,称为标准正态分布,记为N(0,1) 双侧概率:我们把随机变量X在平均数u加减不同倍数标准差σ区间(u-kσ,u+k σ)之外,取值的概率称为双侧概率 单侧概率:对应于两尾概率可以求得随机变量x小于小于u-kσ或大于u+kσ的概率 二项分布:设随机变量x所有可能取得的值为0或正整数,且有P(ξ=K)=Cn(k)P(k)q(n-k),k=0,1,2….n,则称随机变量x服从n和p的二项分布标准误:反映样本平均数的抽样误差的大小的一种指标 t分布:由于在实际工作中,往往σ是未知的,常用s作为σ的估计值,为了与u变换区别,称为t变换t=,统计量t 值的分布称为t分布。 假设检验(显著性检验):假设检验是数理统计学中根据一定假设条件由样本推断总体的一种方法。