3研究对象的稳定性分析
农作物新品种登记推广前的品种区域比较试验
包括AMMI模型
4 效应曲线分析(定量分析),温度与昆虫发育速度,施肥与产量的关系
用的最多的是完全随机设计,随机区组设计
完全随机:先将各个处理编上号码
先编号再随机分组
随机区组设计
在电子表格里面输入各个处理的名称,再进行区组设计
完全随机设计随机区组设计
实验室,实验条件完全相同(如培养皿),用完全随机设计
田间实验,局部控制用随机区组设计
先划分区组
两种设计结果的统计分析。
数据格式;一行一个处理,一列一次重复
对数正态分布:对数转换
Poisson分布:平方根
要不要转换,怎样转换?
计算出来的p值最小
方差分析是基于正态分布假设,数据在接近正太分布情况下统计效率最高,p值最小
多重比较了、:看期刊习惯
分析结果,先看p值
不同处理之间,指标的高低存在极显著的差异F(2,57)=5.54,P=0.0063 自由度一般只有n-1个是可变的
方差分析结果表明不同处理之间差异
多重比较,只有在方差分析的p<0、05时才接着进行。
多重比较:有相同的字母,差异不显著
所以进行多重比较前,一定要先报告F和P值
区组之间差异不用管
随机区组设计统计分析、
结果解读:区组间差异不用管他
和完全随机设计相同,分析处理之间的差异
统计差异显著性
数据时完整的(平衡数据),实际科研
所有的实验设计方法的分析都可以用GLM解决
统计方差分析:平方和分解
GLM方法,回归分析,最小二乘法
回归方程:实验结果的观察值作为因变量Y
实验设计的各个处理因子作为自变量X处理因子各个水平进行0-1化
虚拟变量处理
回归分析第一步:0-1化处理
处理高剂量低剂量对照
处理1 1 0 0
处理2 0 1 0
处理3 0 0 1
解方程,求回归系数
根据回归系数计算各个处理的平方和根据平方和进行方差分析
实验设计与回归方程关系:线性模型完全随机设计
Y=μ(均值效应)+αi区组效应+e误差项i为处理,j为区组
u为在回归方程里为常数项
α各个处理水平0-1化求的
GLM分析数据格式
右边是观察值作为y
左边是各个实验处理的组合,自变量x 平方和分解方式:一般是III型
变量编码:效应编码
参照两种都可以
多重比较:
5个处理,互相比较,要比较10次4 3 2 1、
假设里面有5对是有差异的
Tukey:保证不会吧没有差异的判为有差异,这里的判为只有4对……有差异。不会超过实际上5对有差异
LSD法:保证不会吧有差异的判为没有差异。这里可判为6对……有差异。不会少于实际上的5对。
Duncan及其他方法:适当调整,达到某种平衡,但是不能保证是精确地判断
自定义比较:单一自由度比较
A因素里面,第1,2两个水平是基肥10,15N,第3,4水平是追肥10,15N 比较及
不同地点间有差异
I型分解:先分解出地区间差异平方和,然后在分解出各个地区内,田块间的平方和;主要用于系统分组、嵌套设计
A/B 地区间差异是否大于
变异系数Bennett检验
G-一统计量,似然比卡方,进行卡方检验
G=7.61 0.00
卡方统计量的计算
(观察值-理论值)2
皮尔逊卡方值=…………………………,求和
理论值
理论值,根据模型的假设计算,卡方值越小,p值越大,观察值和模型的理论值相符(没有差异)
常规卡方统计量,皮尔逊卡方,似然比卡方。似然比卡方性能更好些,似然比卡方计算需要取对数。P2O2,似然比卡方具有可加性。
列联表卡方检验,卡方值,检验行列指标之间的相关性。有时该卡方……
解释专业含义(异质性)生物统计一分类数据一联表卡方检验
不同性质列联表的统计检验
行列指标都无顺序
Logistic回归数据格式
回归分析及其应用
回归分析:用数学模型描述专业上的理论模型
Y=ax+b
Y=ax2+b
x(温度)y(天数)
15 20
20 15
25 12
30 10
有效积温
Y=K/(x-x0)非线性方程线性转换后求解
回归分析参数估计,最小二乘法
最小二乘法:因变量观察值和理论值的差值的平方和最小
身高和年龄关系:Logistic S型曲线
Y=K/(1+exp(ax+b))非线性方程
模型诊断任何数据都可建立y=ax+b得到系数a、b的估计值。得到系数估计值后,要进行统计检验,计算p值
总的平方和=各个y值,减去平均值,平方后求和。表示y的总的变异大小
回归平方和=各个y的拟合值,减去平均值,平方后求和,表示y的拟合值变异大小
残差平方和=各个残差,平方后求和。
关系:总的平方和=回归平方和+残差平方和
P值含义:回归方程不成立的概率的大小
P<0.05,p<0.01回归方程极可能成立,回归方程可用
回归方程可用不代表很好的描述的变化。
决定系数:理论方程模型能解释因变量y优化的比例大小
回归分析方法:最小二乘法
回归方程建立后;一看p值(方程能否用p<0,05),二看决定系数(方程在专业上是否有意义),要求决定系数大于0.5
方差分析、回归分析
定性比较、定量描述
回归方程(没有惰性物质)
Y=0.64090+0.09677x1 标准误差=0.0420
回归方程()加入惰性物质后)
Y=1.70553+0.09326x1 标准误差=0.0179
多因素实验设计及其统计分析
多因素实验设计:
正交设计:日本田口设计
第一步:用了近30种化学试剂,参考其他昆虫饲料配方,采用正交设计,进行试验,选出主要成分
第二部: 选出约20种继续进行正交试验,确定一般配方的主要成分:满足飞虱的营养要求
第三步:选出重要的4-5种,采用复合中心设计,优化配方:提高成虫羽化率。
正交设计:一般有固定表格
四因素三水平,完全实验:35
正交试验:至少是32水平数的平方
正交:两因素之间的相关为零
但是相关为零却不一定是正交(多因素试验里面)
SPSS里面正交设计表,有时不是正交表更接近均匀设计表:正交表,均匀分散,整齐可比
正交设计,一般用现成的表格进行
根据正交实验设计表调整我们得试验因素,及其水平数
多因素多水平实验:均匀设计(超立方体设计)
复合中心设计5个水平,3-5个因子的优化实验设计(建立最优的教学模型)
二次正交旋转设计;二次通用组合设计
因子筛选:正交
模型优化:因子少时用中心复合设计(尽量用该设计进行优化,有很多更好的统计性质);
因子多时用均匀设计
生物学实验,方差分析,统计检验,正交表各列排满后,是饱和设计,此时,无法分解出实验误差,进行方差分析
方差分析F值=处理均方/误差均方
要进行统计检验:因子列不排满;或者重复一次
分析:比一比看一看:主要看调整极差,比大小
统计检验:没重复时,要留有空白列
分析过程中,处理因子列的均方很小时,也可作为空白(误差来源)
有重复正交试验:试验类型
适当划分区组,可提高试验精度
实验室条件下:可适当划分时间(上午,下午,今天,明天)区组
非线性回归分析
模型的选取专业背景更重要
Y=49.18-2.8x+0.45ax2
Y=103.65/(x-9.6535)
模型的诊断和解释
方差分析p值一般都很小,决定系数较大。这里是初步判断
主要看各个回归系数,统计检验及专业含义
Y=103.65/(x-9.6535)
统计检验p<0.05时,可对参数进行专业上的解释
参数估计的95%置信区间。参数是否有应用价值。
95%置信区间
有效积温82.26 125.05
起点温度7.71 11.60
作业?
偏最小二乘法
回归分析:样本数大于变量数
样本数少,可用逐步回归选取重要因子建立回归方程
这样:方程不稳定,有的因子没有选进来,给模型应用
配方因子:几个变量取值加起来为100%
PLS:
不用筛选因子
可同时对多个因变量进行建模分析
PLS在均匀设计里面应用很多,均匀设计实验结果统计分析
复合中心设计统计分析:
标准方法:二次多项式回归法
非标准方法:筛选重要因子
模型检验
回归检验,F值大,P<0.05;
失拟检验:F值小,P最好>0.05;)
效应曲线:单变量效应,两变量互作效应(曲面,等高线)目标变量
最有时的X值取值区域,或变化趋势。
典范分析:对二次多项式回归方程求导数,进行优化,优化结果及优化点的变量X的特征
筛选重要因子,第一步时不选
稳定点处为鞍点
最有优化
典范分析(求导数),结果
没有典范分析。典范分析要求针对完整的二次多项式回归方程进行含区组的分析:模型项的p值<0.05.
多元分析数据格式
一行一个样本,一列一个最优指标时各个因素组合
判别分析:根据已知类别建立判别函数“有师分类”
多变量(变量特别多时)判别,回归分析:随机森林方法2001