当前位置：文档之家› 常用统计方法

常用统计方法

主成分分析

主成分分析（principal component analysis）

将多个变量通过线性变换以选出较少个数重要变量的一种多元统计分析方法。又称主分量分析。在实际课题中，为了全面分析问题，往往提出很多与此有关的变量（或因素），因为每个变量都在不同程度上反映这个课题的某些信息。但是，在用统计分析方法研究这个多变量的课题时，变量个数太多就会增加课题的复杂性。人们自然希望变量个数较少而得到的信息较多。在很多情形，变量之间是有一定的相关关系的，当两个变量之间有一定相关关系时，可以解释为这两个变量反映此课题的信息有一定的重叠。主成分分析是对于原先提出的所有变量，建立尽可能少的新变量，使得这些新变量是两两不相关的，而且这些新变量在反映课题的信息方面尽可能保持原有的信息。主成分分析首先是由K.皮尔森对非随机变量引入的，尔后H.霍特林将此方法推广到随机向量的情形。信息的大小通常用离差平方和或方差来衡量。

（1）主成分分析的原理及基本思想。

原理：设法将原来变量重新组合成一组新的互相无关的几个综合变量，同时根据实际需要从中可以取出几个较少的总和变量尽可能多地反映原来变量的信息的统计

方法叫做主成分分析或称主分量分析，也是数学上处理降维的一种方法。

基本思想：主成分分析是设法将原来众多具有一定相关性（比如P个指标），重新组合成一组新的互相无关的综合指标来代替原来的指标。通常数学上的处理就是将原来P个指标作线性组合，作为新的综合指标。最经典的做法就是用F1（选取的第一个线性组合，即第一个综合指标）的方差来表达，即Var(F1)越大，表示F1包含的信息越多。因此在所有的线性组合中选取的F1应该是方差最大的，故称F1为第一主成分。如果第一主成分不足以代表原来P个指标的信息，再考虑选取F2即选第二个线性组合，为了有效地反映原来信息，F1已有的信息就不需要再出现再F2中，用数学语言表达就是要求Cov(F1, F2)=0，则称F2为第二主成分，依此类推可以构造出第三、第四，……，第P个主成分。

（2）步骤

Fp=a1mZX1+a2mZX2+……+apmZXp

其中a1i, a2i, ……,api(i=1,……,m)为X的协方差阵Σ的特征值多对应的特征向量，ZX1, ZX2, ……, ZXp是原始变量经过标准化处理的值，因为在实际应用中，往往存在指标的量纲不同，所以在计算之前须先消除量纲的影响，而将原始数据标准化，本文所采用的数据就存在量纲影响[注：本文指的数据标准化是指Z标准化]。

A=(aij)p×m=(a1,a2,…am,)，Rai=λiai，R为相关系数矩阵，λi、ai是相应的特征值和单位特征向量,λ1≥λ2≥…≥λp≥0 。

进行主成分分析主要步骤如下：

1. 指标数据标准化（SPSS软件自动执行）；

2. 指标之间的相关性判定；

3. 确定主成分个数m；

4. 主成分Fi表达式；

5. 主成分Fi命名；

回归分析

回归分析（regression analysis)是确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法。运用十分广泛，回归分析按照涉及的自变量的多少，可分为一元回归分析和多元回归分析；按照自变量和因变量之间的关系类型，可分为线性回归分析和非线性回归分析。如果在回归分析中，只包括一个自变量和一个因变量，且二者的关系可用一条直线近似表示，这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量，且因变量和自变量之间是线性关系，则称为多元线性回归分析。

方差齐性

线性关系

效应累加

变量无测量误差

变量服从多元正态分布

观察独立

模型完整（没有包含不该进入的变量、也没有漏掉应该进入的变量）

误差项独立且服从（0,1）正态分布。

现实数据常常不能完全符合上述假定。因此，统计学家研究出许多的回归模型来解决线性回归模型假定过程的约束。

研究一个或多个随机变量Y1 ，Y2 ，…，Yi与另一些变量X1、X2，…，Xk 之间的关系的统计方法。又称多重回归分析。通常称Y1，Y2，…，Yi为因变量，X1、X2，…，Xk为自变量。回归分析是一类数学模型，特别当因变量和自变量为线性关系时，它是一种特殊的线性模型。最简单的情形是一个自变量和一个因变量，且它们大体上有线性关系，这叫一元线性回归，即模型为Y＝a＋bX＋ε，这里X是自变量，Y是因变量，ε是随机误差，通常假定随机误差的均值为0，方差为σ^2（σ^2大于0）σ2与X的值无关。若进一步假定随机误差遵从正态分布，就叫做正态线性模型。一般的情形，差有k个自变量和一个因变量，因变量的值可以分解为两部分：一部分是由自变量的影响，即表示为自变量的函数，其中函数形式已知，但含一些未知参数；另一部分是由于其他未被考虑的因素和随机性的影响，即随机误差。当函数形式为未知参数的线性函数时，称线性回归分析模型；当函数形式为未知参数的非线性函数时，称为非线性回归分析模型。当自变量的个数大于1时称为多元回归，当因变量个数大于1时称为多重回归。

回归分析的主要内容为：①从一组数据出发确定某些变量之间的定量关系式，即建立数学模型并估计其中的未知参数。估计参数的常用方法是最小二乘法。②对这些关系式的可信程度进行检验。③在许多自变量共同影响着一个因变量的关系中，判断哪个（或哪些）自变量的影响是显著的，哪些自变量的影响是不显著的，将影响显著

的自变量选入模型中，而剔除影响不显著的变量，通常用逐步回归、向前回归和向后回归等方法。④利用所求的关系式对某一生产过程进行预测或控制。回归分析的应用是非常广泛的，统计软件包使各种回归方法计算十分方便。

[编辑本段]

回归分析的应用

相关分析研究的是现象之间是否相关、相关的方向和密切程度，一般不区别自变量或因变量。而回归分析则要分析现象之间相关的具体形式，确定其因果关系，并用数学模型来表现其具体关系。比如说，从相关分析中我们可以得知“质量”和“用户满意度”变量密切相关，但是这两个变量之间到底是哪个变量受哪个变量的影响，影响程度如何，则需要通过回归分析方法来确定。

一般来说，回归分析是通过规定因变量和自变量来确定变量之间的因果关系，建立回归模型，并根据实测数据来求解模型的各个参数，然后评价回归模型是否能够很好的拟合实测数据；如果能够很好的拟合，则可以根据自变量作进一步预测。

例如，如果要研究质量和用户满意度之间的因果关系，从实践意义上讲，产品质量会影响用户的满意情况，因此设用户满意度为因变量，记为Y；质量为自变量，记为X。根据图8－3的散点图，可以建立下面的线性关系：

Y=A+BX+§

式中：A和B为待定参数，A为回归直线的截距；B为回归直线的斜率，表示X 变化一个单位时，Y的平均变化情况；§为依赖于用户满意度的随机误差项。

在SPSS软件里可以很容易地实现线性回归，回归方程如下：

y=0.857+0.836x

回归直线在y轴上的截距为0.857、斜率0.836，即质量每提高一分，用户满意度平均上升0.836分；或者说质量每提高1分对用户满意度的贡献是0.836分。

740)this.width=740">

上面所示的例子是简单的一个自变量的线性回归问题，在数据分析的时候，也可以将此推广到多个自变量的多元回归，具体的回归过程和意义请参考相关的统计学书籍。此外，在SPSS的结果输出里，还可以汇报R2，F检验值和T检验值。R2又称为方程的确定性系数（coefficient of determination），表示方程中变量X对Y的解释程度。R2取值在0到1之间，越接近1，表明方程中X对Y的解释能力越强。通常将R2乘以100％来表示回归方程解释Y变化的百分比。F检验是通过方差分析表输出的，通过显著性水平（significant level）检验回归方程的线性关系是否显著。一般来说，显著性水平在0.05以下，均有意义。当F检验通过时，意味着方程中至少有一个回归系数是显著的，但是并不一定所有的回归系数都是显著的，这样就需要通过T检验来验证回归系数的显著性。同样地，T检验可以通过显著性水平或查表来确定。在上面所示的例子中，各参数的意义如表8－2所示。

示例SIM手机用户满意度与相关变量线性回归分析

我们以SIM手机的用户满意度与相关变量的线性回归分析为例，来进一步说明线性回归的应用。从实践意义讲上，手机的用户满意度应该与产品的质量、价格和形象有关，因此我们以“用户满意度”为因变量，“质量”、“形象”和“价格”为自变量，作线性回归分析。利用SPSS软件的回归分析，得到回归方程如下：

用户满意度＝0.008×形象＋0.645×质量＋0.221×价格

对于SIM手机来说，质量对其用户满意度的贡献比较大，质量每提高1分，用户满意度将提高0.645分；其次是价格，用户对价格的评价每提高1分，其满意度将提高0.221分；而形象对产品用户满意度的贡献相对较小，形象每提高1分，用户满意度仅提高0.008分。

方程各检验指标及含义如下：

从方程的检验指标来看，“形象”对整个回归方程的贡献不大，应予以删除。所以重新做“用户满意度”与“质量”、“价格”的回归方程如下：

用户满意度＝0.645×质量＋0.221×价格

对于SIM手机来说，质量对其用户满意度的贡献比较大，质量每提高1分，用户满意度将提高0.645分；用户对价格的评价每提高1分，其满意度将提高0.221分（在本示例中，因为“形象”对方程几乎没有贡献，所以得到的方程与前面的回归方程系数差不多）。

方程各检验指标及含义如下：

判别分析

[编辑本段]

1、定义

判别分析又称“分辨法”，是在分类确定的条件下，根据某一研究对象的各种特征值判别其类型归属问题的一种多变量统计分析方法。

其基本原理是按照一定的判别准则，建立一个或多个判别函数，用研究对象的大量资料确定判别函数中的待定系数，并计算判别指标。据此即可确定某一样本属于何类。

[编辑本段]

2、分类

根据判别中的组数，可以分为两组判别分析和多组判别分析；

根据判别函数的形式，可以分为线性判别和非线性判别；

根据判别式处理变量的方法不同，可以分为逐步判别、序贯判别等；

根据判别标准不同，可以分为距离判别、Fisher判别、Bayes判别法等

[编辑本段]

3、应用

在气候分类、农业区划、土地类型划分中有着广泛的应用。

在市场调研中，一般根据事先确定的因变量（例如产品的主要用户、普通用户和非用户、自有房屋或租赁、电视观众和非电视观众）找出相应处理的区别特性。在判别分析中，因变量为类别数据，有多少类别就有多少类别处理组；自变量通常为可度量数据。通过判别分析，可以建立能够最大限度的区分因变量类别的函数，考查自变量的组间差异是否显著，判断那些自变量对组间差异贡献最大，评估分类的程度，根据自变量的值将样本归类。

系统聚类分析

是一门多元统计分类法，根据多种地学要素对地理实体进行划分类别的方法。对不同的要素划分类别往往反映不同目标的等级序列，如土地分等定级、水土流失强度分级等。

系统聚类的步骤一般是首先根据一批地理数据或指标找出能度量这些数据或指标之间相似程度的统计量；然后以统计量作为划分类型的依据，把一些相似程度大的站点（或样品）首先聚合为一类，而把另一些相似程度较小的站点（或样品）聚合为另一类，直到所有的站点（或样品）都聚合完毕，最后根据各类之间的亲疏关系，逐

步画成一张完整的分类系统图，又称谱系图。其相似程度由距离或者相似系数定义。进行类别合并的准则是使得类间差异最大，而类内差异最小。

特点：事先无须知道分类对象的分类结构，而只需要一批地理数据；然后选好分类统计量，并按一定的方法步骤进行计算；最后便能自然地、客观地得到一张完整的分类系统图。

相关分析与回归分析的关系

相关分析与回归分析在实际应用中有密切关系。然而在回归分析中，所关心的是一个随机变量Y对另一个（或一组）随机变量X的依赖关系的函数形式。而在相关分析中，所讨论的变量的地位一样，分析侧重于随机变量之间的种种相关特征。例如，以X、Y分别记小学生的数学与语文成绩，感兴趣的是二者的关系如何，而不在于由X去预测Y。

[编辑本段]

复相关

研究一个变量x0与另一组变量(x1,x2,…，xn)之间的相关程度。例如,职业声望同时受到一系列因素（收入、文化、权力……）的影响，那么这一系列因素的总和与职业声望之间的关系，就是复相关。复相关系数R0.12…n的测定，可先求出x0对一组变量x1，x2，…，xn的回归直线，再计算x0与用回归直线估计值悯之间的简单直线回归。复相关系数为

R0.12…n的取值范围为0≤R0.12…n≤1。复相关系数值愈大，变量间的关系愈密切。

偏相关研究在多变量的情况下，当控制其他变量影响后，两个变量间的直线相关程度。又称净相关或部分相关。例如，偏相关系数r13.2表示控制变量x2的影响之后，变量x1和变量x3之间的直线相关。偏相关系数较简单直线相关系数更能真实反映两变量间的联系。

时间序列分析

时间序列分析(Time series analysis)是一种动态数据处理的统计方法。该方法基于随机过程理论和数理统计学方法，研究随机数据序列所遵从的统计规律，以用于解决实际问题。它包括一般统计分析(如自相关分析，谱分析等),统计模型的建立与推断，以及关于时间序列的最优预测、控制与滤波等内容。经典的统计分析都假定数据序列具有独立性，而时间序列分析则侧重研究数据序列的互相依赖关系。后者实际上是对离散指标的随机过程的统计分析，所以又可看作是随机过程统计的一个组成部分。例如，记录了某地区第一个月，第二个月，……，第N个月的降雨量，利用时间序列分析方法，可以对未来各月的雨量进行预报。

参考自：科学技术方法大辞典

时间序列是按时间顺序的一组数字序列。时间序列分析就是利用这组数列，应用数理统计方法加以处理，以预测未来事物的发展。时间序列分析是定量预测方法之一，它的基本原理：一是承认事物发展的延续性。应用过去数据，就能推测事物的发展趋势。二是考虑到事物发展的随机性。任何事物发展都可能受偶然因素影响，为此要利用统计分析中加权平均法对历史数据进行处理。该方法简单易行，便于掌握，但准确性差，一般只适用于短期预测。时间序列预测一般反映三种实际变化规律:趋势变化、周期性变化、随机性变化。

时间序列分析是根据系统观测得到的时间序列数据，通过曲线拟合和参数估计来建立数学模型的理论和方法。它一般采用曲线拟合和参数估计方法（如非线性最小二乘法）进行。时间序列分析常用在国民经济宏观控制、区域综合发展规划、企业经营管理、市场潜量预测、气象预报、水文预报、地震前兆预报、农作物病虫灾害预报、环境污染控制、生态平衡、天文学和海洋学等方面。

时间序列建模基本步骤是：①用观测、调查、统计、抽样等方法取得被观测系统时间序列动态数据。②根据动态数据作相关图，进行相关分析，求自相关函数。相关图能显示出变化的趋势和周期，并能发现跳点和拐点。跳点是指与其他数据不一致的观测值。如果跳点是正确的观测值,在建模时应考虑进去,如果是反常现象，则应把跳点调整到期望值。拐点则是指时间序列从上升趋势突然变为下降趋势的点。如果存在拐点，则在建模时必须用不同的模型去分段拟合该时间序列，例如采用门限回归模型。

③辨识合适的随机模型,进行曲线拟合,即用通用随机模型去拟合时间序列的观测数据。对于短的或简单的时间序列，可用趋势模型和季节模型加上误差来进行拟合。对于平稳时间序列，可用通用ARMA模型（自回归滑动平均模型）及其特殊情况的自回归模型、滑动平均模型或组合-ARMA模型等来进行拟合。当观测值多于50个时一

般都采用ARMA模型。对于非平稳时间序列则要先将观测到的时间序列进行差分运算，化为平稳时间序列，再用适当模型去拟合这个差分序列。

时间序列分析主要用于：①系统描述。根据对系统进行观测得到的时间序列数据，用曲线拟合方法对系统进行客观的描述。②系统分析。当观测值取自两个以上变量时，可用一个时间序列中的变化去说明另一个时间序列中的变化，从而深入了解给定时间序列产生的机理。③预测未来。一般用ARMA模型拟合时间序列，预测该时间序列未来值。④决策和控制。根据时间序列模型可调整输入变量使系统发展过程保持在目标值上，即预测到过程要偏离目标时便可进行必要的控制。

方差分析(Analysis of Variance，简称ANOVA)

[编辑本段]

什么是方差分析

方差分析（ANOVA）又称“变异数分析”或“F检验”，是R.A.Fisher发明的，用于两个及两个以上样本均数差别的显著性检验。

由于各种因素的影响，研究所得的数据呈现波动状。造成波动的原因可分成两类，一是不可控的随机因素，另一是研究中施加的对结果形成影响的可控因素。

一个复杂的事物，其中往往有许多因素互相制约又互相依存。方差分析的目的是通过数据分析找出对该事物有显著影响的因素，各因素之间的交互作用，以及显著影响因素的最佳水平等。方差分析是在可比较的数组中，把数据间的总的“变差”按各指定的变差来源进行分解的一种技术。对变差的度量，采用离差平方和。方差分析方法就是从总离差平方和分解出可追溯到指定来源的部分离差平方和，这是一个很重要的思想。

经过方差分析若拒绝了检验假设，只能说明多个样本总体均数不相等或不全相等。若要得到各组均数间更详细的信息，应在方差分析的基础上进行多个样本均数的两两比较。

1、多个样本均数间两两比较

多个样本均数间两两比较常用q检验的方法，即Newman-kueuls法，其基本步骤为：建立检验假设-->样本均数排序-->计算q值-->查q界值表判断结果。

2、多个实验组与一个对照组均数间两两比较

多个实验组与一个对照组均数间两两比较，若目的是减小第II类错误，最好选用最小显著差法（LSD法）；若目的是减小第I类错误，最好选用新复极差法，前者查t 界值表，后者查q'界值表。

[编辑本段]

方差分析的基本思想

基本思想：通过分析研究中不同来源的变异对总变异的贡献大小，从而确定可控因素对研究结果影响力的大小。

下面我们用一个简单的例子来说明方差分析的基本思想：

如某克山病区测得11例克山病患者和13名健康人的血磷值（mmol/L）如下：患者：0.84 1.05 1.20 1.20 1.39 1.53 1.67 1.80 1.87 2.07 2.11

健康人：0.54 0.64 0.64 0.75 0.76 0.81 1.16 1.20 1.34 1.35 1.48 1.56 1.

问该地克山病患者与健康人的血磷值是否不同？

从以上资料可以看出，24个患者与健康人的血磷值各不相同，如果用离均差平方和（SS）描述其围绕总均数的变异情况，则总变异有以下两个来源：组内变异，即由于随机误差的原因使得各组内部的血磷值各不相等；

组间变异，即由于克山病的影响使得患者与健康人组的血磷值均数大小不等。

而且：SS总=SS组间+SS组内v总=v组间+v组内

如果用均方（即自由度v去除离均差平方和的商）代替离均差平方和以消除各组样本数不同的影响，则方差分析就是用组内均方去除组间均方的商（即F值）与1相比较，若F值接近1，则说明各组均数间的差异没有统计学意义，若F值远大于1，则说明各组均数间的差异有统计学意义。实际应用中检验假设成立条件下F值大于特定值的概率可通过查阅F界值表（方差分析用）获得。

[编辑本段]

方差分析的分类及举例

一、单因素方差分析

（一）单因素方差分析概念理解步骤

是用来研究一个控制变量的不同水平是否对观测变量产生了显著影响。这里，由于仅研究单个因素对观测变量的影响，因此称为单因素方差分析。

例如，分析不同施肥量是否给农作物产量带来显著影响，考察地区差异是否影响妇女的生育率，研究学历对工资收入的影响等。这些问题都可以通过单因素方差分析得到答案。

单因素方差分析的第一步是明确观测变量和控制变量。例如，上述问题中的观测变量分别是农作物产量、妇女生育率、工资收入；控制变量分别为施肥量、地区、学历。

单因素方差分析的第二步是剖析观测变量的方差。方差分析认为：观测变量值得变动会受控制变量和随机变量两方面的影响。据此，单因素方差分析将观测变量总的离差平方和分解为组间离差平方和和组内离差平方和两部分，用数学形式表述为：S ST=SSA+SSE。

单因素方差分析的第三步是通过比较观测变量总离差平方和各部分所占的比例，推断控制变量是否给观测变量带来了显著影响。

（二）单因素方差分析原理总结

容易理解：在观测变量总离差平方和中，如果组间离差平方和所占比例较大，则说明观测变量的变动主要是由控制变量引起的，可以主要由控制变量来解释，控制变量给观测变量带来了显著影响；反之，如果组间离差平方和所占比例小，则说明观测变量的变动不是主要由控制变量引起的，不可以主要由控制变量来解释，控制变量的不同水平没有给观测变量带来显著影响，观测变量值的变动是由随机变量因素引起的。

（三）单因素方差分析基本步骤

? 1、提出原假设：H0——无差异；H1——有显著差异

? 2、选择检验统计量：方差分析采用的检验统计量是F统计量，即F值检验。

? 3、计算检验统计量的观测值和概率P值：该步骤的目的就是计算检验统计量的观测值和相应的概率P值。

? 4、给定显著性水平，并作出决策

（四）单因素方差分析的进一步分析

在完成上述单因素方差分析的基本分析后，可得到关于控制变量是否对观测变量造成显著影响的结论，接下来还应做其他几个重要分析，主要包括方差齐性检验、多重比较检验。

1、方差齐性检验

是对控制变量不同水平下各观测变量总体方差是否相等进行检验。

前面提到，控制变量不同各水平下观测变量总体方差无显著差异是方差分析的前提要求。如果没有满足这个前提要求，就不能认为各总体分布相同。因此，有必要对方差是否齐性进行检验。

SPSS单因素方差分析中，方差齐性检验采用了方差同质性（homogeneity of v ariance）检验方法，其原假设是：各水平下观测变量总体的方差无显著差异。

2、多重比较检验

单因素方差分析的基本分析只能判断控制变量是否对观测变量产生了显著影响。

如果控制变量确实对观测变量产生了显著影响，进一步还应确定控制变量的不同水平对观测变量的影响程度如何，其中哪个水平的作用明显区别于其他水平，哪个水平的作用是不显著的，等等。

例如，如果确定了不同施肥量对农作物的产量有显著影响，那么还需要了解10公斤、20公斤、30公斤肥料对农作物产量的影响幅度是否有差异，其中哪种施肥量水平对提高农作物产量的作用不明显，哪种施肥量水平最有利于提高产量等。掌握了这些重要的信息就能够帮助人们制定合理的施肥方案，实现低投入高产出。

多重比较检验利用了全部观测变量值，实现对各个水平下观测变量总体均值的逐对比较。由于多重比较检验问题也是假设检验问题，因此也遵循假设检验的基本步骤。

介绍几种常用检验统计量的构造方法

（1）LSD方法

LSD方法称为最小显著性差异（Least Significant Difference）法。最小显著性差异法的字画就体现了其检验敏感性高的特点，即水平间的均值只要存在一定程度的微小差异就可能被检验出来。

正是如此，它利用全部观测变量值，而非仅使用某两组的数据。LSD方法适用于各总体方差相等的情况，但它并没有对犯一类错误的概率问题加以有效控制。

（2）S-N-K方法

S-N-K方法是一种有效划分相似性子集的方法。该方法适合于各水平观测值个数相等的情况，

3、其他检验

（1）先验对比检验

在多重比较检验中，如果发现某些水平与另外一些水平的均值差距显著，如有五个水平，其中x1、x2、x3与x4、x5的均值有显著差异，就可以进一步分析比较这两组总的均值是否存在显著差异，即1/3(x1+x2+x3)与1/2(x4+x5)是否有显著差异。这种事先指定各均值的系数，再对其线性组合进行检验的分析方法称为先验对比检验。通过先验对比检验能够更精确地掌握各水平间或各相似性子集间均值的差异程度。

（2）趋势检验

当控制变量为定序变量时，趋势检验能够分析随着控制变量水平的变化，观测变量值变化的总体趋势是怎样的，是呈现线性变化趋势，还是呈二次、三次等多项式变化。通过趋势检验，能够帮助人们从另一个角度把握控制变量不同水平对观测变量总体作用的程度。

二、多因素方差分析

（一）多因素方差分析基本思想

多因素方差分析用来研究两个及两个以上控制变量是否对观测变量产生显著影响。这里，由于研究多个因素对观测变量的影响，因此称为多因素方差分析。多因素方差分析不仅能够分析多个因素对观测变量的独立影响，更能够分析多个控制因素的

交互作用能否对观测变量的分布产生显著影响，进而最终找到利于观测变量的最优组合。

例如：

分析不同品种、不同施肥量对农作物产量的影响时，可将农作物产量作为观测变量，品种和施肥量作为控制变量。利用多因素方差分析方法，研究不同品种、不同施肥量是如何影响农作物产量的，并进一步研究哪种品种与哪种水平的施肥量是提高农作物产量的最优组合。

（二）多因素方差分析的其他功能

1、均值检验

在SPSS中，利用多因素方差分析功能还能够对各控制变量不同水平下观测变量的均值是否存在显著差异进行比较，实现方式有两种，即多重比较检验和对比检验。多重比较检验的方法与单因素方差分析类似。对比检验采用的是单样本t检验的方法，它将控制变量不同水平下的观测变量值看做来自不同总体的样本，并依次检验这些总体的均值是否与某个指定的检验值存在显著差异。其中，检验值可以指定为以下几种：

观测变量的均值（Deviation）;

第一水平或最后一个水平上观测变量的均值（Simple）;

前一水平上观测变量的均值（Difference）;

后一水平上观测变量的均值（Helmert）。

2、控制变量交互作用的图形分析

控制变量的交互作用可以通过图形直观分析。

（三）多因素方差分析的进一步分析

在上述案例中，已经对广告形式、地区对销售额的影响进行了多因素方差分析，建立了饱和模型。由分析可知：广告形式与地区的交互作用不显著，先进一步尝试非饱和模型，并进行均值比较分析、交互作用图形分析。

1、建立非饱和模型

2、均值比较分析

3、控制变量交互作用的图形分析

三、协方差分析

（一）协方差分析基本思想

通过上述的分析可以看到，不论是单因素方差分析还是多因素方差分析，控制因素都是可控的，其各个水平可以通过人为的努力得到控制和确定。但在许多实际问题中，有些控制因素很难人为控制，但它们的不同水平确实对观测变量产生了较为显著的影响。

例如，在研究农作物产量问题时，如果仅考察不同施肥量、品种对农作物产量的影响，不考虑不同地块等因素而进行方差分析，显然是不全面的。因为事实上有些地块可能有利于农作物的生长，而另一些却不利于农作物的生长。不考虑这些因素进行分析可能会导致：即使不同的施肥量、不同品种农作物产量没有产生显著影响，但分

析的结论却可能相反。

再例如，分析不同的饲料对生猪增重是否产生显著差异。如果单纯分析饲料的作用，而不考虑生猪各自不同的身体条件（如初始体重不同），那么得出的结论很可能是不准确的。因为体重增重的幅度在一定程度上是包含诸如初始体重等其他因素的影响的。

（二）协方差分析的原理

协方差分析将那些人为很难控制的控制因素作为协变量，并在排除协变量对观测变量影响的条件下，分析控制变量（可控）对观测变量的作用，从而更加准确地对控制因素进行评价。

协方差分析仍然沿承方差分析的基本思想，并在分析观测变量变差时，考虑了协变量的影响，人为观测变量的变动受四个方面的影响：即控制变量的独立作用、控制变量的交互作用、协变量的作用和随机因素的作用，并在扣除协变量的影响后，再分析控制变量的影响。

方差分析中的原假设是：协变量对观测变量的线性影响是不显著的；在协变量影响扣除的条件下，控制变量各水平下观测变量的总体均值无显著差异，控制变量各水平对观测变量的效应同时为零。检验统计量仍采用F统计量，它们是各均方与随机因素引起的均方比。

（三）协方差分析的应用举例

为研究三种不同饲料对生猪体重增加的影响，将生猪随机分成三组各喂养不同的饲料，得到体重增加的数据。由于生猪体重的增加理论上会受到猪自身身体条件的影响，于是收集生猪喂养前体重的数据，作为自身身体条件的测量指标。

方差分析的应用条件为①各样本须是相互独立的随机样本；②各样本来自正态分布总体；③各总体方差相等，即方差齐性。

[1]

[编辑本段]

方差分析的主要内容

根据资料设计类型的不同，有以下两种方差分析的方法：

1、对成组设计的多个样本均数比较，应采用完全随机设计的方差分析，即单因素方差分析。

2、对随机区组设计的多个样本均数比较，应采用配伍组设计的方差分析，即两因素方差分析。

两类方差分析的基本步骤相同，只是变异的分解方式不同，对成组设计的资料，总变异分解为组内变异和组间变异（随机误差），即：SS总=SS组间+SS组内，而对配伍组设计的资料，总变异除了分解为处理组变异和随机误差外还包括配伍组变异，即：SS总=SS处理+SS配伍+SS误差。整个方差分析的基本步骤如下：

1、建立检验假设；

H0：多个样本总体均数相等；

H1：多个样本总体均数不相等或不全等。检验水准为0.05。

2、计算检验统计量F值；

3、确定P值并作出推断结果。

常用统计分析方法

常用统计分析方法排列图因果图散布图直方图控制图控制图的重要性控制图原理控制图种类及选用统计质量控制是质量控制的基本方法，执行全面质量管理的基本手段，也是CAQ系统的基础，这里简要介绍制造企业应用最广的统计质量控制方法。常用统计分析方法与控制图获得有效的质量数据之后,就可以利用各种统计分析方法和控制图对质量数据进行加工处理,从中提取出有价值的信息成分。常用统计分析方法此处介绍的方法是生产现场经常使用,易于掌握的统计方法,包括排列图、因果图、散布图、直方图等。排列图排列图是找出影响产品质量主要因素的图表工具.它是由意大利经济学家巴洛特（Pareto)提出的.巴洛特发现人类经济领域中"少数人占有社会上的大部分财富,而绝大多数人处于贫困状况"的现象是一种相当普遍的社会现象,即所谓"关键的少数与次要的多数"原理.朱兰(美国质量管理学家)把这个原理应用到质量管理中来,成为在质量管理中发现主要质量问题和确定质量改进方向的有力工具. 1.排列图的画法

排列图制作可分为5步: (1)确定分析的对象排列图一般用来分析产品或零件的废品件数、吨数、损失金额、消耗工时及不合格项数等. (2)确定问题分类的项目可按废品项目、缺陷项目、零件项目、不同操作者等进行分类。 (3)收集与整理数据列表汇总每个项目发生的数量，即频数fi、项目按发生的数量大小，由大到小排列。最后一项是无法进一步细分或明确划分的项目统一称为“其它”。 (4)计算频数fi、频率Pi和累计频率Fi 首先统计频数fi，然后按(1)、(2)式分别计算频率Pi和累计频率Fi (1) 式中，f为各项目发生频数之和。 (2)

《统计学原理》常用公式及计算题目分析

《统计学原理》常用公式汇总及计算题目分析第三章统计整理 a) 组距＝上限－下限 b) 组中值＝（上限+下限）÷2 c) 缺下限开口组组中值＝上限－1/2邻组组距 d) 缺上限开口组组中值＝下限+1/2邻组组距第四章综合指标 i. 相对指标 1. 结构相对指标＝各组（或部分）总量/总体总量 2. 比例相对指标＝总体中某一部分数值/总体中另一部分数值 3. 比较相对指标＝甲单位某指标值/乙单位同类指标值 4. 强度相对指标＝某种现象总量指标/另一个有联系而性质不同的现象总量指标 5. 计划完成程度相对指标＝实际数/计划数＝实际完成程度（%）/计划规定的完成程度（%） ii. 平均指标

1.简单算术平均数： 2.加权算术平均数或 iii. 变异指标 1.全距＝最大标志值－最小标志值 2.标准差: 简单σ= ；加权σ= 3.标准差系数: 第五章抽样估计 1.平均误差：重复抽样：不重复抽样：

2.抽样极限误差 3.重复抽样条件下：平均数抽样时必要的样本数目成数抽样时必要的样本数目 4.不重复抽样条件下：平均数抽样时必要的样本数目第八章指数分数一、综合指数的计算与分析 ()() ()p x 2 2 2 2 x 2 p n (1)1N (2)p 1-p p 1-p (3)p 1-p μ= μ= σσ σδδ?? ?????→??→??→??→，最基本的是：若为：乘以－若不重复抽样类型抽样整为：若为群抽样： n N R r ??→??→

(1)数量指标指数此公式的计算结果说明复杂现象总体数量指标综合变动的方向和程度。 ( - ) 此差额说明由于数量指标的变动对价值量指标影响的绝对额。 (2)质量指标指数此公式的计算结果说明复杂现象总体质量指标综合变动的方向和程度。（ - ）此差额说明由于质量指标的变动对价值量指标影响的绝对额。加权算术平均数指数= 加权调和平均数指数= (3)复杂现象总体总量指标变动的因素分析相对数变动分析： = ×

常用医学统计学方法汇总

选择合适的统计学方法 1连续性资料 1.1 两组独立样本比较 1.1.1 资料符合正态分布,且两组方差齐性,直接采用t检验。 1.1.2 资料不符合正态分布，（1）可进行数据转换,如对数转换等,使之服从正态分布,然后对转换后的数据采用t检验；（2）采用非参数检验,如Wilcoxon检验。 1.1.3 资料方差不齐，（1）采用Satterthwate 的t’检验；（2）采用非参数检验,如Wilcoxon检验。 1.2 两组配对样本的比较 1.2.1 两组差值服从正态分布，采用配对t检验。 1.2.2 两组差值不服从正态分布，采用wilcoxon的符号配对秩和检验。 1.3 多组完全随机样本比较 1.3.1资料符合正态分布，且各组方差齐性，直接采用完全随机的方差分析。如果检验结果为有统计学意义，则进一步作两两比较，两两比较的方法有LSD检验，Bonferroni法，tukey 法，Scheffe法，SNK法等。 1.3.2资料不符合正态分布，或各组方差不齐，则采用非参数检验的Kruscal－Wallis法。如果检验结果为有统计学意义，则进一步作两两比较，一般采用Bonferroni法校正P值，然后用成组的Wilcoxon检验。 1.4 多组随机区组样本比较 1.4.1资料符合正态分布，且各组方差齐性，直接采用随机区组的方差分析。如果检验结果为有统计学意义，则进一步作两两比较，两两比较的方法有LSD检验，Bonferroni法，tukey 法，Scheffe法，SNK法等。 1.4.2资料不符合正态分布，或各组方差不齐，则采用非参数检验的Fridman检验法。如果检验结果为有统计学意义，则进一步作两两比较，一般采用Bonferroni法校正P值，然后用符号配对的Wilcoxon检验。 ****需要注意的问题：（1）一般来说，如果是大样本，比如各组例数大于50，可以不作正态性检验，直接采用t 检验或方差分析。因为统计学上有中心极限定理，假定大样本是服从正态分布的。（2）当进行多组比较时，最容易犯的错误是仅比较其中的两组，而不顾其他组，这样作容易增大犯假阳性错误的概率。正确的做法应该是，先作总的各组间的比较，如果总的来说差别有统计学意义，然后才能作其中任意两组的比较，这些两两比较有特定的统计方法，如上面提到的LSD检验，Bonferroni法，tukey法，Scheffe法，SNK法等。**绝不能对其中的两

统计学常用公式汇总情况

统计学常用公式汇总项目三统计数据的整理与显示组距＝上限－下限 a) 组中值＝（上限+下限）÷2 b) 缺下限开口组组中值＝上限－邻组组距/2 c) 缺上限开口组组中值＝下限+1/2邻组组距例按完成净产值分组（万元） 10以下缺下限：组中值=10—10/2=5 10—20 组中值=（10+20）/2=15 20—30 组中值=（20+30）/2=25 30—40 组中值=（30+40）/2=35 40—70 组中值=（40+70）/2=55 70以上缺上限：组中值=70+30/2=85 项目四统计描述 i. 相对指标 1. 结构相对指标＝各组（或部分）总量/总体总量 2. 比例相对指标＝总体中某一部分数值/总体中另一部分数值 3. 比较相对指标＝甲单位某指标值/乙单位同类指标值 4. 动态相对指标＝报告期数值/基期数值 5. 强度相对指标＝某种现象总量指标/另一个有联系而性质不同的现象总量指标 6. 计划完成程度相对指标K ＝计划数实际数 =%%计划规定的完成程度实际完成程度 7. 计划完成程度（提高率）：K= %10011?++计划提高百分数实际提高百分数计划完成程度（降低率）：K= %10011?--计划提高百分数实际提高百分数

ii. 平均指标 1.简单算术平均数： 2.加权算术平均数或 iii. 变异指标 1. 全距＝最大标志值－最小标志值 2.标准差: 简单σ= ；加权 σ= 成数的标准差(1) p p p σ=-3.标准差系数: 项目五时间序列的构成分析一、平均发展水平的计算方法： (1)由总量指标动态数列计算序时平均数 ①由时期数列计算 n a a ∑= ②由时点数列计算在连续时点数列的条件下计算（判断标志按日登记）：∑ ∑=f af a 在间断时点数列的条件下计算（判断标志按月/季度/年等登记）：若间断的间隔相等，则采用“首末折半法”计算。公式为： 1 212 11 21-++++=-n a a a a a n n Λ

常用统计技术考题

常用统计技术第一章 1、学习掌握统计技术的意义和作用主要有：1）已有越来越多的组织开始应用统计技术2）顾客对于组织运用统计技术的要求趋于严格3）越开越多的组织不再满足于一般性的认证审核，而是希望认证审核成为一种增值的活动4）GB/Z19027标准有认证的要求 A、仅1）和2） B、1）2）3）√ C、仅1）和2） D、仅3）和4） 2、下列关于GB/Z19027技术报告的目的描述，错误的是：（B） A、1）指导和帮助一个组织考虑和选择适合该组织需求的统计技术 B、2）对一个组织进行认证审核的依据√ C、3）组织应用统计技术的线路图 D、4）认证审核人员学习掌握统计技术的基础正确的是： A、1）2）3） B、1）3）4）√ C、2）3）4） D、1）2）4） 3、GB/Z19027标准对与GB/T19001条款的实施可能有关的定量数据的需求做了识别，则在GB/T19001中的7.5.4顾客财产，有使用定量数据的需求，识别出潜在的统计需求是（A）

A、描述统计、抽样√ B、描述统计、SPC图 C、描述统计、测量分析 D、描述统计、过程能力分析 4、GB/Z19027标准对与GB/T19001条款的实施可能有关的定量数据的需求做了识别，则在GB/T19001中的8.3不合格品控制“确定已交付的不合格品范围的需求”有使用定量数据的需求，识别出潜在的统计需求是（B） A、描述统计、过程能力分析 B、描述统计、抽样√ C、描述统计、SPC D、描述统计、试验设计、假设检验、测量分析、过程能力分析等 5、以下关于GB/Z19027标准的描述，正确的是（C） A、GB/Z19027标准对与GB/T19001条款的实施都识别了可以使用统计技术 B、针对已识别的定性数据的需求所列出的一个或多个统计技术适当应用于这些数据时，将使组织获得潜在利益。 C、如果定性数据能转换为定量数据，则统计技术可用于这些数据 D、当GB/T19001的条款对定性数据无明显需求时，则未识别出统计技术。第二章 6、统计方法是指收集、分析和解释带（A）的数据的方法 A、随机性波动√ B、系统波动

常用统计工具1

1. np ——在一容量为n 的样本中不合格品的数量，np 图的介绍见第Ⅲ章第2节。 2. P n ——样本容量恒定为n 时，不合格品数的平均数。 3. P ——一个样本中的不合格品率，p 图的介绍如见第Ⅲ单第1节。 4. P ——一系列样本中的平均不合格品率。 5. P P ——性能指数，通常定义为S LSL USL σ?6)(-。 6. PR ——性能比率，通常定义为) (?6LSL USL s -σ。 7. Ppk ——性能指数，通常定义为 S X USL σ?3-或S LSL X σ?3-的最小值。 8. Pz ——输出超过利益点的比例,这种利益点诸如特定的规范限值,与过程均值之差为z 个标准差单位。 9. R ——子组的极差（最大值减去最小值）；R 图的介绍见第Ⅱ章。 10. R ——一系列容量相等子组的平均极差。 11. R ——一系列容量相等子组的平均极差的均值。 12. R ~——一系列容量相等子组的极差的中位数极差。 13. S ——子组的样本标准差，S 图的介绍见第Ⅱ章第2节。 14. s ——过程的样本标准差，s 的介绍见第Ⅱ章第5节。 15. S ——一系列子组的平均样本标准差，如有必要可以按样本容量加权。 16. SL ——单边工程规范极限。 17. u ——一个样本中每单元不合格数,这个样本可能含有一个以上单位,u 图的介绍见第Ⅲ章第4节。 18. u ——样本中单位不合格数的平均值，样本的容量不必相等。 19. UCL ——上控制限，P R X UCL UCL UCL ，，等分别是均值、极差、不合格品率等的上控制限。 20. USL ——工程规范的上限。 21. X ——一个单值，是其它子组统计值的基础，单值图的讨论见第Ⅱ章第4节。 22. X ——一个子组内数值的平均数,X 图的讨论见第Ⅱ章第1节。 23. LCL ——下控制限。P R LCL LCL 、、X LCL 等分别是均值、极差、不合格品率等的下控制限。 24. LSL ——工程规范的下限。 25. MR ——主要用于单值图的一系列点的移动极差。 26. n ——一个子组内的单值的个数；子组的样本容量。 27. n ——平均子组样本容量。 28. X ——子组均值的均值（如有必要可按样本容量加权）；测得的过程均值。注：在本手册中，X 用作单值图的过程均值（第Ⅱ章第4节）尽管它仅代表一个水平的平均（单值点），以便避免与通常代表子组均值的X 相混淆。 29. X ~ ——一个子组的数值的中位数；中位数图的讨论见第Ⅱ章第3节。

病案室常用统计公式

病案室常用统计公式治愈率%= [治愈人数（13）/出院病人数（12）] *100% 好转率%=[好转人数（14）/出院病人数（12）] *100% 病死率%=[死亡人数（16/出院病人数（12）] *100% 病床周转次数（次）=出院病人数“总计”（11）/平均开放病床数（20）病床工作日（日）=实际占用总床数（21）/平均开放病床数（20）实际病床使用率=实际占用总床数（21）/实际开放总床数（19）出院者平均出院日=出院者占用总床日数（22）/出院人数“总计”（11）疾病构成%=（实际数/合计总数）*100% 增减数=本次数-上次数增减率%=（增减数/上次数）*100%

*实际开放总床日数：指年内医院各科每日夜晚12点开放病床数总和,不论该床是否被病人占用,都应计算在内。包括消毒和小修理等暂停使用的病床,超过半年的加床。不包括因病房扩建或大修而停用的病床及临时增设病床。 *实际占用总床日数：指医院各科每日夜晚12点实际占用病床数(即每日夜晚12点住院人数)总和。包括实际占用的临时加床在内。病人入院后于当晚12点前死亡或因故出院的病人, 作为实际占用床位1天进行统计,同时亦应统计“出院者占用总床日数”1天,入院及出院人数各1人。 *出院者占用总床日数：指所有出院人数的住院床日之总和。包括正常分娩、未产出院、住院经检查无病出院、未治出院及健康人进行人工流产或绝育手术后正常出院者的住院床日数。 *平均开放病床数＝实际开放总床日数／本年日历日数(365)。 *病床使用率＝实际占用总床日数／实际开放总床日数X100％。 *病床周转次数＝出院人数／平均开放床位数。 *病床工作日＝实际占用总床日数／平均开放病床数。 *出院者平均住院日＝出院者占用总床日数／出院人数。 *病床周转率=每月（年）出院人数/科（院）床位数 *病床使用率是反映每天使用床位与实有床位的比率,即实际占用的总床日数与实际开放的总床日数之比。 *实际占用的总床日数应该从每天实际占床人数中累加得到，依据于各科室每日的动态报表中 *出院者占用总床日数是出院人数住院天数的总和，依据于出院病人病案中住院天数，实际占用的总床日数用来计算病床使用率和平均病床工作日抗生素使用强度%=所有抗菌药物累计DDD数/同期收治患者人天数（<40）住院患者抗菌药物使用率%=使用了抗菌药物的患者数/患者总数

常用相关分析方法及其计算

二、常用相关分析方法及其计算在教育与心理研究实践中，常用的相关分析方法有积差相关法、等级相关法、质量相关法，分述如下。（一）积差相关系数 1. 积差相关系数又称积矩相关系数，是英国统计学家皮尔逊（Pearson ）提出的一种计算相关系数的方法，故也称皮尔逊相关。这是一种求直线相关的基本方法。积差相关系数记作XY r ，其计算公式为 ∑∑∑===----= n i i n i i n i i i XY Y y X x Y y X x r 1 2 1 2 1 ) ()() )(( (2-20) 式中i x 、i y 、X 、Y 、n 的意义均同前所述。若记X x x i -=,Y y y i -=，则（2-20）式成为 Y X XY S nS xy r ∑= (2-21) 【式中 n xy ∑称为协方差，n xy ∑的绝对值大小直观地反映了两列变量的一致性程度。然而，由于X 变量与Y 变量具有不同测量单位，不能直接用它们的协方差 n xy ∑来表示两列变量的一致性，所以将各变量的离均差分别用各自的标准差除，使之成为没有实际单位的标准分数，然后再求其协方差。即： ∑∑?= = )()(1Y X Y X XY S y S x n S nS xy r Y X Z Z n ∑?= 1 (2-22) 这样，两列具有不同测两单位的变量的一致性就可以测量计算。计算积差相关系数要求变量符合以下条件：（1）两列变量都是等距的或等比的测量数据；（2）两列变量所来自的总体必须是正态的或近似正态的对称单峰分布；（3）两列变量必须具备一一对应关系。 2. 积差相关系数的计算

利用公式 (2-20)计算相关系数，应先求两列变量各自的平均数与标准差，再求离中差的乘积之和。在统计实践中，为方便使用数据库的数据格式，并利于计算机计算，一般会将(2-20)式改写为利用原始数据直接计算XY r 的公式。即： ∑∑∑∑∑∑∑---= 2 22 2) () (i i i i i i i i XY y y n x x n y x y x n r (2-23) （二）| （三）等级相关在教育与心理研究实践中，只要条件许可，人们都乐于使用积差相关系数来度量两列变量之间的相关程度，但有时我们得到的数据不能满足积差相关系数的计算条件，此时就应使用其他相关系数。等级相关也是一种相关分析方法。当测量得到的数据不是等距或等比数据，而是具有等级顺序的测量数据，或者得到的数据是等距或等比的测量数据，但其所来自的总体分布不是正态的，出现上述两种情况中的任何一种，都不能计算积差相关系数。这时要求两列变量或多列变量的相关，就要用等级相关的方法。 1. 斯皮尔曼(Spearman)等级相关斯皮尔曼等级相关系数用R r 表示，它适用于两列具有等级顺序的测量数据，或总体为非正态的等距、等比数据。斯皮尔曼等级相关的基本公式如下： ) 1(612 2--=∑n n D r R (2-24) 式中： Y X R R D -=____________对偶等级之差； n ____________对偶数据个数。 , 如不用对偶等级之差，而使用原始等级序数计算，则可用下式 )]1() 1(4[13+-+?-= ∑n n n R R n r Y X R (2-25) 式中： X R ___________X 变量的等级； Y R ____________Y 变量的等级； n ____________对偶数据个数。 (2-25)式要求∑∑=Y X R R ，∑∑=2 2Y X R R ，从而保证22Y X S S =。在观测变量中没有相同等级出现时可以保证这一条件。但是，在教育与心理研究实践中，搜集到的观测变量经常出现相同等级。在这种情况下，∑∑=Y X R R 的条件仍可得

统计学常用公式汇总

《统计学原理》常用公式汇总组距＝上限－下限组中值＝（上限+下限）÷2 缺下限开口组组中值＝上限－1/2邻组组距缺上限开口组组中值＝下限+1/2邻组组距 111平均指标 1.简单算术平均数： 2.加权算术平均数或 iii.变异指标 1.全距＝最大标志值－最小标志值 2.标准差: 简单σ= ；加权σ= 3.标准差系数: 第五章抽样估计 1.平均误差：重复抽样：不重复抽样： 2.抽样极限误差 3.重复抽样条件下：平均数抽样时必要的样本数目成数抽样时必要的样本数目 4.不重复抽样条件下：平均数抽样时必要的样本数目第七章相关分析 1.相关系数 2.配合回归方程ｙ＝ａ＋ｂｘ

3.估计标准误：第八章指数分数一、综合指数的计算与分析 (1)数量指标指数此公式的计算结果说明复杂现象总体数量指标综合变动的方向和程度。 ( - ) 此差额说明由于数量指标的变动对价值量指标影响的绝对额。 (2)质量指标指数此公式的计算结果说明复杂现象总体质量指标综合变动的方向和程度。（ - ）此差额说明由于质量指标的变动对价值量指标影响的绝对额。加权算术平均数指数= 加权调和平均数指数= (3)复杂现象总体总量指标变动的因素分析相对数变动分析： = × 绝对值变动分析： - = ( - )×（ - ）第九章动态数列分析一、平均发展水平的计算方法：

(1)由总量指标动态数列计算序时平均数 ①由时期数列计算 ②由时点数列计算在间断时点数列的条件下计算： a.若间断的间隔相等，则采用“首末折半法”计算。公式为： b.若间断的间隔不等，则应以间隔数为权数进行加权平均计算。公式为： (2)由相对指标或平均指标动态数列计算序时平均数基本公式为：式中：代表相对指标或平均指标动态数列的序时平均数；代表分子数列的序时平均数；代表分母数列的序时平均数；逐期增长量之和累积增长量二. 平均增长量＝─────────＝───────── 逐期增长量的个数逐期增长量的个数 (1)计算平均发展速度的公式为： (2)平均增长速度的计算平均增长速度＝平均发展速度-１（100%）

常用统计软件介绍

常用统计软件介绍《概率论与数理统计》是一门实践性很强的课程。但是,目前在国内,大多侧重基本方法的介绍,而忽视了统计实验的教学。这样既不利于提高学生创新精神和实践能力,也使得这门课程的教学显得枯燥无味。为此,我们介绍一些常用的统计软件，以使学生对统计软件有初步的认识,为以后应用统计方法解决实际问题奠定初步的基础。一、统计软件的种类 1.SAS 是目前国际上最为流行的一种大型统计分析系统，被誉为统计分析的标准软件。尽管价格不菲，SAS已被广泛应用于政府行政管理，科研，教育，生产和金融等不同领域，并且发挥着愈来愈重要的作用。目前SAS已在全球100多个国家和地区拥有29000多个客户群，直接用户超过300万人。在我国，国家信息中心，国家统计局，卫生部，中国科学院等都是SAS系统的大用户。尽管现在已经尽量“傻瓜化”，但是仍然需要一定的训练才可以使用。因此,该统计软件主要适合于统计工作者和科研工作者使用。 2.SPSS SPSS作为仅次于SAS的统计软件工具包，在社会科学领域有着广泛的应用。SPSS是世界上最早的统计分析软件，由美国斯坦福大学的三位研究生于20世纪60年代末研制。由于SPSS容易操作，输出漂亮，功能齐全，价格合理,所以很快地应用于自然科学、技术科学、社会科学的各个领域，世界上许多有影响的报刊杂志纷纷就SPSS 的自动统计绘图、数据的深入分析、使用方便、功能齐全等方面给予了高度的评价与称赞。迄今SPSS软件已有30余年的成长历史。全球

约有25万家产品用户，它们分布于通讯、医疗、银行、证券、保险、制造、商业、市场研究、科研教育等多个领域和行业，是世界上应用最广泛的专业统计软件。在国际学术界有条不成文的规定，即在国际学术交流中，凡是用SPSS软件完成的计算和统计分析，可以不必说明算法，由此可见其影响之大和信誉之高。因此,对于非统计工作者是很好的选择。 3.Excel 它严格说来并不是统计软件，但作为数据表格软件，必然有一定统计计算功能。而且凡是有Microsoft Office的计算机，基本上都装有Excel。但要注意，有时在装 Office时没有装数据分析的功能，那就必须装了才行。当然，画图功能是都具备的。对于简单分析，Excel 还算方便，但随着问题的深入，Excel就不那么“傻瓜”，需要使用函数，甚至根本没有相应的方法了。多数专门一些的统计推断问题还需要其他专门的统计软件来处理。 4.S-plus 这是统计学家喜爱的软件。不仅由于其功能齐全，而且由于其强大的编程功能，使得研究人员可以编制自己的程序来实现自己的理论和方法。它也在进行“傻瓜化”,以争取顾客。但仍然以编程方便为顾客所青睐。 5.Minitab 这个软件是很方便的功能强大而又齐全的软件，也已经“傻瓜化”，在我国用的不如SPSS与SAS那么普遍。

统计学常用检验方法

统计中经常会用到各种检验，如何知道何时用什么检验呢，根据结合自己的工作来说一说： t检验有单样本t检验，配对t检验和两样本t检验。单样本t检验：是用样本均数代表的未知总体均数和已知总体均数进行比较，来观察此组样本与总体的差异性。配对t检验：是采用配对设计方法观察以下几种情形，1，两个同质受试对象分别接受两种不同的处理；2,同一受试对象接受两种不同的处理；3，同一受试对象处理前后。 u检验：t检验和就是统计量为t,u的假设检验，两者均是常见的假设检验方法。当样本含量n较大时，样本均数符合正态分布，故可用u检验进行分析。当样本含量n小时，若观察值x符合正态分布，则用t检验（因此时样本均数符合t 分布），当x为未知分布时应采用秩和检验。F检验又叫方差齐性检验。在两样本t检验中要用到F检验。从两研究总体中随机抽取样本，要对这两个样本进行比较的时候，首先要判断两总体方差是否相同，即方差齐性。若两总体方差相等，则直接用t检验，若不等，可采用t'检验或变量变换或秩和检验等方法。其中要判断两总体方差是否相等，就可以用F检验。简单的说就是检验两个样本的方差是否有显著性差异这是选择何种T检验（等方差双样本检验，异方差双样本检验）的前提条件。在t检验中，如果是比较大于小于之类的就用单侧检验，等于之类的问题就用双侧检验。卡方检验是对两个或两个以上率（构成比）进行比较的统计方法，在临床和医学实验中应用十分广泛，特别是临床科研中许多资料是记数资料，就需要用到卡方检验。方差分析用方差分析比较多个样本均数,可有效地控制第一类错误。方差分析(analysis of variance,ANOVA)由英国统计学家，以F命名其统计量，故方差分析又称F检验。其目的是推断两组或多组资料的总体均数是否相同，检验两个或多个样本均数的差异是否有统计学意义。我们要学习的主要内容包括单因素方差分析即完全随机设计或成组设计的方差分析（one-way ANOVA）：用途：用于完全随机设计的多个样本均数间的比较，其统计推断是推断各样本所代表的各总体均数是否相等。完全随机设计（completely random design）不考虑个体差异的影响，仅涉及一个处理因素，但可以有两个或多个水平，所以亦称单因素实验设计。在实验研究中按随机化原则将受试对象随机分配到一个处理因素的多个水平中去，然后观察各组的试验效应；在观察研究（调查）中按某个研究因素的不同水平分组，比较该因素的效应。两因素方差分析即配伍组设计的方差分析（two-way ANOVA）：用途：用于随机区组设计的多个样本均数比较，其统计推断是推断各样本所代表的各总体均数是否相等。随机区组设计考虑了个体差异的影响，可分析处理因素和个体差异对实验效应的影响，所以又称两因素实验设计，比完全随机设计的检验效率高。该设计是将受试对象先按配比条件配成配伍组（如动物实验时，可按同窝别、同性别、体重相近进行配伍），每个配伍组有三个或三个以上受试对象，再按随机化原则分别将各配伍组中的受试对象分配到各个处理组。值得注意的是，同一受试对象不同时间（或部位）重复多次测量所得到的资料称为重复测量数据 1

统计学常用公式汇总

统计学常用公式汇总项目三统计数据的整理与显示组距二上限一下限 a ）组中值=（上限+下限）* 2 b ）缺下限开口组组中值二上限一邻组组距/2 c ）缺上限开口组组中值二下限+1/2邻组组距例按完成净产值分组（万元） 10以下 10— 20 20— 30 30— 40 40— 70 70以上缺下限：组中值=10 —10/2=5 组中值=(10+20) /2=15 组中值 =(20+30) /2=25 组中值=(30+40) /2=35 组中值=(40+70) /2=55 缺上限：组中值=70+30/2=85 项目四统计描述 i. 相对指标 1. 结构相对指标=各组（或部分）总量/总体总量 2. 比例相对指标=总体中某一部分数值/总体中另一部分数值 3. 比较相对指标=甲单位某指标值/乙单位同类指标值 4. 动态相对指标二报告期数值/基期数值 5. 强度相对指标二某种现象总量指标/另一个有联系而性质不同的现象总量指标实际数= 实际完成程度％计划数计划规定的完成程度% 1实际提高百分数 IK = 1计划提高百分数 ii. 平均指标 1. 简单算术平均数: 2. 加权算术平均数 6. 计划完成程度相对指标 7. 计划完成程度（提高率） 100% 计划完成程度（降低率） ,_1实际提高百分数 K= 1计划提高百分数

iii. 变异指标 1. 全距=最大标志值-最小标志值 2. 标准差：简单c = ' J ： P Jp(1 P) 成数的标准差项目五时间序列的构成分析、平均发展水平的计算方法: (1)由总量指标动态数列计算序时平均数 ① 由时期数列计算 ② 由时点数列计算 - a a n 在连续时点数列的条件下计算(判断标志按日登记)：a 在间断时点数列的条件下计算(判断标志按月/季度/年等登记)：若间断的间隔相等，则采用“首末折半法”计算。公式为：若间断的间隔不等，则应以间隔数为权数进行加权平均计算 (2)(选用)由相对指标或平均指标动态数列计算序时平均数基本公式为: 式中：_c 代表相对指标或平均指标动态数列的序时平均数; a 代表分子数列的序时平均数； b 代表分母数列的序时平均数； 3.标准差系数: a 1 a 2 2 1 a n 2an1 a 1 a 2 a ? a 3 a n 1 a n 2 公式为: 4F

(完整版)统计方法的选择汇总

统计方法的选择一、两组或多组计量资料的比较 1.两组资料： 1)大样本资料或服从正态分布的小样本资料 (1)若方差齐性，则作成组t检验 (2)若方差不齐，则作t’检验或用成组的Wilcoxon秩和检验 2)小样本偏态分布资料，则用成组的Wilcoxon秩和检验2.多组资料： 1)若大样本资料或服从正态分布，并且方差齐性，则作完全随机的方差分析。如果方差分析的统计检验为有统计学意义，则进一步作统计分析：选择合适的方法（如：LSD检验，Bonferroni检验等）进行两两比较。 2)如果小样本的偏态分布资料或方差不齐，则作 Kruskal Wallis的统计检验。如果Kruskal Wallis的统计检验为有统计学意义，则进一步作统计分析：选择合适的方法（如：用成组的Wilcoxon秩和检验，但用Bonferroni方法校正P值等）进行两两比较。二、分类资料的统计分析 1.单样本资料与总体比较 1)二分类资料： (1)小样本时：用二项分布进行确切概率法检验；

(2)大样本时：用U检验。 2)多分类资料：用Pearson c2检验（又称拟合优度检验）。 2. 四格表资料 1)n>40并且所以理论数大于5，则用Pearson c2 2)n>40并且所以理论数大于1并且至少存在一个理论数<5，则用校正 c2或用Fisher’s 确切概率法检验 3)n￡40或存在理论数<1，则用Fisher’s 检验 3. 2×C表资料的统计分析 1)列变量为效应指标，并且为有序多分类变量，行变量为分组变量，则行评分的CMH c2或成组的Wilcoxon秩和检验 2)列变量为效应指标并且为二分类，列变量为有序多分类变量，则用趋势c2检验 3)行变量和列变量均为无序分类变量 (1)n>40并且理论数小于5的格子数<行列表中格子总数的25%，则用Pearson c2 (2)n￡40或理论数小于5的格子数>行列表中格子总数的25%，则用Fisher’s 确切概率法检验 4. R×C表资料的统计分析 1)列变量为效应指标，并且为有序多分类变量，行变量为分组变量，则CMH c2或Kruskal Wallis的秩和检验

统计技术及数据分析控制程序

过程分析工作表（乌龟图）

1.目的规定了公司内、外部信息收集、分析的方法及责任，有利于使公司能根据内外部环境和形势，制订相应的政策和措施。 2.范围适用于公司各职能部门对信息资料的收集、分析和管理。 3.定义 3.1 统计技术------用于提示产品/工作质量形成的规律的统计方法. 4.职责 4.1 公司品管部是本程序的归口管理部门。 4.2 各部门负责将与本部门业务、职能有关信息、资料的收集、分析和使用，并对信息的真实性和有效性负责。 5.程序内容 5.1 统计技术管理 5.1.1 常用统计技术工具常用的统计技术有：SPC控制图（Xbay-R、X-MR等）、MSA、CP、FMEA、直方图、因果图、排列图、统计表、甘特图、折线图、柱状图、网络图等等。

各部门可根据实际情况选择一种或几种统计工具。但应予以规定且核准，工作中即按规定实施。 5.1.1.1柱状图：应用于某一段时间内，两种或两种以上特性在同一要求下所处的状态对比。 5.1.1.2 统计表：需要迅速取得或整理数据而设计的只需作简单检查便可搜集信息的表格。 5.1.1.3 排列图：通过分类排列找出存在的主要质量问题，抓住关键。 5.1.1.4 因果图：针对质量问题，引用人、机、料、法、环、测等六个方面的影响因素进行分析，找出主要原因。 5.1.1.5 控制图：在过程控制中对产品质量特性随时间变化而出现的变差进行监控的图表。 5.1.1.6 直方图：用于分析工艺过程的状态，看工序是否稳定，如不稳定，推断总体质量及掌握工序能力保证质量的程度。 5.1.1.7 折线图：针对某一特性，进行汇总并规律统计，查看其趋势图形，以了解其实际状况。 5.1.1.8 FMEA：应用于产品质量先期策划中的失效分析。 5.1.1.9 MSA：应用于对测量系统能力的分析。 5.1.1.10 CP：应用于产品质量先期策划中的质量控制计划。 5.1.1.11 甘特图：用于项目工作的进度日程计划安排。 5.1.2 统计技术应用领域 5.1.2.1各部门通过对公司一级数据的收集、整理，并加以分析，以验证各相关目标、指标的达成情况。 5.1.2.2在对有关数据和信息进行收集整理并分析时，各相关部门应采用适当的统计技术。 5.1.4 统计技术的培训

如何合理选择统计方法——常用统计学方法汇总

01如何选择合适的统计学方法？ 1连续性资料 1.1 两组独立样本比较 1.1.1 资料符合正态分布,且两组方差齐性,直接采用t检验。 1.1.2 资料不符合正态分布，（1）可进行数据转换,如对数转换等,使之服从正态分布,然后对转换后的数据采用t检验；（2）采用非参数检验,如Wilcoxon检验。 1.1.3 资料方差不齐，（1）采用Satterthwate 的t’检验；（2）采用非参数检验,如Wilcoxon检验。 1.2 两组配对样本的比较 1.2.1 两组差值服从正态分布，采用配对t检验。 1.2.2 两组差值不服从正态分布，采用wilcoxon的符号配对秩和检验。 1.3 多组完全随机样本比较 1.3.1资料符合正态分布，且各组方差齐性，直接采用完全随机的方差分析。如果检验结果为有统计学意义，则进一步作两两比较，两两比较的方法有LSD检验，Bonferroni法，tukey 法，Scheffe法，SNK法等。 1.3.2资料不符合正态分布，或各组方差不齐，则采用非参数检验的Kruscal－Wallis法。如果检验结果为有统计学意义，则进一步作两两比较，一般采用Bonferroni法校正P值，然后用成组的Wilcoxon检验。 1.4 多组随机区组样本比较 1.4.1资料符合正态分布，且各组方差齐性，直接采用随机区组的方差分析。如果检验结果为有统计学意义，则进一步作两两比较，两两比较的方法有LSD检验，Bonferroni法，tukey 法，Scheffe法，SNK法等。 1.4.2资料不符合正态分布，或各组方差不齐，则采用非参数检验的Fridman检验法。如果检验结果为有统计学意义，则进一步作两两比较，一般采用Bonferroni法校正P值，然后用符号配对的Wilcoxon检验。 ****需要注意的问题：（1）一般来说，如果是大样本，比如各组例数大于50，可以不作正态性检验，直接采用t 检验或方差分析。因为统计学上有中心极限定理，假定大样本是服从正态分布的。（2）当进行多组比较时，最容易犯的错误是仅比较其中的两组，而不顾其他组，这样作容易增大犯假阳性错误的概率。正确的做法应该是，先作总的各组间的比较，如果总的来说差别有统计学意义，然后才能作其中任意两组的比较，这些两两比较有特定的统计方法，如上面提到的LSD检验，Bonferroni法，tukey法，Scheffe法，SNK法等。**绝不能对其中的两组直接采用t检验，这样即使得出结果也未必正确** （3）关于常用的设计方法：多组资料尽管最终分析都是采用方差分析，但不同设计会有差

数学建模常用统计方法

数学建模常用统计方法 1.1多元回归 1、方法概述: 在研究变量之间的相互影响关系模型时候，用到这类方法，具体地说:其可以定量地描述某一现象和某些因素之间的函数关系，将各变量的已知值带入回归方程可以求出因变量的估计值，从而可以进行预测等相关研究。 2、分类分为两类:多元线性回归和非线性线性回归;其中非线性回归可以通过一定的变化转化为线性回归，比如:y=lnx 可以转化为 y=u u=lnx来解决;所以这里主要说明多元线性回归应该注意的问题。 3、注意事项在做回归的时候，一定要注意两件事: (1) 回归方程的显著性检验(可以通过sas和spss来解决) (2) 回归系数的显著性检验(可以通过sas和spss来解决) 检验是很多学生在建模中不注意的地方，好的检验结果可以体现出你模型的优劣，是完整论文的体现，所以这点大家一定要注意。 4、使用步骤: (1)根据已知条件的数据，通过预处理得出图像的大致趋势或者数据之间的大致关系; (2)选取适当的回归方程; (3)拟合回归参数; (4)回归方程显著性检验及回归系数显著性检验 (5)进行后继研究(如:预测等)

这种模型的的特点是直观，容易理解。这体现在:动态聚类图可以很直观地体现出来～当然，这只是直观的一个方面～ 2、分类聚类有两种类型: (1) Q型聚类:即对样本聚类; (2) R型聚类:即对变量聚类; 聚类方法: (1) 最短距离法 (2) 最长距离法 (3) 中间距离法 (4) 重心法 (5) 类平均法 (6) 可变类平均法 (7) 可变法 (8) 利差平均和法在具体做题中，适当选取方法; 3、注意事项在样本量比较大时，要得到聚类结果就显得不是很容易，这时需要根据背景知识和相关的其他方法辅助处理。还需要注意的是:如果总体样本的显著性差异不是特别大的时候，使用的时候也要注意～

(环境管理)常用环境统计计算方法

常用环境统计计算方法 “三废”排放统计是环境统计工作的重要组成部分。“三废”排放量计算是基层环境统计工作的基础，如何准确地填好基层环境统计报表，熟练掌握和运用环境统计计算方法是关键。目前，“三废”排放统计常用计算方法归纳起来有如下三种：一、实测法通过实地测量排污单位外排废气、废水（流）量及其污染物浓度，计算出废气、废水排放量及其中某污染物绝对排放量。常用计算公式： G i=K·Q·C i 式中：G i ——废气（或废水）中污染物i的排放量，kg/a； Q ——废气（或废水）排放总量，m3/a(或标m3/a)； K ——单位换算系数，对废水取10-6，对废气取10-9； C i ——污染物i的实测浓度，mg/L（或mg/标m3）。为了保证数据的准确性，需多次测定样品取平均值。二、物料衡算法物料衡算法是根据质量守恒定律，对某系统计算物质质量转化的方法。在生产过程中，进入某系统的物料量，必等于排出的物料量和过程中的积累量。进入系统的物质量（∑G 入）系统输出的物质量（∑G 出）+系统内积累的物质量

三、排放系数法（经验计算法）排放系数指在正常技术经济和管理条件下，生产某单位产品所产生（或排放）的污染物数量的统计平均值。根据生产过程中单位产品的经验排放系数与产品产量，计算出“三废”排放量的方法即是排放系数法。计算通式：G i=K i·W 式中：G i——污染物i的年排放（产生）量，kg/a； K i——污染物i的排放系数，kg/t（产品）； W——产品年产量（或生产规模），t。以上是“三废”排放统计计算的基本方法，各基层单位应结合实际情况灵活选用。但为保证计算结果准确地反映实际情况，在实际操作时必须遵循以下原则：（一）安装自动在线监测设备并与当地环保局监测站联网的单位，必须采用实时监测数据的汇总数作为排污量数据；（二）未安装自动在线监测设备的单位，在采用实测法计算排污数据时，为保证监测数据能够准确地反映实际情况，需多次测定样品取平均值，并须经当地环保局监测站认定；（三）使用经环保局监测站认定的监测数据计算得出的排污数据，须再与使用排放系数计算得出的排污数据对照验证。如与排放系数法计算结果偏差较大，应以排放系数法计算结果为依据进行调整。尤其是二氧化硫排放量的计算，一定要以排放系数法计算结果验证。

统计常用公式汇总.

常用公式第三章统计整理 a)组距＝上限－下限 b)组中值＝（上限+下限）÷2 c)缺下限开口组组中值＝上限－1/2邻组组距 d)缺上限开口组组中值＝下限+1/2邻组组距第四章综合指标 i.相对指标 1.结构相对指标＝各组（或部分）总量/总体总量 2.比例相对指标＝总体中某一部分数值/总体中另一部分数值 3.比较相对指标＝甲单位某指标值/乙单位同类指标值 4.强度相对指标＝某种现象总量指标/另一个有联系而性质不同的现象总量指标 5.计划完成程度相对指标＝实际数/计划数＝实际完成程度（%）/计划规定的完成程度（%） ii.平均指标 1.简单算术平均数： 2.加权算术平均数或 iii.变异指标 1.全距＝最大标志值－最小标志值

2.标准差: 简单σ= ；加权σ= 3.标准差系数: 第五章抽样估计 1.平均误差：重复抽样：不重复抽样： 2.抽样极限误差 3.重复抽样条件下：平均数抽样时必要的样本数目成数抽样时必要的样本数目 4.不重复抽样条件下：平均数抽样时必要的样本数目第七章相关分析 1.相关系数

2.配合回归方程ｙ＝ａ＋ｂｘ 3.估计标准误：第八章指数分数一、综合指数的计算与分析 (1)数量指标指数此公式的计算结果说明复杂现象总体数量指标综合变动的方向和程度。 (-) 此差额说明由于数量指标的变动对价值量指标影响的绝对额。 (2)质量指标指数此公式的计算结果说明复杂现象总体质量指标综合变动的方向和程度。（-）此差额说明由于质量指标的变动对价值量指标影响的绝对额。

加权算术平均数指数= 加权调和平均数指数= (3)复杂现象总体总量指标变动的因素分析相对数变动分析： = × 绝对值变动分析： -= (-)×（-）第九章动态数列分析一、平均发展水平的计算方法： (1)由总量指标动态数列计算序时平均数 ①由时期数列计算 ②由时点数列计算在间断时点数列的条件下计算： a.若间断的间隔相等，则采用“首末折半法”计算。公式为： b.若间断的间隔不等，则应以间隔数为权数进行加权平均计算。公式为：