当前位置:文档之家› SAS过程简介

SAS过程简介

SAS过程简介
SAS过程简介

第49章 SAS过程简介

用编程法运行SAS,通常需要两步,第一步,叫SAS数据步,此步产生SAS数据集;第二步,叫SAS过程步,此步调用SAS软件包中真正的程序(称为SAS过程)处理提供的SAS 数据集。本章将介绍以下主要内容:其一,SAS过程步的一般形式;其二,SAS/BASE模块中常用的一些过程及其主要功能;其三,SAS/STAT模块中常用的一些过程及其主要功能。

49.1 SAS过程步的一般形式

SAS过程步的一般形式为:

PROC 过程名 DATA=输入数据集 选项;

过程语句 / 选项;

过程语句 / 选项;

……

RUN;

其中PROC是过程步开始的标志,在PROC后至少要留一个空格,紧随其后的是一个英文单词(如PRINT、SORT、…),该单词叫SAS过程名。SAS软件中有很多模块(如SAS/BASE、SAS/STAT、SAS/GRAPH、…),每个模块中都有很多具体的SAS过程。在PROC后写上一个具体的过程名,就是要求SAS系统调用该过程对给定的SAS数据集进行处理。

写在“PROC 过程名”之后的内容,都叫作PROC语句的选择项,简称PROC语句的选项。所谓“选项”,就是根据用户的需要,可选可不选,用来规定过程运行的一些设置。若某些选项没选,SAS系统就取隐含的或默认的或缺省的内容。例如,当“DATA=输入数据集”未被选定时,SAS系统就使用在此之前最后生成的数据集为分析之用的数据集。如果有多个选项,彼此之间需用空格分开。

每个SAS语句都以分号结束,而每个过程步一般以RUN 语句结束。还有一种所谓“交互式过程”可以在遇到RUN语句时不结束过程运行,只有遇到QUIT语句或者下一个过程步、数据步时才结束。在一个SAS过程步中,根据需要,可以写多个SAS过程步语句。

49.2 SAS/BASE模块中常用的一些过程及其主要功能

49.2.1 CHART过程

CHART过程可以产生垂直和水平直方图、块形图、饼图和星形图。这些图形显示变量的值或与这些值相关的统计量。变量可以是数值的,也可以是字符的。

PROC CHART是一种有效的工具,它可以快速将数据视觉化,但如果需要生成包含颜色和不同字体的高品质图形,建议使用SAS/GRAPH软件。SAS/GRAPH软件中的GCHART过程产生与PROC CHART相同类型的图表。此外,PROC GCHART还可以生成环形图。

49.2.2 COMPARE过程

COMPARE过程比较两个SAS数据集的内容,它能比较不同数据集中的变量,也能比较同一个数据集中的不同变量。

PROC COMPARE比较两个数据集:基础数据集和比较数据集。这个过程确定匹配变量和匹配观测。匹配变量是具有相同名字的一些变量,或者使用VAR和WITH语句明显配对的一些变量。匹配变量必须是相同的类型。匹配观测是对用户规定的所有ID变量具有相同值的一些观测,若没有规定ID语句,则是出现在这些数据相同位置的观测。如果使用ID变量来匹配观测,两个数据集必须按所有ID变量分类。

49.2.3 CORR过程

CORR过程用于计算变量间的相关系数,包括Pearson的乘积矩相关和加权乘积矩相关,还能产生三个非参数的关联测度(Speaman的秩序相关,Kendall的tau-b,和Hoeffding的相关性度量D)。另外,该过程也可以计算偏相关(Pearson的偏相关,Speaman的偏秩序相关

和Kendall的偏tau-b)和Cronbach系数α及一些单变量的描述性统计量。

49.2.4 EXPORT过程

PROC EXPORT过程步用于读取SAS数据集,并把它写到外部文件中去并保存。外部文件类型包括:Excel、Access、DBF、文本文件(*.txt)等,同时此过程步还可以自定义存为外部文件时的格式。

PROC EXPORT以下述方式之一来输出数据:

·产生DATA步代码

·产生SAS/ACCESS代码

·转译器

用输出数据源特定的选项和语句来控制结果。PROC EXPORT产生特定的输出文件并保存输出信息到SAS日志。在日志中可以看到DATA步或由PROC EXPORT 产生的SAS/ACCESS代码。若使用转译器则不提交代码。

49.2.5 FORMAT过程

FORMAT过程用来对数值或字符变量定义用户自己的输入格式和输出格式。此外,它可以打印含有输入或输出格式的一部分目录,存贮SAS数据集中输入或输出格式的描述,还可以用SAS数据集产生输入或输出格式。

49.2.6 FREQ过程

FREQ过程可以生成单向到n向的频数表和交叉表。对于双向表(二维表),该过程可以计算检验统计量和关联度。对于n向表,该过程进行分层分析,计算每一层和交叉层的统计量。这些频数也能够输出到SAS数据集里。

49.2.7 FSLIST过程

FSLIST过程能够使用户浏览SAS对话中的非SAS数据集的外部文件。因为这些文件在交互式的Windows环境中显示,为检查这些文件的内容,该过程提供了高度方便的机制。另外,用户可以从FSLIST窗口中拷贝文本到利用SAS文本编辑器的任何一个窗口中。

49.2.8 IMPORT过程

IMPORT过程从外部数据资源读取数据并且将数据写入到SAS数据集中。外部数据资源包括Microsoft Access数据库、Excel 文件、SPSS文件、Stata文件、Lotus1-2-3扩展表和有界限的外部文件(在这些文件中,数据值被一些界限分隔开,比如说空格、标点或者标记等)。 当运行PROC IMPORT过程时,该过程读取输入文件并将数据写入SAS数据集中。SAS变量的定义是基于输入记录的。PROC IMPORT过程通过下列方法将数据读入到数据集中:

·产生DATA步代码

·产生SAS/ACCESS代码

·翻译引擎

用户可以利用语句和选项来控制结果的输出,这些语句或者选项对于输入数据资源来说是特定的。PROC IMPORT过程产生特定的SAS输出数据集并且往SAS日志窗口写入关于输入的信息。在日志窗口中,用户可以看到由PROC IMPORT过程产生的DATA步或者SAS/ACCESS代码。如果使用翻译引擎,那么就不会提交代码。

注意:为了输入数据,用户也可以使用Import指南,这是一个窗口工具,它能够指导用户通过使用该过程输入外部数据资源。用户也可用请求Import指南产生IMPORT过程语句,该语句可以被保存到文件中以备后用。选择File Import Data可以使用Import指南。

49.2.9 MEANS过程

MEANS过程为描述性统计量计算提供了数据总结工具,这些变量来自于所有的观测和分组的观测。例如,运行PROC MEANS可以

·计算基于矩阵的描述性统计量

·估计分位数,包括中位数

·计算均数的置信区间

·进行t检验

在默认的情况下,PROC MEANS过程显示输出结果。用户也可以利用OUTPUT语句将统计量存储到一个SAS数据集中。

PROC MEANS过程与PROC SUMMARY过程是非常相似的。

49.2.10 OPTIONS过程

该过程用于列出所有SAS系统选项的当前值,输出结果在SAS的LOG窗口中显示。

SAS系统选项是用于控制SAS输出格式、文件处理、数据集运行、与操作环境的交互方式、以及其他任务,它不是针对某一步或某个SAS数据集。用户可以通过以下方式改变SAS 某些选项的当前值:SAS命令、配置或autoexec文件、SAS Option语句、使用OPTLOAD 和OPTSAVE过程、通过SAS系统选项窗口、以及其他方法。

通过OPTIONS 过程产生的LOG输出窗口可以显示全部选项的设置和概要。

49.2.11 PLOT过程

PLOT过程用来画散布图。在数据处理中常常希望直观地了解数据的变化趋势,数据间的相关关系等,该过程能够很方便地实现这一目的。

假设已有一个SAS数据集,共有n个观测,m个变量。该过程能够对数据集中任两个变量画出散布图。用户可以自定义散布图的标记符号、刻度间隔和标记、图形的大小、重叠作图、等值线图、以及水平或垂直方向的扩展。

49.2.12 PRINT过程

PRINT过程用于输出SAS数据集中的全部或部分变量的数值,它可以产生一系列报告,从简单列表报告,到资料分组和数值变量总体或亚总体计算的高级定制报告。

简单列表报告是用户可以产生的最简单的一种报告,它通过proc print语句直接产生。 定制报告通过使用ODS的PRINT过程来产生,包括:HTML输出、定制报表外观、定制标题和列标题、数值输出中的美元符号和逗号、选择性的变量数量和顺序、报表资料分组、全部或部分变量值汇总。

49.2.13 PRINTTO过程

该过程用于定义SAS过程输出和SAS日志的输出地点。通常,SAS过程的输出根据执行的方式,送到缺省的过程输出文件。SAS日志根据执行的方式送到缺省的SAS日志文件。使用PROC PRINTTO,用户可规定文件标记,文件名,或者逻辑名作为打印输出或SAS日志的目的地,该过程把输出送到用户指定的文件中去。

PRINTTO过程的功能有:改变过程输出的目的地、改变SAS日志的目的地、有选择地限制SAS输出、把输出文件存放在永久性文件中、在同一作业中使用SAS输出作为输入数据。

49.2.14 RANK过程

该过程通过SAS数据集中的观测计算一个或几个数值变量的秩得分,这些秩得分被输出到新的SAS数据集中。RANK过程可以有选择地生成正态或其他秩得分。

RANK过程把数值从最小到最大排列,对最小值赋秩1,对第二小值赋秩2,一直到赋秩n,出现数值相同的观测值时,其秩可以赋平均秩。许多非参数统计方法使用秩而不用原始变量值。该过程对于连续数据分成n组也是有用的。选项GROUP=能够把一个总体分解为个数近似相等的一些组。

49.2.15 REPORT过程

REPORT过程将PRINT,MEANS和TABULATE过程的特点与DATA步报告写法的特点结合起来成为一个强有力的编写报表的工具。用户可以按以下各种方式来使用该过程:1、用一个具有提示功能的窗口环境来引导用户建立一个报表;2、用一个没有提示功能的窗口环境;3、

用一个非窗口环境。在这种情况下,用户提交带有PROC REPORT语句的一系列语句,正如用户在其他SAS过程的做法一样。用户可以存贮一个报表的定义并且用一个窗口环境或者非窗口环境对含有用于报表定义中这些变量的任一个SAS数据集生成同样的报告。

49.2.16 SORT过程

SORT过程在SAS数据集中按一个或几个变量的大小次序将观测重新分类排序,并把结果存放在新的SAS数据集里,或者用新的数据集代替原始数据集。

SORT过程常用于将数据集分类排序,以便其他SAS过程通过使用BY语句可以直接调用它。在对数据集进行合并或者更新前,也必须先进行分类排序。该过程根据BY语句中变量值的大小将数据集中的观测重新排序。当你想按两个或更多的变量进行排序时,SORT过程首先按第一个BY变量的次序排序,然后对第一个BY变量具有相同值的那些观测再按第二个BY变量的次序排序。对所规定的每个BY变量均依次进行排序。

49.2.17 SQL过程

SQL过程实现SAS中的结构查询语言SQL(Structured Query Language)。SQL是一个标准化的广泛使用的语言,它可以检索和更新关系表格和数据库中的数据。SQL过程可以实现:1、检索和操作存于表中、视图里的数据;2、在表的列中生成表格、视窗和索引;3、产生包含查询结果各行观测值的SAS宏变量;4、增加或修改在表格列里的数值,或者通过增加、修改、删除列来修饰表格。

49.2.18 STANDARD过程

STANDARD过程将SAS数据集中的部分或所有变量按给定的均值和标准差进行标准化变换,并生成一个包含标准化值的新的SAS数据集。

标准化是一种移动数据位置和标度属性的方法。有时你需要将一个变量中心化使其均值为0、标准差为1。有些统计方法是在数据标准化的基础上进行分析的。如果数据是正态分布,标准化也是学生化,因为标准化的结果具有学生t分布。

49.2.19 SUMMARY过程

SUMMARY过程是用于数据集中或分组中的所有观测进行描述统计量计算的数据汇总工具。SUMMARY过程与MEANS过程非常相似,MEANS过程中的描述适用于SUMMARY过程。

49.2.20 TABULATE过程

TABULATE过程用分类报表的形式输出满足用户要求的描述性统计量。每个表单元属于用交叉变量名组成的特殊的观测类。与每个单元有关的统计量是由该类所有观测计算得到的。由该过程计算的统计量很多与其它描述过程,如MEANS,FREQ和SUMMARY等计算的统计量相同。

TABULATE过程可以提供:简单但很有效的方法来创建用户定义的报表;非常灵活的分类方式;用于加标题、格式化变量和用过程产生统计量的各种机制。

49.2.21 TRANSPOSE过程

TRANSPOSE过程完成对SAS数据集的转置,即把观测变为变量,变量变为观测。该过程读入一个SAS数据集并创建一个新的数据集作为它的唯一输出集。原数据集中的行变成列,列变成行。在新的数据集中的变量对应于原数据集的观测,而新的数据集中的观测对应于原数据集的变量。该过程产生的新数据集包含下面三类变量:从输出数据集中拷贝过来的变量,这些变量与输入数据集中的变量具有相同的名字和值、由输出数据集中的观测转置后创建的变量;为了识别在输出数据集的每个观测值的来源而由该过程创建的变量。

49.2.22 UNIVARIATE过程

该过程除了可以完成类似MEANS过程的基本统计量计算外,它还可以计算以下统计量:描述变量极端值的情况;计算分位数;生成若干个描述变量分布的图;生成频数表;对数据

进行正态性检验。还可对单组设计或配对设计定量资料进行t检验或符号检验、符号秩和检验。

49.3 SAS/STAT模块中最常用的一些过程及其主要功能

49.3.1 ANOVA过程

ANOVA过程对多种类型试验设计的均衡数据进行方差分析。一个响应变量(通常称为因变量)在由分类变量(通常称为自变量)识别的试验条件下被测量。响应变量的变异可解释为归因于分类效应的误差加上随机误差。

ANOVA过程是SAS/STAT模块中进行方差分析的几个过程之一。ANOVA过程用于处理均衡数据(即对于分类变量的每种组合观测数是相等的),GLM过程能够处理均衡和不均衡的两种数据。因为PROC ANOVA过程考虑到均衡设计的特殊构造,对于均衡数据使用ANOVA比起使用GLM不仅较快,而且使用的存储量更少。

ANOVA过程主要处理均衡数据,除此之外,还可以处理拉丁方设计,若干不完全的均衡区组设计,完全的嵌套(或系统分组)设计以及单元频数互相成比例,且对基本总体也成比例的设计。因素彼此正交时出现异常。进一步的详述参见Searle。PROC ANOVA用于每组要素都具有相同值的区组对角线X′X矩阵。通过检测平均单元值来对程序进行部分试验。然而。这个试验是不完美的:一些不能被正确分析的设计可能会通过试验,能被正确分析的设计也许不能通过试验。如果你的设计不能通过试验,PROC ANOVA将给出警告来告诉你这个设计不均衡并且ANOVA分析无效;如果你的设计不是一个特殊的案例,那么应该用PROC GLM代替。PROC ANOVA没有完全有效的设计,因为需要整个X′X矩阵;如果你不确定你的设计中PROC ANOVA的有效性,则应使用PROC GLM。

需要注意的是:如果你使用PROC ANOVA来分析不均衡数据,你必须假定结果有效性的响应度。

ANOVA过程自动产生图形作为ODS输出的一部分。

49.3.2 CALIS过程

结构方程模型是一个在经济及行为科学领域中重要的统计方法。结构方程表示几个变量之间的关系,这些变量包括可直接观测的显变量及不可观察的隐变量。隐变量的介绍参见Loehlin (1987), Bollen (1989b), Everitt (1984), or Long (1983);显变量参见Fuller (1987)。

在结构模型中,所有的变量都是随机变量而不像函数模型中变量取相同的水平。在CALIS过程里关于极大似然估计和广义最小二乘估计中,随机变量通常假设近似具有多维正态分布。否则的话,尤其是高峰度时,即使样本量很大,也容易导致粗劣的估计,很大的标准差和错误的假设检验。因而,正态分布的假设比起在模型中自变量非随机变量的假设更重要。用户在使用CALIS过程的最大似然估计和广义最小二乘估计之前,应删去异常点并对非正态变量进行适当变换。如果观测个数足够大,可以使用Browne的ADF估计方法。

CALIS过程在以下几方面可用于解决有约束条件和无约束条件问题的参数估计和假设检验:

z多重和多元线性回归模型

z线性测量误差模型

z路径分析和因果关系模型

z具有交互因果关系的联立方程模型

z探索性的或证实性的任何阶次的因子分析

z典型相关分析

z其它线性或非线性隐变量模型

根据下述标准进行参数估计:

z没有加权的最小二乘准则(ULS)

z广义最小二乘准则(GLS)

z多维正态数据的最大似然准则(ML)

z加权最小二乘准则(WLS,ADF)

z对角线加权最小二乘准则(DWLS)

广义最小二乘准则的默认权矩阵是简单样本协方差或相关矩阵。加权最小二乘准则的默认权矩阵是样本协方差或相关矩阵的不对称协方差阵的估计。在这种情况下,加权最小二乘准则等价于Browne不对称自由分布估计。对角加权最小二乘准则的默认权矩阵是输入样本协方差或相关矩阵的渐近方差的估计。可以使用输入数据集在GLS、WLS和DWLS 中指定权矩阵。

PROC CALIS中估计方法的实现没有用尽这个领域所有的供选方案。例如,PLS没有被实现。具体参见SAS说明书关于PROC CALIS中“估计标准”部分的内容。注意一个被称为PROC PLS的SAS/STAT过程,它应用不完全最小二乘法,但其模式的分类不同于PROC CALIS的。带有潜变量的通径分析或结构方程模型可以考虑使用PROC CALIS。

模型说明有以下几种输入方式可以使用:

z如果用户已有一组描述模型的结构方程式,利用LINEQS语句以等式形式描述这一组结构方程。

z利用REM语句以简易的公式化列表形式规定简单的路径模型(McArdle 和McDonald 1984)。

z利用FACTOR语句进行带约束的一阶因子分析或分量分析。

z利用COSAN和MATRIX语句分析一组矩阵模型,这与McDonald和Fraser的COSAN 程序类似。它允许你规定复杂的矩阵模型,包括非线性方程模型和高阶因子模型。

对于参数的线性和非线性等式及不等式约束可根据输入类型的不同由一些不同的语句指定。对于简单的常数及等式参数约束和起作用的边界约束,需要计算拉格朗日乘子检验指数。一般的等式及不等式约束可用程序语句加以公式化。

PROC CALIS在最优化过程中提供几种自动产生初始估计的方法:

z二阶段最小二乘估计

z仪器变量因子分析

z近似因子分析

z普通最小二乘估计

z McDonald法

在很多共同的应用中,这些初始值将防止出现计算问题,并节省计算时间。

由于在(非)线性约束的优化过程中经常出现数值问题,因而CALIS过程提供了几种优化算法:

z Levenberg-Marquardt算法

z置信域算法

z Newton-Raphson算法

z各种拟牛顿算法和对偶拟牛顿算法

z各种共轭梯度算法

拟牛顿和共轭梯度算法可以被一些网上查到的方法修饰。最优化技术在参数上加上简单分界线和线性约束。只有对偶拟牛顿算法可以加上非线性等式和不等式限制。

过程创建OUTRAM=输出数据集,它完全地描述模型(除了程序语句)并且包含参数估计。这个数据集可被用于另一个PROC CALIS执行的输入。编辑数据集会出现小的模型改变,所

以可以在之后的分析中利用先前的参数估计作为初始值。OUTEST=数据集包含关于最佳参数估计(参数估计、梯度、Hessian等)的信息。INEST=数据集对参数给出了起始值、分界线和线性约束。OUTSTAT=数据集包含残差,用于探索性因子分析,旋转和非旋转因子载荷。

在使用RAM和LINEQS输入语句的同时,或者当这些模型用输入模型数据可被识别时,可以进行自动变量选择(从输入数据集中选出只在模型说明中用到的变量)。在这种情况下,外生显变量的协方差被认为是给定常数。

使用PREDET选项在过程开始前可以预测模型矩阵中呈现常数和变量的预设模式。

PROC CALIS提供在信息矩阵(近似Hessian矩阵)中线性相关的一种分析,它在检测未识别模型中是有用的。为了进一步的分析,用户可以同参数估计、梯度和近似标准误差一起在一个输出数据集中存贮信息矩阵和参数估计的近似协差阵(信息矩阵的逆)。

PROC CALIS未提供样本大小不同或数据中存在缺失值的多个样本的广义算法。然而,相同样本含量的多个样本的分析可通过包含作为分块对角子矩阵的单个矩阵的动差超矩阵来完成。

新的实验过程TCALIS可被使用。除了COSAN模型分类,PROC TCALIS在CALIS过程中支持几乎所有的模型分类方法。此外,PROC TCALIS有许多新的特点,PATH语句可通过使用路径语法来规定模型,MSTRUCT语句可以直接规定协方差结构,进行多组分析,增强均值和协方差结构分析,先验的功能检验,标准误估计的影响分析等等。

CALIS过程使用ODS制图法来绘制图形作为它的输出。高品质的残差直方图可通过PROC CALIS得到。

49.3.3 CANCORR过程

CANCORR过程完成典型相关,偏典型相关和典型冗余相关分析。

典型相关分析是研究两组变量间相关关系的一种统计方法。在多重相关中,可以检查两组变量(X和反应变量Y)间的线性相关情况。在典型相关分析中,可以检查线性组合变量X和线性组合变量Y之间的关系。这些线性组合被称为典型变量。自变量和反应变量可被详细说明,因为统计模型在两组变量中是均衡的。在一组或两组包含单变量的情况下,简单和复杂相关是典型相关中的特例。

CANCORR过程可以检验一些假设,如在总体中,每个典型相关及所有较小的典型相关为0。进行检验时CANCORR过程使用F近似统计量,在小样本情况下,F近似给出比使用卡方近似较好的结果。进行检验时要求两组变量中至少有一组近似正态分布,以便得到的概率水平有效。

该过程可以计算标准化和没有标准化的典型系数,典型变量和原始变量的所有相关,同时也可进行典型冗余分析。PROC CANCORR提供多重回归分析选项来帮助解释典型相关分析。

PROC CANCORR可产生包含每个典型变量的观测值的数据集,并且可使用PRINT过程来列出这些值。每个典型变量对应其它组中它的副本的图通常很有用,可以使用PROC SGPLOT 同输出数据集来绘制图。第二个输出数据集包含典型相关和其它过程的统计计算。

49.3.4 CANDISC过程

典型判别分析是与主成分分析和典型相关有关的降维方法。这种方法用于导出单因素多元方差分析的典型系数。单因素多元方差分析试验为了计算均值向量。典型判别分析找出了定量变量的线性组合,使组或类得到最大程度的分离。给出分类变量和一些定量变量,CANDISC过程导出典型变量,定量变量的线性组合概述了类间的变化,主成分以相同的方式概述了总变异。

CANDISC过程完成典型判别分析,计算平方Mahalanobis距离并做单变量与多变量的单因素方差分析。该过程产生包括典型相关系数和典型变量得分的输出数据集。典型系数输出数据集可被FACTOR过程旋转。遵循典型相关的标准以使典型变量的均值等于0并且组内方

差等于1。PROC CANDISC显示出标准和非标准典型系数。典型变量和原始变量的关系与典型变量的类均值也同样被呈现出来;这些相关,有时被认为是载荷,被称为典型结构。典型变量输出数据集可与ODS图形连用绘制典型变量来帮助看清组间差距。

给定两组或更多组带有几个定量变量的观测,典型判别分析得出与组有最大可能多重相关的变量的线性组合。最大的多重相关叫做第一典型相关。线性组合的系数称为典型系数或典型权重。线性组合定义的变量称为第一典型变量或典型成分。第二典型相关由与第一典型变量无关的线性组合得到,该组合应与组有最大可能多重相关。抽取典型变量的过程可以重复直到典型变量的个数等于原始变量的个数或类的个数减1。

第一典型相关至少等于组与任何一个原始变量间的多重相关。如果原始变量有较高的组内相关,第一典型相关可以很大,即使多重相关很小。换句话说,第一典型变量可以显示类间的重要区别,即使用原始变量不能达此目的。典型变量有时被称为判别函数,但是这种使用不明确,因为DISCRIM过程产生不同的分类函数也被称为判别函数。

对每一个典型相关,CANDISC检验总体中该相关及更小的典型相关为0的假设。采用F 近似值比一般的卡方近似值能给出更好的小样本结果。每一类内变量应该具有近似的多元正态分布,为了概率水平有效,方差阵应该是相同的。

典型判别分析相当于定量变量从类变量得到的哑变量集的典型相关分析。典型判别分析相当于执行以下步骤:

1)变化变量使合并的类内协方差阵为单位阵

2)计算变换后的变量的类均值

3)对均值做主成分分析,以每一类中的观测的个数作为权重。特征值等于每一个主成分方

向上类间偏差与类内偏差之比

4)把主成分变量反变换到原始变量的空间,获得典型变量

典型变量一个有趣的特征是无论相关是从全部样本还是从合并类内相关计算出,它们都不相关。但是,典型系数并不正交,因此,典型变量并不代表原始变量空间中正交的方向。

49.3.5 CATMOD过程

CATMOD是属性数据建模过程。CATMOD分析可用列联表来表示的数据。该过程用线性模型拟合响应频数的函数,可用来进行线性模型化,Logistic回归和重复观测分析。CATMOD 使用:

z加权最小二乘估计来分析广泛的一般线性模型

z最大似然估计来分析对数线性模型和广义Logits模型

CATMOD过程提供各种属性数据分析。许多是连续数据分析方法的一般化。输入数据的类型可以是两种类型。例如传统意义上的方差分析,适用于均数分析和将变量从均值划分到不同的来源。这里,方差分析用于响应函数的分析和将函数变量划分到不同的来源。如果因变量是被顺序标度的,那么响应函数可能为均值。但是它们也可以是边缘概率,累积Logits,或者从因变量合并基本信息的其它函数。

提示:PROC CATMOD用于WLS模型和广泛列联表模型的分析。标准模型的ML建模,特别是与连续预测一起更适合使用如PROC GENMOD 或 PROC LOGISTIC过程。

49.3.6 CLUSTER过程

CLUSTER过程分别采用十一种方法对SAS数据集中的观测进行分类。数据可以是数值型的坐标值,也可以是距离值。如果数据是坐标值,CLUSTER过程计算(可能是平方)欧式距离。如果想得到非欧式距离,使用DISTANCE的数据集作为输入数据集。

聚类方法有类平均法、重心法、最长距离法、密度估计法(包括Wong混合聚类方法和k最近邻方法)、最大似然法、可变类平均法、McQuitty相似分析法、中间距离法、最短距离法、两阶段密度估计法和Ward最小方差法。

所有的方法都以谱系聚类过程为基础,一开始将每个观测各作为一类,然后将距离最近的两类合并形成一个新的类来代替之前的两类。重复进行两个最近类的合并,每次减少一类,直至所有观测合并为一类。不同聚类方法的区别在于类间距离的计算方法不同。

因为对于大多数方法,计算时间随观测数目的平方或立方而改变,所以CLUSTER过程并不适用于非常大的数据集。FASTCLUS过程所需的时间与观测数量成比例,因此比CLUSTER 更适用于更大的数据集。如果要对非常大的数据集进行系统分类,可以使用FASTCLUS进行初始聚类分析并生成较多类,然后使用CLUSTER对上面的类进行系统分类。

CLUSTER打印聚类的历史过程,给出用于对样本数据集估计分类个数的统计量。CLUSTER 也生成一个输出数据集,TREE过程可用这个数据集画分类谱系树状图或在所要求的任何水平下输出聚类结果。例如,为得到6个类的结果,可以首先使用带有选项的OUTTREE=的CLUSTER语句;然后使用这个数据集作为TREE过程的输入数据集,并在TREE过程中,使用选项NCLUSTERS=6和OUT=来得到6个类的结果,并画一张树状图。

对于坐标数据,欧式距离由坐标值之间的差别计算。

差别的使用有以下重要影响:

z如果差别有效,变量必须有间隔或者较大的测量范围。有序或分级数据不适合进行聚类分析。

z对于同等的欧式距离,相同的距离应有相同的实际影响。需要将变量进行线性或非线性变换来满足条件。例如,如果一个变量的单位为美元一个为欧元,应将它们转

换为相同的货币单位。如果比值比差别更有意义,则应取对数。

z变化大的变量比变化小的变量对于聚类的结果有更大的影响。如果认为所有变量同等重要,可用PROC CLUSTER中的STD选项进行标准化,使得均值为0,方差为1。

标准化并不是总能适用。除非选项TRIM=也被使用,否则在使用带有STD选项的PROC CLUSTER过程前,异常值将被删除。STDIZE过程提供了变量标准化和输入缺失值的

另一种方法。

在下述任何条件下ACECLUS过程用于对变量进行线性变换:

z不知道变量如何被衡量

z在不考虑一些变量是否比其它变量有更大的影响时想检测自然聚类

z想使用设计好的聚类方法来发现紧密的聚类,但也想检测延展的类

49.3.7 CORRESP过程

CORRESP过程进行简单和多重对应分析。它是用于寻求列联表的行和列之间联系的低维图形表示法。每一行和每一列用单元频数确定的欧式空间中的一个点表示。PROC CORRESP 也能够对欧式空间中附加的行和列计算坐标。

PROC CORRESP能够读以下两类输入数据:关于两个或多个分类变量的原始类目响应和双向列联表。对应分析图用ODS绘制。

背景:在法国和日本,对应分析是一种很流行的数据分析方法。在法国,对应分析是在Jean-Paul Benzécri的极大影响下发展起来的;在日本,是Chikio Hayashi发展起来的。对应分析这个名字是法文analyse des correspondances的翻译。从表面上看这个方法来源

?

于许多没有联系的文献(例如,Richardson和Kuder 1933; Hirsh eld 1935; Horst 1935; Fisher 1940; Guttman 1941; Burt1950; Hayashi 1950)。它有许多不同的名字,在美国称为最优定标、相对平均、最佳得分和适当得分;在日本称为数量化方法;在荷兰称为齐性分析;在加拿大称为对偶定标;而在以色列称为标图分析。

在法国,Benzécri (1973)和Lebart,Morineau和Tabard (1977)很详细地描述过对应分析。在日本,Komazawa (1982), Nishisato(1982), 和Kobayashi (1981)也讨论过这个课题。在英国,对应分析由Lebart,Morineau和Warwick (1984), Greenacre (1984),

Nishisato (1980), Tenenhaus 和Young (1985)介绍过;Gi(1990)

?,Greenacre和Hastie (1987),以及许多其它文献也曾介绍过。Hoffman和Franke (1986)使用市场研究领域的例子给出简明的介绍。

49.3.8 DISCRIM过程

对于每个观测都含有一个或多个定量变量和一个定义观测组的分类变量的观测数据集,DISCRIM过程确定一个判别标准把每个观测分入其中一组。从数据集中得出的判别准则在DISCRIM过程的同一个执行过程中可应用于第二个数据集。用以得出判别准则的数据集称为训练数据集或标定数据集。

当每组都服从多元正态分布时,可使用参数检验方法来开发判别函数。判别函数也称为分类标准,由广义平方距离来决定。这一分类准则基于单个组内协方差阵或合并协方差阵;它也考虑到类的先验概率。校准信息被储存到特定的SAS数据集中并被其它数据集应用。

当每组分布不被假设或假设分布不服从多元正态分布时,将采用非参数检验来估计组密度。这些方法包括核方法,k最近邻方法。DISCRIM过程采用均匀的、正态的、二权或三权的核方法来估计密度。

马氏距离或欧式距离能够用来确定接近程度。马氏距离基于单个组内协方差阵或合并协方差阵。采用k最近邻方法时,马氏距离基于合并协方差阵。采用核方法时,马氏距离基于单个组内协方差阵或合并协方差阵。用被估计出的组密度和它们的先验概率,可以估计属于每类成员的后验概率。

标准判别分析是关于主成分分析和典型相关的降维技术。给出分类变量和一些定量变量,DISCRIM导出典型变量(定量变量的线性组合),它可以用与主成分总结总变化相同的方式来总结两类间的变化。(见SAS说明书关于“CANDISC过程”中关于典型判别分析的信息)。判别标准来源于PROC DISCRIM。如果想用没有判别标准的典型判别分析应使用CANDISC 过程。

DISCRIM过程可产生包括不同统计量如平均标准差和相关的输出数据集。如果使用参数方法,判别函数被储存到数据集中来对将来的观测进行分类。在完成典型判别分析后,输出数据集包括典型系数被FACTOR过程旋转。PROC DISCRIM过程也能创建输出数据集的第二个类型,包括每个观测的分类结果。完成典型判别分析后,输出数据集同样包括典型变量评分。第三类输出数据集包括每个观测的组密度。

PROC DISCRIM是通过估计未来观测分类的误差率来评价判别标准的。误差率估计包括出错数估计和后验概率错误率估计。当输入数据集是一个普通的SAS数据集时,将用交叉验证来估计错误率。

不要混淆判别分析和聚类分析。所有的判别分析都需要关于类的先验知识,通常是每类中样本的形式。在聚类分析中,数据不包括类的隶属的信息;其目的是构建分类。

49.3.9 FACTOR过程

FACTOR过程可以完成几种类型的公因子分析、主成分分析和因子旋转。输入数据集可以是多变量数据、相关阵、协差阵、因子模型得分数据。FACTOR过程对相关阵和协差阵进行分解,它计算的许多结果可以存储在输出数据集中。

FACTOR过程可以处理来自其它过程的输出结果。比如在GLM过程中来自多变量分析的典型相关系数可以用FACTOR过程进行旋转。

提取因子的方法有主成分分析,主因子分析,迭代因子分析,没有加权的最小二乘因子分析,最大似然(典型)因子分析,α因子分析,映像分量分析和Harris分量分析。先验共性方差估计的不同方法也可被用。

正交旋转方法有:方差最大,四次方最大,parsimax,均方最大和因子parsimax。斜交方法同样适用。另外,四次方最小等斜交旋转也可用。正交旋转方法有用户指定γ的正

交最大,用户指定幂次的parsimony和因子parsimony。斜交旋转法有用户指定的tau,用户指定幂次的parsimony,用户指定幂次的promax,用户指定幂次的Harris-Kaiser 情况II,用户规定目标模式的斜交Procrustes。

输出包括均值,方差,相关系数,抽样适当的Kaiser量度,特征值,屏幕图,特征向量,先验和最终的公因子方差,没有旋转的因子模型,残差和偏相关系数,旋转的主因子模型,主因子结构,参考结构,参考轴相关,即没有忽略也没有删除其它因子时每个因子解释的方差,旋转和没旋转的这些因子的散点图,每个因子同这些变量的多重相关的平方,标准误,置信区间,得分系数。

FACTOR现在使用ODS制图法画图来作为输出的一部分。

49.3.10 FASTCLUS过程

FASTCLUS过程是基于对一个或多个定量变量的距离计算进行不相交聚类而设计的。这些观测被归类,使得每个观测只能归于一类,但这些类不能像它们在CLUSTER过程做的那样形成树状图。如果想对不同分类个数分别进行分析,每个分析需运行PROC FASTCLUS一次。或者在大的数据集中进行分层聚类,使用FASTCLUS过程找到初始聚类,然后使用这些初始聚类作为PROC CLUSTER的输入。

FASTCLUS过程默认使用欧式距离,所以聚类中心基于最小二乘估计。这种聚类方法通常被称为k均值聚类,当算法全收敛时,聚类中心是观测分配到每组的均值。每次重复降低最小二乘准则直到收敛完成。

通常没有必要运行FASTCLUS过程来进行收敛。FASTCLUS过程通过对数据扫描两次或三次来寻找更好的聚类。PROC FASTCLUS的初始化方法担保如果存在相同聚类中观测间的所有距离小于不同聚类中观测间的所有距离,并且告诉FASTCLUS过程聚类的正确数值,它不用重复总是能找到聚类。甚至没能很好地分离类时,FASTCLUS过程常常寻找足够好的不需重复的初始点。因此,FASTCLUS过程默认重复一次。

FASTCLUS过程的初始方法使得它对异常点很敏感。FASTCLUS过程是检验异常点的有效方法,因为异常点通常出现在只有一个成员的类里。

FASTCLUS过程使用Lp(最小P次幂)聚类准则替代k均值聚类方法中的最小二乘(L2)准则。选项LEAST=P指定使用P次幂。因为需要更多的重复并且当指定LEAST=P时默认重复限制增加,所以使用选项LEAST=来延长完成时间。与最小二乘法相比,P值小于2时将减小聚类中心异常点的影响;P值大于2时将增强异常点的影响。

FASTCLUS过程用于观测数大于100的大的数据集。对于小数据集,此过程对于观测的次序比较敏感。

FASTCLUS过程用较大的方差替代变量上大的影响,所以在聚类分析前使变量标准化很必要。

以上是对FASTCLUS过程简短的总结。更多关于聚类的测验可以参见包含聚类关系的输出数据集。

49.3.11 FREQ过程

FREQ过程可以生成单向和n向的频数表和交叉表。对于双向表,该过程计算检验统计量和关联度。对于n向表,该过程进行分层分析,计算每一层和交叉各层的统计量。

单向频数表中,FREQ过程进行等比例或指定零比例计算。该过程给出置信区间和二项式比例检验,包括非低等和同等检验。

在列联表中,FREQ过程计算不同统计量来检验两个分类变量间的关系。对于一些配对变量,可以检测变量间关联度的存在和大小。如果存在关联应进行χ2检验。若想估计关联强度,当没有关联度时用FREQ过程计算关联度会趋近0,当有完美的关联度时会接近最大(最小)值。列联表统计包括:

zχ2检验和测量

z关联度测量

z2×2表危险度(二项式比例)和危险度差异

z2×2表OR值和相对危险度

z趋势检验

z一致性检验和测量

z CMH统计量

FREQ过程计算不对称标准误,置信区间,关联度和一致性测量的检验。精确的P值和置信区间对许多统计检验和测量很有用。FREQ过程也可以通过计算交叉、单向、n向列联表分层变量的调整来完成分析。包括CMH统计量和一致性检验。

分析双向列联表关联度的方法的选择应考虑研究设计(指明行和列变量是自变量还是因变量),变量的测量尺度(名义的,顺序的,或间隔的),检测每一个测量的关联度的类型,和测量的有效解释所需的假设。应根据数据选择合适的方法。

选择和解释检验统计量适用相似的评论。例如,MHχ2统计量需要对两个变量进行顺序标度并检测线性关联度。Pearsonχ2 检验适用于所有变量并能检测关联度的任意类型,但检测线性关联度的效果不强,因为它的功效分散到了大量的自由度中(除了2×2表)。

关于选择合适的统计分析的信息见Agresti (2007) 或Stokes, Davis, 和 Koch (2000)。

一些SAS过程计算频数;只有FREQ过程进行单向到n向列联表的χ2检验并计算列联表的关联度和一致性。另一些计算过程包括TABULATE和UNIVARIATE过程。使用SURVEYFREQ过程创建列联表和对样本调查数据进行关联度检验。若想对分类数据创建合适的模型,使用CATMOD, GENMOD, GLIMMIX, LOGISTIC, PROBIT, 或SURVEYLOGISTIC过程。

FREQ过程使用ODS,SAS子系统提供从SAS过程显示和控制输出的能力。ODS可以使FREQ 过程的输出结果转入SAS数据集。

FREQ过程使用ODS制图法绘制图形作为它的输出。

49.3.12 GENMOD过程

GENMOD过程用于由Nelder和Wedderburn(1972)定义的广义线性模型。这一类广义线性模型是传统的线性模型的延伸,它使总体均值通过一个非线性连接函数依赖于线性预测值,还允许响应概率分布为指数分布族的任何一员。有许多广泛应用的统计模型都属于广义线性模型,其中包括带正态误差的经典线性模型,二元数据的对数和概率单位模型,以及多项数据的对数线性模型。还有其它许多有用的统计模型,如果选择合适的连接函数和响应概率分布的话,也可以表示为广义线性模型。McCullagh和Nelder (1989)对于使用广义线性模型的统计模型给出了详尽的说明,Aitkin等(1989) 和Dobson (1990)所写的书也都是很好的参考书,其中收集了许多有关广义线性模型的应用的例子。Firth (1991)给出了广义线性模型的概述。

当测量值被假设为多元正态分布时,来源于重复测量的相关数据的分析被广泛研究。然而,假设不总是合理的;例如,当响应是离散的并且是相关时,不同的方法论被用于数据分析中。广义估计方程提供了合理的有效的统计实践方法来分析数据。

Liang and Zeger (1986)引进GEE来处理相关数据,除了响应变量间的相关,数据可用于广义线性模型的建模。例如,在许多情况下相关的二元和计数数据可用这种方式建模。

GENMOD过程可用GEE方法来使模型适用于相关的响应变量。可以使用GEE来使模型适用于Liang和Zeger (1986)的大多数的相关结构。更多GEE的信息参见Hardin和Hilbe (2003),Diggle,Liang,Zeger (1994),和Lipsitz 等(1994)。

广义线性模型的Bayesian分析可由GENMOD过程的BAYES语句获得。在Bayesian分析

中,模型参数作为随机变量被处理,参数的影响基于参数的后验分布。使用Bayes学说作为用先验分布加权的数据的似然函数来得到后验分布。先验分布可以结合分析中参数值可能范围的知识或经验。如果没有参数值的先验知识,可以使用无信息的先验分布,并且Bayesian 分析的结果与基于最大似然的经典分析相似。后验分布的封闭型通常不可行,Gibbs抽样的Markov chain Monte Carlo方法用于从后验分布中模拟样本。

在Bayesian分析中,为模型参数产生后验分布样本的Gibbs链。统计量(平均值,标准差,四分位数,HPD和置信区间,相关矩阵)和收敛诊断(自相关;Gelman-Rubin, Geweke, Raftery-Lewis, Heidelberger 和Welch检验;样本大小;Monte Carlo标准误)对每个参数、相关矩阵和后验样本的协方差矩阵进行计算。使用ODS制图法来对每个参数绘制痕迹图,后验密度图,自相关函数图。

GENMOD过程使用ODS制图法绘制图形来作为它的输出。

49.3.13 GLM过程

GLM过程用最小二乘法拟合一般线性模型。在PROC GLM中用到的统计方法有:回归分析,方差分析,协方差分析,多元方差分析和偏相关。

PROC GLM分析一般线性模型的数据。PROC GLM处理关于一个或几个连续自变量和一个或几个因变量的模型。自变量可以是能将观测分离到个别组的分类变量,也可以是连续变量。因此,GLM过程能被用在许多不同的分析中,包括:

z简单回归

z多重回归

z方差分析,特别是非均匀数据的方差分析

z协方差分析

z响应面模型

z加权回归

z多项式回归

z偏相关

z多元方差分析

z重复测量方差分析

下面概括了PROC GLM的主要特征:

z当有一个以上因变量时,GLM会自动将数据集内或BY组中具有相同类型缺失值的变量组合在一起,以保证利用所有可能的观测对每一因变量进行分析。

z GLM能交互地使用。当指定并运行了一个模型后,GLM不用重新计算模型参数或平方和,就能执行多种不同的语句。

z GLM允许你指定任意阶交互效应(交叉效应)和嵌套效应。GLM也提供下列效应项的估计,即多项式,连续变量与分类和连续变量嵌套于分类变量。

z 通过可估性的概念,无论有多少缺失的单元或者有多少混淆不清,GLM都提供线性模型效果的假设检验,GLM将打印出与每一假设检验有关的平方和,并且根据要求

打印出在假设检验中用到的可估函数的形式。GLM能够产生所有可估函数的一般形

式。

z多元方差分析语句允许你规定用于多元方差分析的假设效应和误差效应。

z GLM能够产生包括多个诊断度量和所有原始变量的输出数据集。另外,GLM能够产生包括平方和、叉积和及用MANOVA语句完成的典型分析的结果。同时,GLM也能在

LSMEANS语句中产生一个输出数据集来存贮一些值、标准差和最小二乘均值的协方

差。

z REPEATED语句允许你指定在同一实验单位上相同响应重复出现的度量在模型中的

效应,并且提供单变量和多变量的假设检验。

z RANDOM语句允许你在模型中规定随机效应:打印出类型Ⅰ、类型Ⅱ、类型Ⅲ、类型Ⅳ的均方期望,并与在检验中使用的均方相对比。根据要求,可以完成把合适的均

方或均方的线性组合作为误差项的F检验。

z ESTIMATE语句允许你指定一个L向量来估计参数β的一个线性函数Lβ。

z CONTRAST语句允许你指定一个对照向量或矩阵来检验假设Lβ=0。指定以后,这些对比也包含在用MANOVA和REPEATED语句所作的分析中。

PROC GLM与其它SAS过程的比较:如前所述,GLM能够用在多种不同的分析中,有许多其它SAS过程没有的特别之处。但是,对某些类型的分析,可采用其它的SAS过程,正如后面“PROC GLM用于多重回归”和“PROC GLM用于非均衡方差分析”中所讨论的,有些时候用其它过程比GLM过程更有效。下列过程与GLM相比,可以完成某些相同的分析。

ANOVA:完成均衡设计的方差分析,在这些模型下,ANOVA一般比GLM更有效。

NESTED:对嵌套随机模型进行方差分析和方差成分估计。在这些模型下,NESTED一般比GLM更有效。

NPAP1WAY:完成非参数单因子秩得分分析。这也可通过PROC RANK和PROC GLM实现。

REG:完成一般用途的回归。REG允许使用多个MODEL语句,且给出回归诊断,特别是诊断共线性。

RSREG:建立二次响应面回归模型,完成典型分析和岭分析。对来自一个响应面实验的数据,一般建议使用RSREG。

TTEST:比较两组观测的均值,也检验两组方差是否相等。对这种类型的数据,TTEST 往往比GLM更有效。

VARCOMP:对一般线性模型估计方差分量。

49.3.14 GLMMOD过程

GLMMOD过程为一般线性模型构造设计矩阵;它实质上完成了GLM过程建模的前端工作。你可以使用GLMMOD过程连同SAS/STAT软件的其它回归过程或SAS/IML软件来得到你用GLM 过程无法得到的特殊分析。

SAS/STAT软件中的一些用于回归的过程对一般线性效应建模提供分类变量及交互作用效应或多项式效应,而有些过程并不提供。对于这些过程,你必须用显变量来说明模型。例如,如果你想使用REG过程来拟合一个多项式模型,首先你必须生成交叉乘积项和幂次项作为新变量,这项工作通常在DATA步里完成。或者,你可以使用GLMMOD过程来创建一个数据集,其中包含一个模型的设计矩阵,它如同使用GLM过程的效应建模方法那样。

TRANSREG过程提供了对满秩和非满秩模型、多项式构建设计矩阵的另一种方法。

49.3.15 GLMPOWER过程

概率和样本大小分析优化了资源使用和研究设计,提高了有最高效率的最终结果的机会。GLMPOWER过程实现了线性模型概率和样本大小分析的预测,其目标有: z决定所需的样本大小来得到有足够概率的显著结果

z通过研究中的概率来检测有意义的结果

z进行假设分析来评估概率和所需样本含量对其它因素的敏感性

预测分析表明分析与对未来的计划有关。这与对过去研究的回顾性分析相反,它不支持这个过程。

统计分析涵盖了Type III检验和单变量线性模型指定效果的差别,有随意的协同变异。协同变异可以是连续的或绝对的。涉及随机效应的检验和对比不被支持。

PROC GLMPOWER的输入包括在研究计划中被考虑的成分:

z设计(包括项目概况和它们的指定权重)

z统计模型

z类效果的对比

z显著性水平(α)

z项目的推测反应均数(通常被称为“单位均值”)

z变异性推测

z概率

z样本大小

为了判别作为结果参数的概率和样本大小,应用输入中的缺失值指明它。过程通过一个或多个输入为所有其它成分计算结果值。

通过使用模范数据集来指明设计和单位均值,构建人工值数据集来说明总体的抽样设计和推测的反应均值。使用与GLM, ANOVA和MIXED过程相似的MODEL和CONTRAST语句规定模型和对比。用POWER语句来指明保留参数,这与POWER过程的分析语句相似。

GLMPOWER过程除了列表,还可以绘图。默认设置可以方便地绘制大多数常见图并且可以使用不同的选项来用户化绘图。例如,可以控制轴变量,轴范围,点的数量,图特征(如颜色、线的类型、符号和面板)来分析参数和绘制图形。

GLMPOWER过程是SAS/STAT软件中的一个工具,用于进行概率和样本大小分析。PROC POWER涵盖了不同的分析,如t检验,等效性检验,置信区间,二项式比例,多重回归,单因素方差分析,生存分析,logistic回归和Wilcoxon秩和检验。概率和样本大小应用提供了过程支持的用户界面和工具。

线性模型的更多讨论和例子见Castelloe and O’Brien (2001), O’Brien和Shieh (1992), Muller等(1992), O’Brien and Muller (1993)。概率和样本大小的概念见O’Brien 和Castelloe (2007), Castelloe (2000),Muller 和Benignus (1992), Lenth (2001)。

49.3.16 LIFEREG过程

LIFEREG过程是对失效时间数据拟合参数模型,这些数据可能是右删失、左删失或者区间删失。响应变量的模型是由协变量的线性效应和随机干扰项效应两部分组成。随机干扰的分布可以取自以下一些分布类型:包括极值分布、正态分布、逻辑斯蒂分布和通过对数变换得到的分布、指数分布、威布尔分布、对数正态分布、对数逻辑斯蒂分布和伽玛分布。

响应变量y可以表示为:

y=Xβ+σε

其中y是由响应值组成的向量,这些值通常是由失效时间取对数变换后的结果,X是协变量或自变量矩阵(通常包括一个截距项),β是未知的回归参数向量,σ是一个未知的尺度参数,ε是假定来自某个已知分布(如标准正态分布)。这个分布可能会依赖于其他的形状参数。当对响应变量的对数值进行建模时,这些模型等价于加速失效时间模型。在加速失效时间模型中协变量的作用是改变尺度参数,而不是改变失效时间基准分布的位置参数。

LIFEREG过程通过最大似然法,可以应用Newton-Raphson算法求出数值解,PROC LIFEREG 过程估计参数的标准误可以通过计算信息矩阵的逆矩阵得到。

在加速失效时间模型中,一般假定自变量对失效时间分布的作用具有对失效时间变量的可乘性。通常假设模型的尺度函数为exp(X c′βc),其中X c是协变量值的向量(不包括截距项),βc是未知参数的向量。因此,如果T0是相应于协变量取值均为0时,取自于基准分布的某个样本;那么依照加速失效时间模型,如果协变量的取值向量为X c时,加速失效时间T 为:T=exp(X c′βc)T0。如果y=log(T),y0=log(T0),那么

y=X c′βc+ y0

这就是y0作为误差项的线性模型。

如果从生存概率或者超过概率的角度看,上面的模型变成:

Pr(T>t|x c)= Pr(T p>exp(-X c′βc)t)

其中等式左边的概率是相对于给定协变量的值X c来估计的,等式右边是基准生存分布函数在exp(-X c′βc)t处的值。

通常,上面模型中允许出现截距参数和尺度参数。从原始的没有做变换的事件发生时间来看,截距项参数和尺度参数的作用分别是重新标定事件发生时间的尺度和事件发生事件的数量级。也就是说,如果

log(T0)=μ+σlog(Tε)

那么

T=exp(μ)T0σ

虽然可以使用NOLOG选项对原始响应变量拟合模型,但更普遍的是拟合响应变量的对数模型。因为要进行对数变换,除非规定NOLOG选项,否则对失效时间的观测值为0的情况无法计算。类似地,当失效时间的观测值很小时,会导致变换后的取值为绝对值很大的负值。NOLOG选项只能用于未变换响应变量和极值而不是威布尔分布的情况下。

由于正态分布的参数估计对很大的负值比较敏感,因此必须特别注意,拟合的模型不能过分地受它们的影响。同样地,即使在进行对数变换后仍然很大的值对拟合极值(Weibull)和正态分布时会产生很强的影响。这时应该检查一下残差和有较大残差的观测值或者协变量是极值时对模型参数估计产生的影响。考虑到估计值会产生很大的影响,逻辑蒂斯分布给出了比较粗略的参数估计。

参数估计的标准误可利用观测信息矩阵由大样本正态近似计算得到。在小样本的情况下,这些近似可能很差。可以参考Lawless(1982)作为额外的讨论和材料。有时也可以通过变换参数构建较好的置信区间。比如,大样本的理论对log(σ)比σ更准确。因此,对log(σ)构造置信区间,并把它们变换为σ的置信区间可能更准确。参数的估计量和估计量的协方差阵是可以在输出的SAS数据集中得到的,并且能够用它来构造其它的检验或者构造参数的置信区间。此外,可以采用最大似然法进行参数的检验。其他可能的检验方法包括打分检验和Wald检验和似然比检验,各种检验方法的优劣比较讨论,可以参考Cox和Oakes (1984)。一般认为,在小样本情况下,似然比检验一般比依赖信息矩阵的检验更可靠。 对数似然函数将采用失效时间的对数作为响应变量来计算。这个对数似然函数不同于用失效时间作为响应变量再加上∑log(t i),这里求和是对所有非删失的失效时间进行的。附加的这一项不依赖于未知参数也不影响参数估计或者标准差的估计。但是,很多公开使用的对数似然的值是使用失效时间作为基本响应变量来计算的。因此,不同于用LIFEREG过程计算得到的额外项的值。

经典的Tobit模型(Tobin1958)也属于这类模型,但是通常含有左删失数据。在Tobin 最初的文章中研究了对消费者的调查,其响应变量是在耐用商品上的日常花费与全部可使用收入的比值。两个原因变量是家庭主要管理者的年龄和流动资产与全部可使用收入的比值。因为在这个数据集中有许多观测其响应变量的值为0,故Tobin所采用的模型是

y=max(X′β+ε,0)

这是一个具有左删失的回归模型。

49.3.17 LIFETEST过程

生存时间或生存数据的一个共同特点是:由于实验个体的退出或者实验的终止而出现右删失的观察值。对于这些观测来说,只知道生存时间超过了一个给定的值;准确的生存时间是未知的。这时也不能抛弃这些删失的观测值,因为,处于多方面的考虑,一般寿命长的个体更可能出现删失。因此分析方法必须正确地利用删失数据和未删失数据。

讨论生存分析方法的许多文献可以参考Collett(1994),Cox和Oakes(1984),Kalbfleisch和Prentice(1980),Klein和Moeschberger(1997),Lawless(1982)和

Lee(1992)。对原理比较感兴趣的可以参考Fleming和Harrington(1991)和Andresen等。 通常,生存数据分析的第一步是估计生存时间的分布。生存时间经常被称为失效时间,最终时间是未删失的生存时间。生存分布函数也称作生存函数,用于描述所关心总体的生存时间。SDF在t时刻的值是总体中的一个实验个体生存时间超过t的概率,即 S(t)=Pr(T>t)

其中,S(t)代表生存函数,而T是随机选择的实验个体的生存时间。LIFETEST过程可以利用乘积极限方法(也称为Kaplan-Meier方法)或者寿命表方法来做生存函数的非参数估计。 与SDF紧密相连的一些函数是累计分布函数(CDF),概率密度函数(PDF)和危险率函数。函数CDF被记作F(t),定义为1-S(t),表示生存时间不超过t的概率。函数PDF用f(t)表示,被定义为F(t)的导数,危险率函数用h(t)表示,被定义为f(t)/S(t)。如果选择寿命表方法,可以计算概率密度函数和危险率函数的估计量。还可以输出这些结果的图形以及包含这些估计结果的SAS数据,这些包含计算结果的SAS数据集可以用来产生这些估计量的各种图形。在PROC LIFETEST过程中还有更多关于实验作图的详细信息,可以参考SAS 说明书中关于“ODS Graphics”部分。

在生存数据的分析中的一个重要任务是生存曲线的比较。人们比较关心是否有两个或者更多的样本产生于一个生存分布函数。PROC LIFETEST可以进行基于在H0假设和备择假设下总体危险率估计的权重比较基础上的k-样本的非参数检验。相应的各种权重函数,一些检验可以被详细知道,包括秩检验、Wilcoxon检验、Tarone-Ware 检验、Peto-Peto检验、校正的Peto-Peto检验和Fleming-Harrington Gρ族检验。PROC LIFETEST也提供了一些相应的趋势检验来检测有序的选择。分层检验可以被调整为预后因素,这些因素影响各种分布的发生概率。基于指数模型的似然比检验也被包括进来比较样本的生存曲线。

有其他一些预后因素被称为协变量也可以被认为是相关的失效时间。这些协变量也被用来构建统计量,在协变量和时间变量之间的联系来做检验。PROC LIFETEST可以计算两个这样的检验统计量:基于指数得分和Wilcoxon得分的缺失数据等级的统计量。这些检验通过集中任何定义的层次后调整各层变量。

49.3.18 LOGISTIC过程

二值响应变量(例如,成功或者失败)和有序响应变量(例如,正常,轻微、严重)和名义变量(例如,某一个小时内的大的电视网络)也在许多研究领域中出现。Logistic回归分析也常被用来调查这些离散变量和一系列解释变量之间的关系。讨论Logistic回归的书有:Collett(1991),Agresti(1990),Cox和Snell(1989)以及Hosmerhe和Lemeshow(2000),和Stokes,Davis和Koch(2000)。

在二值响应模型中,响应Y代表一个个体或一个实验单元,它的取值有两种可能,表示为1和2(例如,Y=1如果代表发病,那么Y=2代表不发病)。假定x是一个自变量向量,并且π=Pr(Y=1|x)是要建模的响应概率。线性logistic模型有下面的形式:

logit(π)≡log

其中α是截距参数,β是参数向量。要注意的是,Logistic过程在默认情况下,是对较低的响应水平概率进行建模。

Logistic回归模型与更一般的线性模型有一个共同的特征,即响应变量均值的函数g=g(μ)被认为与自变量之间的关系是线性的。由于均值μ隐含地依赖于响应的随机特征,并且自变量被认为是固定的,所以函数g提供了响应变量Y的变动(随机)成分与系统成分之间的联系。因此,Nelder和Wedderburn(1972)年把g(μ)函数称为连接函数。Logit 函数作为连接函数与其他函数相比较的一个优点是无论数据是按照预期抽取的还是回顾性资料(McCullaph 和Nelder1989,第14章)。其它在实践中广泛应用的连接函数还有probit 函数和双对数函数(Complementary log-log function)。LOGISTIC过程可以通过选择不同

的连接函数来扩大拟合的二值响应模型的范围。这一类模型的形式是:

g(π)=α+β’x

在有序响应模型中,响应Y代表一个个体或者一个实验单元,它的取值被限制在k+1(k ≥1,k通常比较小)个有序值的范围内,为方便起见,记为1,……,k,k+1。例如,冠状动脉硬化的发病程度可以分为三个响应水平,分别是1=无病,2=心绞痛,3=心肌梗塞。LOGISTIC过程拟合一个普通的斜面累积模型,而不是单个个体概率的平行线回归模型。累积模型有如下的形式:

g(Pr(Y≤i|x))=αi+β’x,i=1,……,k

其中α1……,αk是k个截距参数,β是斜率参数向量。许多研究人员考虑过这个模型。Walker 和Duncan(1967)以及Cox和Snell(1989)讨论了log-odds尺度,累积logit模型通常被称作优势比模型。

在名义变量logistic模型中,k+1个可能的响应变量没有自然的顺序,logit模型也可以被扩展为一个更广泛的logit模型。

LOGISTIC过程用最大似然法对二值或有序响应数据拟合一个线性logistic回归模型。也可以对二值响应数据进行条件logistic回归对二值和名义变量数据进行精确条件logistic回归。最大似然估计可以用Fisher-scoring方法或Newton-Raphson方法得到。用户可以制定参数估计的起始值,也可以用probit函数或者双对数函数或者总的logit函数代替logit作logistic回归模型的连接函数。

LOGISTIC过程可以指定分类变量(或者被称为分组变量)或者连续型变量作为自变量。用户也可以指定更复杂的模型项,比如说跟GLM过程一样的交互项或者嵌套项。在模型中任何被指定的项被看做是效应,不管是不是连续变量,一个分类变量,一个交互项或者是一个嵌套项。

LOGISTIC过程可以进行全等级的参数估计或者一个较少等级的参数估计。一个全等级的参数估计提供7种编码方法:效应、资料、有序的、多值名义的、正交的。表示的效应是跟在CATMOD过程中使用的同样的方法。较少等级的参数估计方法跟GLM过程中用的是一样的。

LOGISTIC过程提供了四种变量筛选方法:向前选择法、向后剔除法、逐步选择法和最优子集法。最优子集选择基于似然得分统计量。这种方法分别对包含一个、两个、三个变量等等,直至包含有说明变量的模型,输出指定个数的最佳模型。

LOGISTIC模型利用多种建模的策略比如向前选择法、向后剔除法或者逐步选择法来剔除或者考虑变量的影响。当没有交互项时,主效应就可以进入或者从模型中剔除,这是在基于P值或者Wald统计量的一个过程中实现的。当有交互项时,选择过程也取决于是否想保留模型等级。这些额外的选项可以使你清楚模型等级是否可以被保留、模型等级是怎样被应用的以及单独的变量和多变量是否可以在一个过程中被剔除。

优势比的估计将同参数的估计一同输出。用户也可以根据不同的需要改变优势比估计中的自变量。回归系数和优势比的置信区间估计基于轮廓似然函数(profile likelihood function)或者参数估计的非对称正则性。

系统提供了各种方法用来修正过于分散性,其中包括适应于分组二值响应数据的Williams方法。拟合模型的充分性可以用各种拟合优度检验来评估,其中包括适应于二值响应数据的Hosmer-Lemeshow检验。

像SAS/STAT软件中的许多过程一样,LOGISTIC过程能够指定分组变量,LOGISTIC过程提供了关于模型参数的用户假设检验的比较论述。这个比较论述也提供了对每行的估计,这对于分类变量的各个水平的优势比的获得是十分有用的。

通过指定STRATA语句,可以对二值变量进行条件logistic回归。可以进行配对和病例

对照分析。事件和非事件的数目会随着分层的不同而发生变化。许多非条件logistic分析的许多特征在条件logistic回归分析中也是可以利用的。

LOGISTIC过程可以利用Hirji,Mehta,Patel(1987)和Mehta,Patel,以及Senchaudhuri (1992)方法,通过指定一个或更多的EXACT语句,进行精确条件logistic回归分析。用户可以进行单个参数的检验或者进行好几个参数的同时检验。这个过程进行两个精确检验:精确的条件得分检验和精确的条件概率检验。用户可以进行特定参数的精确估计和相应的优势比估计。点估计和区间估计都可以实现。

LOGISTIC过程的更多的特征还有:

z控制响应水平的次序;

z输出拟合模型的广义R2度量;

z根据预测响应概率对二值响应观测重新分类;

z对回归参数进行线性假设的检验;

z创建一个数据集对每个拟合模型给出一个接收操作特性曲线;

z创建一个数据集包含估计响应概率、残差和影响诊断;

z用先前拟合的模型给一个数据集打分。

LOGISTIC过程现在可以实现实验画图。

49.3.19 MDS过程

多维标度是一种方法,它用测量到的对象的两两间的距离来估计这组对象在给定维数空间中的坐标。各种模型都可以使用,包括计算距离的不同方法以及与实际数据有关的各种距离函数。MDS过程拟合二到三因子度量和非度量的多维标度模型。PROC MDS过程有许多与ALSCAL过程(Young,Lewyckyj和Takane1986;Young1982)一样的特点也与MLSCALE过程有一些共同的特点(Ramsay1986)。PROC、ALSCAL和PROC MLSCALE过程在SUGI Supplemental Library User’s Guide第五版中被描述了。

用于MDS过程的数据由对象或者刺激物之间的相似性或者不相似性的一个或者几个对称或者非对称方阵组成。这样的数据也被称为是邻近数据。在心理测验学的应用中,每一个矩阵典型地对应于一个对象,而对每个受试对象拟合不同参数的模型叫做个体差异模型。 该过程允许有缺失值。尤其是,如果除去某些非对角的长方形,其他数据都是缺失的情况下,这种分析叫做开拓。然而开拓模型有许多本质上的困难。PROC MDS过程并不进行额外的开拓,如果需要进行额外的开拓,就使用TRANSRTG过程代替。

MDS过程通过非线性最小二乘法来估计下列参数:

相对位置 每个对象的一维或者多维欧氏空间或者加权欧氏空间中的坐标。

维系数 对每个数据矩阵,通过乘共同的或者是分组的加权欧氏空间的每个坐标的系数可得到单个未加权的欧氏空间。这些系数是对象权数的平方根。

维系数的图形可直接显示,显示了分组空间中的一个单位正方形如何转

换成单个空间中的矩形。对象权数的图形不能这样简单地解释。加权

Euclidean模型跟INDSCAL模型(Carroll和Chang1970)是相互联系的。 变换参数 这是与数据有关的距离再线性变换、仿射变换或幂变换中的截距、斜率或指数。对于非度量分析,通常使用不包含明确参数的单调变换。关于

度量和非度量参数变换的讨论可以参考Kruskal和Wish(1978,76-78)。 根据选型LEVEL=的情况,PROC MDS可以拟合下面的回归模型的形式:

fit(datum)=fit(trans(distance))+error

或者是下面形式的测量模型:

fit(trans(datum))=fit(distance)+error

其中:fit 由选型FIT=规定的预定的对数变换。

trans 由选型LEVEL=规定的一种估计(“最优的”)线性变换、仿射变换、幂变换或者单调变换。

datum 是两个对象或刺激物之间的相似性或者不相似性的度量。

distance 是从两个对象估计的坐标及在一维或者多维空间中估计的维系数计算出来的距离。如果没有维系数(COEF=IDENTITY),这就是未加权的欧氏

距离。如果使用了维系数(COEF=DIAGONAL),就是一个加权的欧氏距离,

其中权数是维系数的平方;或者,你可以用每个维数乘其系数并计算出

未加权的欧氏距离。

error 是一个假定有近似正态分布的误差项,且所有数据是独立同分布的。在这种假定下,最小二乘法在统计上是合理的。

49.3.20 MI过程

MI过程进行缺失数据的多重填补研究。缺失的数据在大量的统计分析中是一件重要的事情。许多SAS统计分析过程排除了分析过程中含有缺失值的观测。这些观测被称为不完整的观测。当只分析完整的案例时,分析是比较简单的,但是在不完整的案例中的信息却缺失了。这种方法忽视了完整病例和不完整病例之间的可能的系统误差,并且结果也可能不适合所有案例的总体,尤其是用小数目的完整案例做出来的结果。

一些SAS过程利用分析中的所有能得到的案例,也就是说,含有有用信息的案例。例如,在CORR过程中利用所有案例中某个变量的没有缺失的值来对这个变量进行估计,忽视其他变量的可能的缺失值。PROC CORR过程也利用所有病例中一组变量的没有缺失的值来估计相关性。这种方法跟只利用完整病例相比可能会充分利用可以得到的数据,但是得到的相关矩阵也可能不会太明确。

另一个处理缺失数据的策略是单一地填补,取代每一个缺失值。对于完整数据分析的标准统计过程在补充全的数据集中是可以应用的。例如,每个缺失值利用完整病例的变量平均值可以补充上。这种方法将缺失的数据看作是完整数据分析中已经知道的。然而,单纯填补并不能反映出不知道的缺失值的预测的不确定性,并且最终估计的参数方差也会有偏向(Rubin1987,p.13)。而不是填充每一个缺失值,多重填补(Rubin1976;1987)将每一个缺失值用代表该值的不确定性的一系列看起来合理的值来代替。多重填补数据集然后就通过利用完整数据集的标准过程来对数据集进行填补并且将分析得到的结果进行整合。不管利用哪种完整数据的分析方法,最后从不同数据集中整合结果的过程本质上是一样的。

多重填补并不是通过模仿数据来试图估计每一个缺失值。相反,这种方法是从它的分布中抽取一个缺失数据的随机样本。这个过程会得到有效的统计资料,这些结果比较合适地反映由于缺失值而造成的不确定性;例如,正确概率分布的置信区间。

多重填补资料包括三个明确的阶段:

1、缺失的数据经过m次补充得到了m个完整的数据集。

2、这m个完整的数据集利用标准统计分析过程进行分析。

3、从这m个完整的数据集中得到的结果被整合从而产生推理性的结论。

MI过程为不完整的多重变异数据创建了多重填补数据集。该过程利用整合关于m 填补的合理有效性方法。选择的方法取决于缺失数据的类型。

对于单调缺失模式的数据集来说,要么是参数方法假定多元变量符合正态性,要么是非参数方法是合适的。参数方法是可以利用的,包括回归方法(Rubin1987,pp.166-167)和预测均值匹配方法(Heitjan和Little1991;Schenker和Taylor1996)。非参数方法是自然的得分方法(Rubin1987,pp.124,158;Lavori,Dawson和Shera1995)。

对于那种比较独有的缺失数据类型来说,Markov Chain Monte Carlo(MCMC)方法(Schafer1997)假定多元正态性被用来补充所有的缺失值或者足够的缺失值来补充拥有单

SASreport过程介绍

PROC REPORT基础一、PROC REPORT格式: PROC REPORT data= SAS-data-set options ; COLUMNS variable_1 …. variable_n; DEFINE variable_1; DEFINE variable_2; . . . DEFINE variable_n; COMPUTE blocks BREAK … ; RBREAK … ; RUN; COLUMNS:指定输出到报表的列 DEFINE:上述列的格式等 COMPUTE:计算模块 BREAK / RBREAK:生成合计,或报表其它类型的格式。 PROC REPORT的选项Options有很多,下面介绍几个常用的:DATA= 指定做报表的数据集 PROMPT= PROMPT模式 NOWINDOWS= 不输出到结果 REPORT = 指定一个存储的报表来生成新报表 OUTREPT= 指定新路径来存放报表 OUT= 建立新数据集 HEADLINE 在报表变量标题和内容间生成一个水平分隔线HEADSKIP 在报表变量标题和内容间生成一行空格 2 先生成一个基本的报表 先生成数据: data mnthly_sales; length zip $ 5 cty $ 8 var $ 10; input zip $ cty $ var $ sales; label zip="Zip Code" cty="County" var="Variety" sales="Monthly Sales"; datalines; 52423 Scott Merlot 186. 52423 Scott Chardonnay 156.61 52423 Scott Zinfandel 35.5 52423 Scott Merlot 55.3 52388 Scott Merlot 122.89

SAS proc mixed 过程步介绍

Introduction to PROC MIXED Table of Contents 1.Short description of methods of estimation used in PROC MIXED 2.Description of the syntax of PROC MIXED 3.References 4. Examples and comparisons of results from MIXED and GLM - balanced data: fixed effect model and mixed effect model, - unbalanced data, mixed effect model 1. Short description of methods of estimation used in PROC MIXED. The SAS procedures GLM and MIXED can be used to fit linear models. Proc GLM was designed to fit fixed effect models and later amended to fit some random effect models by including RANDOM statement with TEST option. The REPEATED statement in PROC GLM allows to estimate and test repeated measures models with an arbitrary correlation structure for repeated observations. The PROC MIXED was specifically designed to fit mixed effect models. It can model random and mixed effect data, repeated measures, spacial data, data with heterogeneous variances and autocorrelated observations.The MIXED procedure is more general than GLM in the sense that it gives a user more flexibility in specifying the correlation structures, particularly useful in repeated measures and random effect models. It has to be emphasized, however, that the PROC MIXED is not an extended, more general version of GLM. They are based on different statistical principles; GLM and MIXED use different estimation methods. GLM uses the ordinary least squares (OLS) estimation, that is, parameter estimates are such values of the parameters of the model that minimize the squared difference between observed and predicted values of the dependent variable. That approach leads to the familiar analysis of variance table in which the variability in the dependent variable (the total sum of squares) is divided into variabilities due to different sources (sum of squares for effects in the model). PROC MIXED does not produce an analysis of variance table, because it uses estimation methods based on different principles. PROC MIXED has three options for the method of estimation. They are: ML (Maximum Likelihood), REML (Restricted or Residual maximum likelihood, which is the default method) and MIVQUE0 (Minimum Variance Quadratic Unbiased Estimation). ML and REML are based on a maximum likelihood estimation approach. They require the assumption that the distribution of the dependent variable (error term and the random effects) is normal. ML is just the regular maximum likelihood method,that is, the parameter estimates that it produces are such values of the model parameters that maximize the likelihood function. REML method is a variant of maximum likelihood estimation; REML estimators are obtained not from maximizing the whole likelihood function, but only that part that is invariant to the fixed effects part of the linear model. In other words, if y = X b + Zu + e, where X b is the

SAS中的描述性统计过程

SAS中的描述性统计过程 (2012-08-01 18:07:01) 转载▼ 分类:数据分析挖掘 标签: 杂谈 SAS中的描述性统计过程 描述性统计指标的计算可以用四个不同的过程来实现,它们分别是means过程、summary 过程、univariate过程以及tabulate过程。它们在功能范围和具体的操作方法上存在一定的差别,下面我们大概了解一下它们的异同点。 相同点:他们均可计算出均数、标准差、方差、标准误、总和、加权值的总和、最大值、最小值、全距、校正的和未校正的离差平方和、变异系数、样本分布位置的t检验统计量、遗漏数据和有效数据个数等,均可应用by语句将样本分割为若干个更小的样本,以便分别进行分析。 不同点: (1)means过程、summary过程、univariate过程可以计算样本的偏度(skewness)和峰度(kurtosis),而tabulate过程不计算这些统计量; (2)univariate过程可以计算出样本的众数(mode),其它三个过程不计算众数; (3)summary过程执行后不会自动给出分析的结果,须引用output语句和print过程来显示分析结果,而其它三个过程则会自动显示分析的结果; (4)univariate过程具有统计制图的功能,其它三个过程则没有; (5)tabulate过程不产生输出资料文件(存储各种输出数据的文件),其它三个均产生输出资料文件。 统计制图的过程均可以实现对样本分布特征的图形表示,一般情况下可以使用的有chart过程、plot过程、gchart过程和gplot过程。大家有没有发现前两个和后两个只有一个字母‘g’(代表graph)的差别,其实它们之间(只差一个字母g的过程之间)的统计描述功能是相同的,区别仅在于绘制出的图形的复杂和美观程度。 chart过程和plot过程绘制的图形类似于我们用文本字符堆积起来的图形,只能概括地反映出资料分布的大体形状,实际上这两个过程绘制的图形并不能称之为图形,因为他根本就没有涉及一般意义上图形的任何一种元素(如颜色、分辨率等)。而gchart过程和gplot过程给出的是真正意义上的图形,可以用很多的语句和选项来控制图形的各方面的性质和特征。 chart和gchart与plot和gplot的区别则体现在不同的作图功能,前两个过程可以绘制出的图形主要有条形图(包括横条和竖条)、圆图、环形图和星形图等,后两个过程通常用一个记录中的两个变量值表示点的坐标来绘制图形,如散点图和线图等。 描述性统计过程的一般格式 1. means过程的一般格式

统计实验与SAS上机简易过程步

数据统计分析一般可遵循以下思路: (1)先确定研究目的,根据研究目的选择方法。不同研究目的采用的统计方法不同,常见的研究目的主要有三类:①差异性研究,即比较组间均数、率等的差异,可用的方法有t检验、方差分析、χ2检验、非参数检验等。②相关性分析,即分析两个或多个变量之间的关系,可用的方法有相关分析。③影响性分析,即分析某一结局发生的影响因素,可用的方法有线性回归、logistic回归、Cox 回归等。 (2)明确数据类型,根据数据类型进一步确定方法:①定量资料可用的方法有t检验、方差分析、非参数检验、线性相关、线性回归等。②分类资料可用的方法有χ2检验、对数线性模型、logistic回归等。下图简要列出了不同研究目的、不同数据类型常用的统计分析方法。 (3)选定统计方法后,需要利用统计软件具体实现统计分析过程。SAS中,不同的统计方法对应不同的命令,只要方法选定,便可通过对应的命令辅之以相应的选项实现统计结果的输出。 (4)统计结果的输出并非数据分析的完成。一般统计软件都会输出很多结果,需要从中选择自己需要的部分,并做出统计学结论。但统计学结论不同于专业结论,最终还需要结合实际做出合理的专业结论。 第一部分:统计描述

1.定量资料的统计描述指标及SAS实现; (1)数据分布检验:PROC UNIVARIATE ①基本格式: ②语句格式示例: 1.PROC UNIVARIATE normal;/*normal选项表示进行正态性检验*/ 2.CLASS group;/*指定group为分组变量*/ 3.VAR weight;/*指定分析变量为weight*/ 4.RUN; ③结果:正态性检验(tests for normality)结果,常用的是Shapiro-Wilk 检验和Kolmogorov-Smirnov检验。当例数小于2000时,采用Shapiro-Wilk检验W值为标准;当例数大于2000时,SAS中不显示Shapiro-Wilk检验结果,采用Kolmogorov-Smirnov检验D值为判断标准。正态性检验的P≤0.05提示不服从正态分布,P>0.05提示服从正态分布。 注:若服从正态分布,进行PROC MEANS过程步;若不服从则计算百分位数,转(3) (2)数据描述(符合正态分布的数据):PROC MEANS ①基本格式: 关键字(可以无视):不写任何关键字时默认输出n,mean,std,max,min; n:有效数据记录数(有效样本量) median:中位数 mean:均数 qrange:四分位数间距 std:标准差 var:方差 clm:95%可信区间 max、min:最大、最小值 ②语句格式示例: 1.PROC MEANS n mean std median qrange clm;/*关调用proc means过程, 要求输出的指标有例数、均值、标准差、中位数、四分位数间距、95% 可信区间*/ 2.CLASS group;/*指定group为分组变量*/ 3.VAR weight;/*指定分析变量为weight*/ 4.Run; ③结果以“均数±标准差”表示 (3)偏正态分布的统计描述: ①基本思想:计算中位数和百分位数,并且用“中位数(Q1~Q3)”表示 ②语句格式示例: 1.proc univariate data=aa; 2.var x; 3.output out=c pctlpre=P pctlpts=0 to 100 by 2.5;/*计算0到100

SAS入门教程

第一章SAS系统概况 SAS(Statistic Analysis System)系统是世界领先的信息系统,它由最初的用于统计分析经不断发展和完善而成为大型集成应用软件系统;具有完备的数据存取、管理、分析和显示功能。在数据处理和统计分析领域,SAS系统被誉为国际上的标准软件系统。 SAS系统是一个模块化的集成软件系统。SAS系统提供的二十多个模块(产品)可完成各方面的实际问题,功能非常齐全,用户根据需要可灵活的选择使用。 ●Base SAS Base SAS软件是SAS系统的核心。主要功能是数据管理和数据加工处理,并有报表生成和描述统计的功能。Base SAS软件可以单独使用,也可以同其他软件产品一起组成一个用户化的SAS系统。 ●SAS/AF 这是一个应用开发工具。利用SAS/AF的屏幕设计能力及SCL语言的处理能力可快速开发各种功能强大的应用系统。SAS/AF采用先进的OOP(面向对象编程)的技术,是用户可方便快速的实现各类具有图形用户界面(GUI)的应用系统。 ●SAS/EIS 该软件是SAS系统种采用OOP(面向对象编程)技术的又一个开发工具。该产品也称为行政信息系统或每个人的信息系统。利用该软件可以创建多维数据库(MDDB),并能生成多维报表和图形。 ●SAS/INTRNET ●SAS/ACCESS 该软件是对目前许多流行数据库的接口组成的接口集,它提供的与外部数据库的接口是透明和动态的。 第二章Base SAS软件 第一节SAS编程基础 SAS语言的编程规则与其它过程语言基本相同。 SAS语句 一个SAS语句是有SAS关键词、SAS名字、特殊字符和运算符组成的字符串,并以分号(;)结尾。 注释语句的形式为:/*注释内容*/ 或*注释内容。 二、SAS程序 一序列SAS语句组成一个SAS程序。SAS程序中的语句可分为两类步骤:DA TA步和

实验五__回归分析SAS过程(2)共23页

实验五 回归分析SAS 过程(2) 实验目的: 1.会对实际问题建立有效的多元回归模型,能对回归模型进行残差分析; 2.掌握SAS 输出结果用于判别回归方程优良性的不同统计量,能对回归模型进行运用,对实际问题进行预测或控制. 实验要求:编写程序,结果分析. 实验内容: 1.误差的正态性检验有几种方法,何时认为误差项服从正态分布? 答:1.学生化残差 2.残差正态性的频率检验 3.残差的正态QQ 图检验 判断 若散点),()()(i i r q ),,2,1(n i 大致在一条直线上 相关系数:1)()() )((1 )(12)(1)()( n i i n i i i i i q q r r q q r r 认为i r ),,2,1(n i 来自正态分布,接受误差正态性检验. 2.回归方程的选取的穷举法中,评价回归方程优良性的准则有哪些?根据 准则何 时方程最优? 答:1)修正的复相关系数准则或均方残差准则()(2p R a 或p MSE 准则) 2)p C 准则 3)预测平方和准则(p PRESS 准则) 拟合所有可能的121 M 个回归方程,画出p C 图:),(p C p ,在p C 图中选取最接近参考直线p C p 的点所对应的回归方程为最优方程.

3.简述逐步回归方法的思想和步骤. 基本思想:逐个引入自变量建立回归方程,每次引入对Y影响最显著的自变量, 并对方程中旧变量逐个进行检验,把变为不显著的变量逐个从方程中剔除掉,最终得到的方程中,既不漏掉对Y显著影响的变量,又不包含对Y 影响不显著的变量. 添加或删除某个自变量的准则是用残差平方和的相对减少或增加来衡量. 步骤:(1)修正的复相关系数准则、 C准则选择模型 p (2)预测平方和准则选择PRESSp最优回归方程 (3)最优模型的拟合检验 4.做2.6 2.8(选作) 2.9 注意:可以选课外综合题目。 2.6 程序: data examp2_6; input x1 x2 y; cards; 8.3 70 10.3 8.6 65 10.3 8.8 63 10.2 10.5 72 16.4 10.7 81 18.8 10.8 83 19.7 11.0 66 15.6

第4章 SAS过程步与过程步语句

第4章SAS过程步与过程步语句 摘要:本章讲授过程步一般形式,SAS过程步产用常用语句,程序设计中通用的SAS语句,学习过程步常用有关语句功能及其用法。为后面统计分析过程的调用作好准备。 SAS过程步用来调用系统提供的标准常用过程或统计分析过程,对指定的SAS 数据集进行处理,并将分析结果显示输出到OUTPUT窗口。一个过程步是一个功能程序模块,调用不同的过程可实现用不同方法对数据进行分析。 §4.1 SAS过程步的一般形式 通常,SAS过程步的一般形式为: PROC 过程名选择项; [其他相关过程步语句;] RUN; 说明: 1.ROC表示一个过程的开始;“过程名”可以是后面各章节将要介绍的常用过程名或统计过程名。不同的过程有不同的专用SAS名,而且各有 一些可供选择的选择项(参数),对于同一过程,给定不同的参数,输 出不同的计算结果和不同表格形式。 2.选项:选择项一般以关键字为核心构成,常用下面三种形式: ①关键字在过程中,一个关键字代表该过程的某一特性,若关键字作为选项出现,则过程处理数据或输出结果时,这一特性予以考虑。否则,忽略这一特性。 ②关键字=值过程的某一特性可取不同的值,则指定该特性的书写格式为: 特性关键字=特性值(数字或字符串)。 ③关键字=SAS数据集有些过程需要特定的输入数据集,有些过程可以建立一些特殊的数据集。过程指定特别输入输出数据集的选项书写格式为: 关键字=数据集名 该形式规定输入或输出的数据集,最常用的是DATA=数据集,指出本过程要处理的数据集名称,若缺省,则使用最新建立的数据集。如“PROC PRINT DATA=new;”。 3.其他相关过程步语句:有VAR、ID、BY、CLASS、WEIGHT等过程步语句,将在下一节中讲述。 4.RUN的作用是通知系统开始执行本过程程序段,当一个程序文件中有几个过程时,它们可共用一个RUN语句。

第四章 过程步与过程步语句

第四章过程步与过程步语句 SAS过程步是调用系统提供的标准常用过程或统计分析过程,对指定的在数据步建立的数据集进行处理,并将分析处理的结果显示于输出窗口和图形窗口。关于常用过程和统计分析过程将在第五章以后的章节中介绍。本章给出SAS过程的一般格式及过程步中常用的语句。 §4.1 SAS过程步的一般形式 通常,一个SAS过程步具有如下形式: PROC 过程名选项; [其它相关过程步语句] RUN; 其中,PROC(PROCedure)是一个SAS关键字,PROC表明一个过程步的开始;“过程名”可以是第五章及以后章节中将要介绍的常用过程名或统计过程名。不同的过程有不同的专用SAS名。本书以前的例子中出现的“PROC PRINT;”中的PRINT 一词就是SAS的一个常用标准过程,它的功能是将数据集显示于输出窗口。在各种标准过程中,要进行复杂的计算且依计算方法的不同而要求不同的参数。另一方面,对于同一标准过程,给定不同的参数,输出不同的计算结果和不同的表格形式。每一个标准过程都有各自的一些可供选择的选项,选项的一般形式有如下三种: (1) 在过程里,一个关键字代表该过程的某一特性,若关键字作为选项出现,则过程处理数据或输出结果时,这一特性给予考虑,否则忽略该特性。 (2) 过程的某一特性可取不同的值,则指定该特性的书写格式为: 特性关键字=特性指定值。 (3) 有些过程需要特定的输入数据集,有些过程也可以建立一些特殊的数据集。过程指定特别输入输出数据集的选项书写格式为: 关键字=数据集名。 具体到一个过程可以有哪些选项,这将在讲具体过程时才能介绍。“其它相关过程步语句”是指下一节将要介绍的一些语句,包括:VAR,ID,BY,CLASS,FREQ , WEIGHT ,MODEL 等过程语句。语句“RUN;”的作用是通知系统开始执行本过程步程序段。当一份程序中有几个过程时,这几个过程可以共用一个RUN语句。 例4.1以下程序段是一个过程步,其功能是将当前数据集输出到输出窗口: PROC PRINT; RUN; §4.2 常用过程步语句 本节介绍的语句是为某些过程进一步提供数据处理信息的。对一个特定的语句,可能有些过程需要它,而在有些过程中不能出现。在有关过程的章节中将指明这些问题。 4.2.1 VAR语句 格式: VAR 变量表; 其中,VAR是关键字;变量表是用空格分隔的输入数据集中的一些变量名,这里的输入数据集是指将要被指定过程处理的数据集。出现在变量表中的数据集变量将参与过程的数据

SAS典型判别过程

典型判别分析 SAS/STAT/Candisc 过程 典型判别分析的思路从几何的概念来说,是将高维空间的样本点投影到低维空间,利用低维空间的变量做判别分析,从而使分析更加直观,即对原始数据进行坐标变换,寻求能使总体尽可能分开的方向。 从代数的概念来说,就是根据一个分类变量和几个定量变量,通过典型判别过程得出典型变量,典型变量是定量变量的线性组合。典型判别分析得出与组有最大可能多重相关的变量的线性组合,最大的多重相关叫做第一典型相关,其线性组合称为第一典型变量1u ,线性组合的相关系数称为典型系数,次大的叫做第二典型相关,其线性组合称为第二典型变量2u 。 Candisc 过程可使用的语句为: 数据集选项: DATA=SAS-data-set (SAS 数据集):指定欲分析的数据集。 OUT=SAS-data-set (SAS 数据集):生成一个包含原始数据和典型变量得分的数据集。 OUTSTAT=SAS-data-set (SAS 数据集):生成一个type=corr 包含各种统计量的输出数据集。 典型变量选项: NCAN=n :指定将被计算的典型变量的个数。n 的值必须小于或等于变量的个数。 u 能使总体单位

打印选项: BCORR:类间相关系数。 PCORR:合并类内相关系数。 TCORR全样本相关系数。 WCORR每一类水平的类内相关系数。 BCOV:类间协方差。 PCOV:合并类内协方差。 TCOV:全样本协方差。 WCOV:每一类水平的类内协方差。 BSSCP:类间SSCP矩阵。 PSSCP:合并类内修正SSCP矩阵。 TSSCP:全样本修正SSCP矩阵。 WSSCP:每一类水平的类内修正SSCP矩阵。 ANOVA:检验总体中每一个变量类均值相等的假设的单变量统计量。 SIMPLE:全样本合类内的简单描述性统计量。 ALL:产生以上所有的打印选项。 NOPRINT:不打印。 一般语句 By variables; By语句与Proc candisc一起使用可以对由BY变量分组的观测进行独立分析。 Class variable; Class变量的值定义分析的组,类水平由有格式的Class变量的值确定。Class变量可以是数字变量也可以是字符变量。 Var variables; Var语句指定分析中包括的定量变量。如果省略Var语句,分析包括未在其他语句中列出的全部变量。 程序示例:该例是Fisher的Iris数据进行典型判别分析。数据从三种刚毛弋尾花品种各采集了50各样本。测量其萼片长度、萼片宽度、花瓣长度和花瓣宽度。做典型判别分析并观察第一和第二个典型变量的散点图,是否与原始数据的结果相符。 data iris; input sepallen sepalwid petallen petalwid species @@; label sepallen='Sepal Length in mm.' sepalwid='Sepal Width in mm.' petallen='Petal Length in mm.' petalwid='Petal Width in mm.'; cards; 数据行; proc candisc data=iris ncan=2 out=outcan distance anova; class species; var sepallen sepalwid petallen petalwid; proc print data=outcan; run; proc plot; plot can2*can1=species;run;

SAS程序及函数详解

第一章 SAS编程操作预备知识 一、SAS系统简介 SAS是一个庞大的系统,它目前的版本可以在多种操作系统中运行。当前在国内被广泛使用的最新版本是8.2版,功能很强大,我深有体会。 据说9.0版已在国外面世,已经有一些有关它的抢先报道在网络上广为流传,说它如何如何美妙,令人不禁充满期待。 SAS8.2的完整版本包含以下数十个模块。 BASE,GRAPH,ETS,FSP,AF,OR,IML,SHARE,QC,STAT,INSIGHT,ANALYST,ASSIST, CONNECT,CPE,LAB,EIS,WAREHOUSE,PC File Formats,GIS,SPECTRAVIEW,SHARE*NET, R/3,OnlineTutor: SAS Programming,MDDB Server,IT Service Vision Client, IntrNet Compute Services,Enterprise Reporter,MDDB Server common products,Enterprise Miner,AppDev Studio,Integration Technologies 等。 所谓模块,我的理解是将功能相近的程序、代码等集中起来组成相对独立的部分,就称之为模块,类似于办公软件系统office中包含的word、excel、access 等。各模块具有相对独立的功能范围,我们常用的模块有base,graph,stat,insight,assist,analyst模块等,分别执行基本数据处理、绘图、统计分析、数据探索、可视化数据处理等功能。其余模块我用得很少,知道得也很少,所以也就不多说了。 SAS系统的长处,体现于它的编程操作功能的无比强大。SAS一直以来也是注重于其编程语言的发展,对于可视化方式的菜单操作投入较少,其较早的版本仅有很少的菜单操作功能,使用起来也是非常的别扭。这很可能就是在windows 人机交互式操作系统占统治地位的今天,SAS较少被人问津的原因之一。 到了最新的几个版本,SAS也对可视化操作方法投入了一定的关注。从8.0版以后,出现了几个功能强大的可视化操作的模块,如insight模块和analyst 模块等,其菜单操作的方便程度以及人机界面的亲和性绝不亚于SPSS等著名的可视化统计分析软件。 然而要想完全发挥SAS系统强大的功能,充分利用其提供的丰富资源,掌握SAS的编程操作是必要的,也只有这样才能体现出SAS在各个方面的杰出才能。

sas第八章描述性统计过程

sas第八章描述性统计过程

————————————————————————————————作者:————————————————————————————————日期:

第八章描述性统计过程 以下过程都可用于计算基本统计量,如频数、均值等,但它们又各有特色: UNIVARIATE 进行单变量统计,包括分位数及描绘分布图。 SUMMMARY 按观测值分组计算基本单变量统计值。分组是由 CLASS语句中的变量所决定。统计结果可输出到SAS 数据集中而不产生打印输出。 MEANS 计算均值及其他描述统计量。 TABULATE 打印基本统计的复杂表格。 CORR 求变量间相关系数。 进行基本统计的其他过程还包括: CHART 画频数、均值、总和的条形图、立体直方图、饼图 及星图。 FREQ 对分类变量计算频数分布,并作多维列联表。 SAS基本统计过程及其一些重要统计量 统计量MEANS UNIVARIATE SUMMARY TABULATE CORR 非缺项值数(N) √√√√ 缺项值数(NMISS) √√√√√权重和(SUMWEIGH_T) √√√√ 均值(MEAN) √√√√√和(SUM) √√√√√最小值(MIN) √√√√√最大值(MAX) √√√√√全距(RANGE) √√√√ 未修正平方和(USS) √√√√ 修正平方和(CSS) √√√√ 方差(VAR) √√√√ 标准差(STD) √√√√√变异系数(CV) √√√√ 偏度(SKEWNESS) √√ 峰度(KURTOSIS) √√ T统计量值(t) √√√√ 大于t值的概率(PRT) √√√√ 中位数(MEDIAN) √ 四分位数(QUARTILE) √ 众数(MODE) √ 输出到SAS数据集Yes Yes Yes No Yes CLASS语句Yes No Yes Yes No BY语句Yes Yes Yes Yes Yes

SAS过程步及常用语句

SAS过程步简介 SAS过程步的一般形式为: PROC 过程名 [ DATA=输入数据集] [选项];过程语句1 [/ 选项 ];过程语句2 [/ 选项];……RUN; 1.VAR语句 VAR语句在过程步中用于指定分析变量。 VAR语句的语法格式为: VAR 变量名1 变量名2 … 变量名n; 变量名列表可以使用省略的形式,如x1-x3 等。 应用实例: var math chinese; 2.MODEL语句 MODEL语句在统计建模过程中用来指定模型的形式。语法格式为:MODEL 因变量 = 自变量列表 / 选项; 应用实例: model y=x1 x2 x3 ; 3.BY语句 BY语句在过程步中用来指定一个或几个分组变量,根据这些分组变量值可以把观测记录分组,然后对每一组观测分别进行指定的分析。在使用带有BY语句的过程步之前,应先用SORT过程按BY语句指定的变量对数据集排序。例如,假设我们已经把class1数据集按性别排序,则下面PRINT 过程可以把男、女生分别列出: proc print data=class1 ; by sex;run; 4.OUTPUT语句 过程步中经常用OUTPUT语句指定输出结果存放的数据集。不同过程中把输出结果存入数据集的方法各有不同,OUTPUT语句是使用频繁的语句之一。其语法格式为: OUTPUT OUT=输出数据集名关键字=变量名关键字=变量名…; 其中用OUT=给出了存放结果数据集的名字,关键字用于定义输出变量名,用“关键字=变量名”的方式指定了系统自动输出变量与存储变量之间的 对应关系。等号后面的变量名指定了输出数据集中的存储变量名称。例如:proc means data=data_prg.class1; var math; output out=result02 n=n mean=meanmath var=varmath;run;proc print data=result02; run;

sas简单操作步骤

SAS数据分析完整笔记 1. SAS INSIGHT启动: 方法1:Solution→Analysis→Interactive Date Analysis 方法2:在命令栏内输入insight 方法3:程序编辑窗口输入以下代码,然后单击 Submit按钮; Proc insight; Run; 1.1 一维数据分析 用 sas insight做直方图、盒形图、马赛克图。 直方图:Analysis→Histogram/Bar Chart 盒形图:Analysis→Box plot 马赛克图:Analysis→Box plot/Mosaic plot(Y) 1.2 二维数据分析 散点图:Analysis→Scattery plot(Y X) 曲线图:Analysis→Line plot( Y X) 1.3 三维数据分析 旋转图:Analysis→Rotationg Plot 曲面图:Analysis→Rotationg Plot设置 Fit Surface 等高线图:Analysis→Countor plot 1.4 分布分析 包括:直方图、盒形图、各阶矩、分位数表,直方图拟合密度曲线,对特定分布进行检验。 1.4. 1 Analysis→Distribution(Y) 第一部分为盒形图,第二部分为直方图,第三部分为各阶矩,第四部分为分位数表。

1.4.2 添加密度估计 A:参数估计:给出各种已知分布(正态,指数等),只需要对其中参数进行估计;Curves→Parametric Density B:核估计:对密度函数没有做假设,曲线性状完全依赖于数据; Curves→Kernel Density 1.4.3 分布检验 Curves→CDF confidence band Curves→Test for Distribution 1.5 曲线拟合 Analysis→Fit(Y X):分析两个变量之间的关系 1.6 多变量回归 Analysis→Fit(Y X) 1.7 方差分析 Analysis→Fit(Y X) 1.8 相关系数计算 Analysis→Multivariate 1.9 主成分分析 Analysis→Multivariate 2.SAS ANALYST启动: 方法1:Solution→Analysis→Analyst 方法2:在命令栏内输入analyst 2.1 分类计算统计量:Data→Summarize by group 2.2 随机抽样:Data→Random Sample 2.3 生成报表:Report→Tables

SAS过程

1、TTEST过程 1.1 概述 TTEST过程可以进行单样本、两个样本和配对观察值的假设检验。单样本假设检验进行样本均数与某一个值的比较。两样本检验比较两个样本的均数。配对观察值间的检验进行配对样本间差的均数与某一值的比较。 上述三种情况都有一个共同的假设,即观察值服从正态分布。两样本均数间的检验要求两个样本相互独立。TTEST还假设这两个样本的方差相等。同时,TTEST还给出了两样本方差不相等时的校正结果(Satterthwaite,1946)。 1.2 语法: PROC TTEST < 选择项 > ; CLASS 分类变量 ; PAIRED 配对列表 ; VAR 变量 ; 1.3 选择项 Alpha=值:指出显著水平,缺省0.05 H0=m:指定H0为m而不为0。缺省时H0=0 DATA=数据集:指出分析的数据集 1.4 CLASS语句 用于两个独立样本的分析,配对试验和一个样本的分析不应该有该语句 如果没有VAR语句,则所有不在CLASS语句后的数值变量都进行分析 1.5 PAIRED语句的例子 PAIRED语句配对比较 paired A*B A-B Paired A*B C*D A-B C-D Paired (A B)*(C D) A-C A-D B-C B-D Paired (A B)*(C B) A-C A-B B-C paired (A1-A2)*(B1-B2) A1-B1 A1-B2 A2-B1 A2-B2 paired (A1-A2):(B1-B2) A1-B1 A2-B2 1.6 VAR语句 指出分析的变量,不能与PAIRED语句配合使用 如果没有CLASS语句,则进行单个样本分析。如果有CLASS语句而没有VAR语句,则所有不在CLASS语句中的变量都进行分析 1.7 SAS例题 例1.1 单样本 母猪的怀孕期为114天,今抽测10头母猪的怀孕期分别为116、115、113、112、114、117、115、116、114、113(天),试检验所得样本的平均数与总体平均数114天有无显著差异?

相关主题
文本预览
相关文档 最新文档