当前位置:文档之家› 交叉列联表分析

交叉列联表分析

交叉列联表分析
交叉列联表分析

交叉列联表分析 ---------用于分析属性数据

1. 属性变量与属性数据分析

从变量的测量水平来看分为两类:连续变量和属性(Categorical)变量,属性变量又可分为有序的(Ordinal)和无序的变量。

对属性数据进行分析,将达到以下几方面的目的:

1) 产生汇总分类数据——列联表;2) 检验属性变量间的独立性(无关联性); 3) 计算属性变量间的关联性统计量;4) 对高维数据进行分层分析和建模。

在实际中,我们经常遇到判断两个或多个属性变量之间是否独立的问题,如:吸烟与患肺癌是否有关?色盲与性别是否有关?上网时间与学习成绩是否有关等等.解决这类问题常用到建立列联表,利用χ2

统计量作显著性检验来完成.

2.列联表(Contingency Table )

列联表是由两个以上的属性变量进行交叉分类的频数分布表。 设二维随机变量(X ,Y ),X

可能取得值为x x x r ,,,2

1 ,Y

可能取得值

为y y y s ,,,2

1 .现从总体中抽取容量为n 的样本,其中事件(X =x i Y =y j )

发生的频率为n j i (i = 1,2, …,r ,j=1,2, …,s ,)记n i ?=

∑=s j j i n 1

,n j ?=∑=r

i j i n 1

则有n =

∑∑==r i s j j i n 11

=∑=?r i i n 1

= ∑=?s

j j n 1

,将这些数据排列成如下的表:

这是一张r ×s 列联表.

3.属性变量的关联性分析

对于不同的属性变量,从列联表中可以得到它们联合分布的信息。但有时还想知道形成列联表的行和列变量间是否有某种关联性,即一个变量取不同数值时,另一个变量的分布是否有显著的不同,这就是属性变量关联性分析的内容。

属性变量关联性检验的假设为 H0:变量之间无关联性;

H1:变量之间有关联性

由于变量之间无关联性说明变量互相独立,所以原假设和备择假设可以写为:

H0:变量之间独立; H1:变量之间不独立

χ

2

检验

H 0:

X 与Y 独立.

记P (X =x i ,η=y j ) = p j

i ,i =1,2,…,r ,,j = 1,2,…,s ,

P (X =x i ) =

p

i .

, i =1,2,…,r ,P (Y =

y j ) =p j . ,j = 1,2,…,s .

由离散性随机变量相互独立的定义,则原假设等价于 H 0:p

j

i =

p i .p j . ,i =1,2,…,r ,,j = 1,2,…,s .

p

j

i

已知,我们可以建立皮尔逊χ2

统计量 χ

2

=

∑==∑

-r

i s

ij j

i j i j i p n p n n 1

1

2

)

(.

由皮尔逊定理知,χ2

的极限分布为)1(2

-rs χ

.但这里p j i 未知,因此用它

的极大似然估计

p ij ∧

代替,这时检验统计量为

χ

2

=

∑==∧

∑-r

i s

ij j

i j

i j i p

n p n n 1

1

2

)

(.

在H 0成立的条件下,

p

j

i =

p i .p j .,即等价于用p i ?和p j ?.的极大似然估计

p i ?∧

和p j ?∧

的积去代替.可以求得

p i ?∧

=

n

n i ?

, i =1,2,…,r , p j ?∧

=

n

n j

? , j = 1,2,…,s ,

p ij ∧

= n n i ?n

n j ? . i =1,2,…,r ,,j = 1,2,…,s ,

从而得到统计量

χ

2

=

∑==∧

?∧

?∧

?∧?∑-r

i s

ij j

i j

i j i p p n p p n n 1

1

2

)

(=

???

? ??-∑∑==??1112r i s ij j i j i n n n n . 在H 0成立的条件下,当n →∞时,χ2

的极限分布为

)12(2--+-

)(s r rs χ= ))1)(1((2--s r χ. 对给定的显著性水平α,当 χ

2

>))1)(1((2

1---s r χα,则拒绝H 0,否则接

受H 0.

特别,当r = s = 2 时,得到2×2列联表,常被称为四格表,是应用最广的一种列联表.这时检验统计量为

χ

2

=n n n n n n n n n

2

121211222112

)

(????-

它的极限分布为χ2

(1).

对于二维随机变量(X ,Y )是连续取值的情况,我们可采用如下方法将其离散化.

① 将X 的取值范围(-∞,+∞)分成r 个互不相交的区间,将Y 的取值范围

(-∞,+∞)分成s 个互不相交的区间,于是整个平面分成了rs 个互不相交的小矩形;

② 求出样本落入小矩形中的频数n j i i =1,2,…,r ,,j = 1,2,…,s ; ③ 建立统计量

χ2

=???

?

??-∑∑==??1112r i s ij j i j i n n n n , 在H 0成立时且n 充分大时,χ2

的极限分布为))1)(1((2

--s r χ

,拒绝域的确

定同离散型的情况. 3.属性变量的关联度计算

2χ检验的结果只能说明变量之间是否独立,如果不独立,并不能由2χ的

值说明它们之间关系的强弱,这可以由?系数来说明

?系数=???

????==++-????其它,2,2

2

12121

122211n s r n n n n n n n n χ

其中 当r=s=2即2×2列联表时-1

例1(教材p116例4.4)为了了解吸烟与患慢性气管炎的关系,对339名50岁以上的人作了调查,具体数据如下表:

利用交叉列连表分析,研究吸烟习惯与患慢性气管炎的关系。 解 检验 H 0:吸烟与患慢性气管炎无关.

已给数据构成一个四格表, n=339 ,n 11=43,

n 12=162,n 21=13,n 22=121,

n ?1=205,n 1?=13,n ?2=134 ,n 2?=121,则

χ

2

=n n n n n n n n n

2

121211222112

)

(????-=121

20513413)1316212143(3392

????-??≈7.469.

若给定α=0.05,查表得χ2

95.0(1)= 3.841 <7.469,所以拒绝 H 0,即认为吸烟习惯与患慢性气管炎有关.但?系数=0.148较小,表示相关性不是太大 利用SPSS 软件完成

练习1 数据文件“电信用户.sav ”中记录了某电信运营商经营的各种情况,比如服务类型、设备租用、无线使用等。选择其中4个变量: custcat(顾客服务)、ed (顾客受教育程度)、income (家庭收入)、ininc (电信消费),考察顾客与服务经营的情况

(1) 对变量custcat 和ed 进行频数分析;

(2) 分别考察ed 对income 的影响,custcat 对ininc 的影响 练习2 04年全国数学建模竞赛A 题 “奥运会临时超市网点设计”中第一问 根据附录中给出的问卷调查数据,找出观众在出行、用餐和购物等方面所反映的规律。

交叉表分析

进行交叉表分析时需要注意: (1)卡方检验要求各单元的期望频数均大于5或小于5的比例不能超过20%;当样本数小于40时,需要进行小样本的交叉表分析。即选择输出结果中的Fisher精确检验结果(Fisher's Exact Test) (2)若变量为定距以上的变量需要先转化为定类或定序变量 data05-02为某公司工资数据(n=15)。使用变量性别sex、收入高低earnings分析男女经理间薪金是否平等。 可以利用data05-01中的数据,使用变量occcat80为工作性质分类,region为地区,childs 为每个家庭的孩子数。将childs为行变量,occcat80为列变量,region为控制变量选入Layer of框中,进行交叉表分析。 列联表(交叉表)分析 1、项目名称 Crosstabs过程 4、实训原理 Crosstabs过程用于定类数据和定序数据进行统计描述和简单的统计推断。在分析时可以产生二维至n维列联表,并计算相应的百分数指标。 4-1 列联表分析的含义与任务 在实际分析中,当问题涉及到多个变量时,我们不仅要了解单个变量的分布特征,还要分析多个变量不同取值下的分布,掌握多变量的联合分布特征,进而分析变量之间的相互影响和关系。很明显,如果还采用单纯的频数分析方法显然不能满足要求。因此,我们需要借助交叉分组下的频数分析,即列联表分析。列联表分析的主要任务有两个: (1)根据样本数据产生二维或多维交叉列联表。交叉列联表是两个或两个以上变量交叉分组后形成的频数分布表。 (2)在交叉列联表的基础上,分析两变量之间是否具有独立性或一定的相关性。 4-2 卡方检验的原理 为了理解列联表中行变量(Row)和列变量(Column)之间的关系,我们需要借助非参数检验方法。通常采用的方法是卡方检验。和一般假设检验一样,

交叉列联分析

交叉列联表分析 在实际分析中,除了需要对单个变量的数据分布情况进行分析外,还需要掌握多个变量在不同取值情况下的数据分布情况,从而进一步深入分析变量之间的相互影响和关系,这种分析就称为交叉列联表分析。 当所观察的现象同时与两个因素有关时,如某种服装的销量受价格和居民收入的影响,某种产品的生产成本受原材料价格和产量的影响等,通过交叉列联表分析,可以较好地反映出这两个因素之间有无关联性及两个因素与所观察现象之间的相关关系。 因此,数据交叉列联表分析主要包括两个基本任务:一是根据收集的样本数据,产生二维或多维交叉列联表;二是在交叉列联表的基础上,对两个变量间是否存在相关性进行检验。要获得变量之间的相关性,仅仅靠描述性统计的数据是不够的,还需要借助一些表示变量间相关程度的统计量和一些非参数检验的方法。常用的衡量变量间相关程度的统计量是简单相关系数,但在交叉列联表分析中,由于行列变量往往不是连续变量,不符合计算简单相关系数的前提条件。因此,需要根据变量的性质选择其他的相关系数,如Kendall等级相关系数、Eta值等。SPSS提供了多种适用于不同类型数据的相关系数表达,这些相关性检验的零假设都是:行和列变量之间相互独立,不存在显著的相关关系。根据SPSS检验后得出的相伴概率(Concomitant Significance)判断是否存在相关关系。如果相伴概率小于显著性水平,那么拒绝零假设,行列变量之间彼此相关;如果相伴概率大于显著性水平,那么接受原假设,行列变量之间彼此独立。 在交叉列联表分析中,SPSS所提供的相关关系的检验方法主要有以下3种:(1)卡方(χ2)统计检验:常用于检验行列变量之间是否相关。计算公式为: ()其中,f0表示实际观察频数,f e表示期望频数。 ^ 卡方统计量服从(行数-1)′(列数-1)个自由度的卡方统计。SPSS在计算卡方统计量时,同时给出相应的相伴概率,由此判断行列变量之间是否相关。

SPSS统计分析教程列联表分析

2 列联表分析(Crosstabs) 列联表是指两个或多个分类变量各水平的频数分布表,又称频数交叉表。SPSS的Crosstabs过程,为二维或高维列联表分析提供了22种检验和相关性度量方法。其中卡方检验是分析列联表资料常用的假设检验方法。 例子:山东烟台地区病虫测报站预测一代玉米螟卵高峰期。预报发生期y为3级(1级为6月20日前,2级为6月21-25日,3级为6月25日后);预报因子5月份平均气温x1(℃)分为3级(1级为16.5℃以下,2级为16.6-17.8℃,3级为17.8℃以上),6月上旬平均气温x2(℃)分为3级(1级为20℃以下,2级为20.1-21.5℃,3级为21.5℃以上),6月上旬降雨量x3(mm)分为3级(1级为15mm以下,2级为15.1-30mm,3级为30mm以上),6月中旬降雨量x4(mm)分为3级(1级为29mm以下,2级为29.1-36mm,3级为36mm以上)。数据如下表。 山东烟台历年观测数据分级表() 注:摘自《农业病虫统计测报》 131页。 1) 输入分析数据 在数据编辑器窗口打开“”数据文件。 数据文件中变量格式如下: 2)调用分析过程 在菜单选中“Analyze-Descriptive- Crosstabs”命令,弹出列联表分析对话框,如下图 3)设置分析变量 选择行变量:将“五月气温[x1],六月上气温[x2],六月上降雨[x3],六月中降雨[x4]”

变量选入“Rows:”行变量框中。 选择列变量:将“玉米螟卵高峰发生期[y]”变量选入“Columns:”列变量框中。 4)输出条形图和频数分布表 Display clustered bar charts: 选中显示复式条形图。 Suppress table: 选中则不输出多维频数分布表。。 5)统计量输出 点击“Statistics”按钮,弹出统计分析对话框(如下图)。 Chi-Square: 卡方检验。选中可以输出皮尔森卡方检验(Pearson)、似然比卡方检验(Likelihood-ratio)、连续性校正卡方检验 (Continuity Correction)及Fisher精确概率检验(Fisher’s Exact test)的结果。 Correlations: 选中输出皮尔森(Pearson)和Spearman相关系数,用以说明行变量和列变量的相关程度。 Nominal: 两分类变量的关联度(Association)测量 Contingency Coefficient: 列联系数,其值越大关联性越强。 Phi and Cramer’s V:Cramer列联系数,其值越大关联性越强。 Lambda: 减少预测误差率,1表示预测效果最好,0表示预测效果最差。 Uncertainty Coefficient: 不定系数 Ordinal: 两有序分类变量(等级变量)的关联度测量 Gamma: 关联度,+1表示完全正关联,-1表示负关联,0表示无联。 Somers’d:列联度,其取值范围和意义同上。 Kendall’s tau-b: Nominal by Interval: 一个定性变量和一个定量变量的关联度

应用SPSS软件进行列联表分析

应用SPSS软件进行列联表分析 在许多调查研究中,所得到的数据大多为定性数据,即名义或定序尺度测量的数据。例如在一项全球教育水平的研究中,调查了400余人的个人信息,包括性别、学历、种族等,对原始资料进行整理就可以得到频数分布表。 定义四个变量:gender(性别)、educat(学历)、minority(种族)、count(人数),其中前三个为分类变量,并且gender变量取值为0、1,标签值定义为:0表示female,1表示male;educat变量取值为1、2、3,标签值定义为:1表示学历低,2表示学历中等,3表示学历高;minority变量值为0、1,标签值定义为:0表示非少数种族,1表示为少数种族。下面做gender、educat、minority的三维列联表分析及其独立性检验。数据文件如图1所示。 图1 第一步:用“count”变量作为权重进行加权分析处理。从菜单上依次选Data--weight Cases 命令,打开对话框,如图2所示。

图2 点选Weight Cases by项,并将变量“count”移入Frequency Variable栏下,之后单击OK按钮。 第二步:从菜单上依次点选Analyze--Deseriptive Statistics--Crosstabs命令,打开列联分析对话框(Crosstabs),如图3所示。 图3 第三步:在Crosstabs对话框中,如图4将变量性别gender从左侧的列表框内移入行变量Row(s)框内,并将受教育年限编码后得到的学历变量educat移入列变量Column(s)框内(若

此时单击OK按钮,则会输出一个2*3的二维列联表)。这里要输出一个三维列联表,将变量种族minority作为分层变量移入Layer框中,并且可以勾选左下方的Display clustered bar charts项,以输出聚集的条形图,如图8图9所示。 图4 第四步:选择统计量,单击Cosstabs对话框下侧的Statistics按钮,打开其对话框,如图5 所示。 图5 在Statistics对话框内,勾选Chi-square项,以输出表2进行独立性检验。这里由于不是定距

第七章 列联表分析

第七章列联表分析 7.1 列联表(Crosstabs)分析的过程 7.2 列联表的实例分析 7.1 列联表 (Crosstabs) 分析的过程 列联表分析的过程是对两个变量之间关系的分析方法。被分析的变量可以是定类变量也可以是定序变量。系统是通过生成列联表对两个变量进行列联表分析的。 列联表分析的功能可以通过下述操作来实现。 图7-1 列联表分析对话框 1.打开列联表分析对话框 执行下述操作: Analyze→Descriptive→Crosstabs 打开Crosstabs 对话框如图7-1 所示。 2.确定列联分析的变量 从左侧的源变量窗口中选择两个定类变量或定序变量分别进入Row(s)(行)窗口和Column(s)(列)窗口。进入Row(s)窗口的变量的取值将作为行的标志输出,而进入Column(s)窗口的变量的取值将作为列的标志输出。Display clustered bar charts 是在输出结果中显示聚类条图。Suppress table 是隐藏表格,如果选择此项,将不输出R×C 列联表。 3.选择统计分析内容 单击statistics 按钮,打开statistics 对话框,如图7-2 所示。

图7-2statistics 对话框 下面介绍该对话框中的选项和选项栏的内容: (1)Chi-square 是卡方(X2)值选项,用以检验行变量和列变量之间是否独立。适用于定类变量和定序变量。 (2)Correlations 是皮尔逊(Pearson)相关系数r 的选项。用以测量变量之间的线性相关。适用于定序或数值变量(定距以上变量)。 (3)Nominal 是定类变量选项栏。选项栏中的各项是当分析的两个变量都为定类变量时可以选择的参数。 1)Contingency coefficient:列联相关的C 系数,由卡方系数修正而得。 2) Phi and Cramer's V:列联相关的V 系数,由卡方系数修正而得。 3)Lambda:λ系数。 4)Uncertainty Coefficient:不定系数。 (4)Ordinal 是定序变量选项栏。选项栏中的各项是当分析的两个变量都为定序变量时可以选择的参数。 1)Gramma:Gramma 等级相关系数。 2)Somers’d:Somers 等级相关d 系数。 3)Kendall’s tau-b:肯得尔等级相关tau-b 系数。 4)Kendall’s tau-c:肯得尔等级相关tau-c 系数。 (5)Nominal by Interval 选项栏中的Eta 是当一个变量为定类变量,另一个变量为数值变量时,测量两个变量之间关系的相关比率。 系统默认状态是不输出上述参数。如需要可自行选择。上述选择做完以后,单击Continue 返回到Crosstabs 对话框。 4.确定列联表内单元格值的选项 单击Cells(单元格)按钮,打开Cell Display 对话框,如图7-3 所示。

交叉列联表分析

交叉列联表分析 ---------用于分析属性数据 1. 属性变量与属性数据分析 从变量的测量水平来看分为两类:连续变量和属性(Categorical)变量,属性变量又可分为有序的(Ordinal)和无序的变量。 对属性数据进行分析,将达到以下几方面的目的: 1) 产生汇总分类数据——列联表;2) 检验属性变量间的独立性(无关联性); 3) 计算属性变量间的关联性统计量;4) 对高维数据进行分层分析和建模。 在实际中,我们经常遇到判断两个或多个属性变量之间是否独立的问题,如:吸烟与患肺癌是否有关?色盲与性别是否有关?上网时间与学习成绩是否有关等等.解决这类问题常用到建立列联表,利用χ2 统计量作显著性检验来完成. 2.列联表(Contingency Table ) 列联表是由两个以上的属性变量进行交叉分类的频数分布表。 设二维随机变量(X ,Y ),X 可能取得值为x x x r ,,,2 1 ,Y 可能取得值 为y y y s ,,,2 1 .现从总体中抽取容量为n 的样本,其中事件(X =x i Y =y j ) 发生的频率为n j i (i = 1,2, …,r ,j=1,2, …,s ,)记n i ?= ∑=s j j i n 1 ,n j ?=∑=r i j i n 1 , 则有n = ∑∑==r i s j j i n 11 =∑=?r i i n 1 = ∑=?s j j n 1 ,将这些数据排列成如下的表: 这是一张r ×s 列联表.

3.属性变量的关联性分析 对于不同的属性变量,从列联表中可以得到它们联合分布的信息。但有时还想知道形成列联表的行和列变量间是否有某种关联性,即一个变量取不同数值时,另一个变量的分布是否有显著的不同,这就是属性变量关联性分析的内容。 属性变量关联性检验的假设为 H0:变量之间无关联性; H1:变量之间有关联性 由于变量之间无关联性说明变量互相独立,所以原假设和备择假设可以写为: H0:变量之间独立; H1:变量之间不独立 χ 2 检验 H 0: X 与Y 独立. 记P (X =x i ,η=y j ) = p j i ,i =1,2,…,r ,,j = 1,2,…,s , P (X =x i ) = p i . , i =1,2,…,r ,P (Y = y j ) =p j . ,j = 1,2,…,s . 由离散性随机变量相互独立的定义,则原假设等价于 H 0:p j i = p i .p j . ,i =1,2,…,r ,,j = 1,2,…,s . 若 p j i 已知,我们可以建立皮尔逊χ2 统计量 χ 2 = ∑==∑ -r i s ij j i j i j i p n p n n 1 1 2 ) (. 由皮尔逊定理知,χ2 的极限分布为)1(2 -rs χ .但这里p j i 未知,因此用它 的极大似然估计 p ij ∧ 代替,这时检验统计量为 χ 2 = ∑==∧ ∧ ∑-r i s ij j i j i j i p n p n n 1 1 2 ) (. 在H 0成立的条件下, p j i = p i .p j .,即等价于用p i ?和p j ?.的极大似然估计 p i ?∧ 和p j ?∧ 的积去代替.可以求得 p i ?∧ = n n i ? , i =1,2,…,r , p j ?∧ = n n j ? , j = 1,2,…,s ,

上机练习3列联表分析与方差分析

上机练习 3 列联表分析与方差分析 本上机练习的主要目的:熟悉如何利用SPSS与Excel进行列联表分析及方差分析。本练习所使用数据文件为 和“Salary.sav”。“carown.dat”、“fastfood.sav” 1. 列联表分析 Q:如何利用列联表分析考察家庭成员数与家庭所拥有汽车数之间 的关系?(数据文件为“Carown.dat”) 在这之前,我们首先检验各变量是否存在野码(wild code)或异常值 (outlier),这可以通过频数表以及箱形图(boxplot)来判断。 在家庭成员数的频数表中,我们发现,有一个样本的家庭成员数为0,而 ,该样本取值在其范围之外,即为野码(wild 该变量的取值范围为[1, +∞] code)。对于野码的处理,一般可以采用将该样本的此变量设为缺失值或 直接去掉该样本的做法。

在家庭所拥有汽车数的频数表中,我们发现,有一个样本的家庭所拥有汽 车数为9,显然是一个极端值。我们利用boxplot也证实了该样本为一个异常值(outlier)。异常值处于该变量的正常取值范围内,但可能会对该 变量的相关统计结果产生较为严重的影响。对于异常值的处理,一般可以 采用直接去掉该样本的做法或者根据情况进行调整。而对于上述我们发现 的异常值来说,我们可以直接去掉该样本。 在上述数据清理的工作完成之后,我们可以开始进行列联表分析。因为列 联表分析只适用于分类变量,我们需要利用Transform Recode Into Different Variables…对家庭人数以及家庭所拥有汽车数进行分类,分别 定义新变量member1和cars1与之对应。具体对应关系如下: 旧变量新变量新变量类别旧变量新变量新变量类别

第十四章--交叉表分析法(课件)

多变量描述统计分析 交叉表分析法 一、交叉表分析法的概念 交叉表(交叉列联表) 分析法是一种以表格的形式同时描述两个或多个变量的联合分布及其结果的统计分析方法,此表格反映了这些只有有限分类或取值的离散变量的联合分布。当交叉表只涉及两个定类变量时,交叉表又叫做相依表。 交叉列联表分析易于理解,便于解释,操作简单却可以解释比较复杂的现象,因而在市场调查中应用非常广泛。 频数分布一次描述一个变量,交叉表可同时描述两个或更多变量。交叉表法的起点是单变量数据,然后依研究目的将这些数据分成两个或多个细目。 下面是一个描述交叉表法应用的例子。 某保险公司对影响保户开车事故率的因素进行调研,并对各种因素进行了交叉表分析。 表1 驾驶员的事故率 然后,在性别基础上分解这个信息,判断是否在男女驾车者之间有差别。这样就出现了二维交叉表2。 表2 男女驾驶员的事故率 高。但人们会提出这样的疑问而否定上述判断的正确性,即男士的事故多,是因为他们驾驶的路程较长。这样就引出第三个因素"驾驶距离",于是出现了三维交叉表3。 表3 不同驾驶距离下的事故率 有证明男士和女士哪个驾驶得更好或更谨慎,仅证明了驾车事故率只与驾驶距离成正比,而与驾驶者的性别无关。 二、两变量交叉列联表分析 例如,研究城镇居民在某地的居住时间与其对当地百货商场的熟悉程度之间

的关系,对“居住时间”和“熟悉程度”这两个变量进行交叉列联分析。如表4所示。 间低于30年的居民比居住时间在30年以上的居民似乎更熟悉百货商场。进一步计算出百分比,则可以看得更直观一些。见表5。 表5 居住时间与对百货商场的熟悉程度的交叉列联分析(%) 行百分比与列百分比的选择取决于哪个变量是因变量哪个变量是自变量。一般的规则是,在自变量的方向上,对因变量计算百分比。 以表5为例,居住时间为自变量,对商场的熟悉程度为因变量,因而可以对各居住时间分别计算熟悉程度的百分比。由表5可见,53.6%的居住时间低于13年的人和60.9%的居住时间在13年~30年的人都熟悉该商店,而只有32.9%的居住时间在30年以上的人熟悉该商店。看来,同样住在该地区的人,居住时间越长,对购物环境反而更不熟悉。这个结论是有一定道理的,在一个地方居住很长时间的人一般相对来说更没有动力去熟悉该商场。 如果我们在因变量的方向上对自变量计算百分比(如表6所示),则显然没意义。 表6暗示,对当地商场不熟悉会影响居民在该地的居住时间,这显然是不合理的。但是,居住时间与对百货商场的熟悉程度之间的联系可能受第三变量的影响,例如年龄。居住时间越长的人可能年龄越大。尽管分析结果表明年龄在此不是影响因素,但由此可见需要检查第三因素的影响。 三、三变量的交叉列联表分析 引入第三变量后再进行交叉列联分析,则可能出现以下四种结果: (1)剔除外部环境的影响,使原先两变量间的关系更单纯。例如,在表7中,仅分析婚姻状况和衣服支出水平这两个变量时,从数字上看未婚者在衣服支出方面比已婚者更高一些。但引入变量性别以后,发现对于男性来说,已婚者与未婚者在衣服支出方面没有显著差异,但对于女性未婚者与已婚者,在衣服支出方面的差异则很明显。见表8。

第12章 列联表和对应分析

第十二章 列联表和对应分析 我们前面介绍的相关分析可以用来分析定量变量之间的关系,但不能用于定性变量的分析。本章介绍的列联表检验和对应分析方法则可以用来分析定性变量之间的关系。 第一节 列联表与独立性检验 【例12.1】美国的一般社会调查(General Social Survey )是由美国芝加哥大学的民意调查中心进行的一项随机抽样调查,调查对象为18岁以上的成年人。调查中获得了居民的婚姻状况和幸福状况方面的数据。下面我们根据1996年的调查结果来分析两个变量之间的关系(数据文件gss96.sav )。在调查中,婚姻状况的取值为已婚、丧偶、离异、分居和未婚(分别用1-5表示);幸福状况的取值为:非常幸福、比较幸福和不太幸福(分别用1-3表示)。在SPSS 软件中打开数据文件,选择“分析”→“描述统计”→“交叉表”,把“婚姻状况”设为行变量,把“幸福状况”设为列变量,可以得到表12-1所示的列联表。从表中我们可以看出,从婚姻状况看,已婚人员的比重最高;从幸福状况看,比较幸福的人员比重最高。但从表中我们很难直观地看出两个变量之间的内在联系。 表12-1 婚姻状况和幸福状况列联表 幸福状况 合计 非常幸福 比较幸福 不太幸福 婚姻状况 已婚 574 726 82 1382 丧偶 70 149 59 278 离异 83 292 79 454 分居 14 73 30 117 未婚 136 419 99 654 合计 877 1659 349 2885 要研究二维列联表中的两个变量是否相互独立,可以使用我们在非参数检验中讲过χ2 检验。检验的零假设和备择假设为 H 0:婚姻状况和幸福状况这两个变量相互独立;H 1:婚姻状况和幸福状况不相互独立。 假定样本量为n ,列联表有r 行、s 列,表中各行的合计值分别为r i R i ,,2,1,Λ=,各列的合计值分别为s j C j ,2,1,Λ=。每个单元格中的频数为j i O ,。在零假设成立,即行变量和列变量相互独立时,每个单元格频数的期望值可以按照式(12-1)计算: n C R n n C n R E j i j i ij ?= ??= (12-1) 显然,如果期望频数ij E 和观测频数ij O 相差不大,则零假设可能是正确的;如果二者差别很大,则零假设可能不成立。按照式(12-2)构造检验统计量:

交叉表分析

data05-02为某公司工资数据(n=15)。使用变量性别sex、收入高低earnings分析男女经理间薪金是否平等。 可以利用data05-01中的数据,使用变量occcat80为工作性质分类,region为地区,childs 为每个家庭的孩子数。将childs为行变量,occcat80为列变量,region为控制变量选入Layer of框中,进行交叉表分析。 列联表(交叉表)分析 1、项目名称 Crosstabs过程 4、实训原理 Crosstabs过程用于定类数据和定序数据进行统计描述和简单的统计推断。在分析时可以产生二维至n维列联表,并计算相应的百分数指标。 4-1 列联表分析的含义与任务 在实际分析中,当问题涉及到多个变量时,我们不仅要了解单个变量的分布特征,还要分析多个变量不同取值下的分布,掌握多变量的联合分布特征,进而分析变量之间的相互影响和关系。很明显,如果还采用单纯的频数分析方法显然不能满足要求。因此,我们需要借助交叉分组下的频数分析,即列联表分析。列联表分析的主要任务有两个: (1)根据样本数据产生二维或多维交叉列联表。交叉列联表是两个或两个以上变量交叉分组后形成的频数分布表。 (2)在交叉列联表的基础上,分析两变量之间是否具有独立性或一定的相关性。 4-2 卡方检验的原理 为了理解列联表中行变量(Row)和列变量(Column)之间的关系,我们需要借助非参数检验方法。通常采用的方法是卡方检验。和一般假设检验一样,卡方检验主要包括三个步骤: (1)建立零假设:行变量和列变量相互独立。 (2)选择和计算检验统计量。列联表分析中的检验统计量是Pearson卡方统计量。其公式为:

列联表分析

列联表分析 【例1】性别与所喜爱颜色的调查表。 双向列联表:性别×颜色 【程序】 proc freq data=SASUSER.data9_01; tables SEX*COLOR / CHISQ NOPERCENT NOROW; weight F; run; 【例3】下面数据是某个“统计入门”课程的数据,记录了该课程中所有学生的性别和专业 (“是”为统计专业,“非”为其他专业)。对数据进行整理生成列联表并分析。 【操作:解决方案-分析-分析家调入数据统计-表分析】 【程序】 *** Table Analysis ***; proc freq data=SASUSER.data9_03; tables SEX*MAJOR; run;

【例5】雇员情况数据集Employee变量有:性别(gender)、工种(jobcat)、薪水(salary) /薪水等级(salaryrank,分高(=1)100人,中(=2)200人,低(=3)其他人)、初薪(begsalary) /薪水等级(begsalaryrank,分高(=1)100人,中(=2)200人,低(=3)其他人)和受教 育年限。试作三向、四向、五向列联表。 【程序prog9_05_1】三向表:对性别、薪水等级和工种的情况进行统计(生成2张表) *** Table Analysis ***; proc freq data=SASUSER.data9_05; tables GENDER*SALARYRANK*JOBCAT; run; 【程序prog9_05_3】五向表:对性别、薪水等级、初薪等级、受教育年限和工种的情况进 行统计(生成18张表) *** Table Analysis ***; proc freq data=SASUSER.data9_05; tables GENDER*SALARYRANK*BEGSALARYRANK*EDUCATION*JOBCAT; run; 【例6】下表是一个由220名饮酒者组成的随机样本,对饮酒者进行酒类型偏好的调查。检 验性别与饮酒偏好是否有关?(α=0.05) 【程序】 data sasuser.data9_06; input sex wine people; datalines; 1 1 60 2 1 40 1 2 50 2 2 70 ; proc freq; weight people; tables sex*wine/chisq; run;

最新spss 列联表各按钮介绍

s p s s列联表各按钮 介绍

检验公式 (2) 具体操作 (3) 打开 (3) 底端选项 (4) 右端按钮 (4) 【精确】 (4) 【统计量】 (5) 【单元格】 (7) 【格式】 (8) https://www.doczj.com/doc/cd16549837.html,/SPSSjiaocheng/mstj/70.html spss交叉列联表分析 在实际分析中,除了需要对单个变量的数据分布情况进行分析外,还需要掌握多个变量在不同取值情况下的数据分布情况,从而进一步深入分析变量之间的相互影响和关系,这种分析就称为交叉列联表分析。 当所观察的现象同时与两个因素有关时,如某种服装的销量受价格和居民收入的影响,某种产品的生产成本受原材料价格和产量的影响等,通过交叉列联表分析,可以较好地反映出这两个因素之间有无关联性及两个因素与所观察现象之间的相关关系。 因此,数据交叉列联表分析主要包括两个基本任务:一是根据收集的样本数据,产生二维或多维交叉列联表;二是在交叉列联表的基础上,对两个变量

间是否存在相关性进行检验。要获得变量之间的相关性,仅仅靠描述性统计的数据是不够的,还需要借助一些表示变量间相关程度的统计量和一些非参数检验的方法。 常用的衡量变量间相关程度的统计量是简单相关系数,但在交叉列联表分析中,由于行列变量往往不是连续变量,不符合计算简单相关系数的前提条件。因此,需要根据变量的性质选择其他的相关系数,如Kendall等级相关系数、Eta值等。 SPSS提供了多种适用于不同类型数据的相关系数表达,这些相关性检验的零假设都是:行和列变量之间相互独立,不存在显著的相关关系。根据SPSS检验后得出的相伴概率(Concomitant Significance)判断是否存在相关关系。如果相伴概率小于显著性水平0.05,那么拒绝零假设,行列变量之间彼此相关;如果相伴概率大于显著性水平0.05,那么接受原假设,行列变量之间彼此独立。 检验公式 在交叉列联表分析中,SPSS所提供的相关关系的检验方法主要有以下3种: (1)卡方(χ2)统计检验:常用于检验行列变量之间是否相关。计算公式为:

交叉列联分析

3.5 交叉列联表分析 在实际分析中,除了需要对单个变量的数据分布情况进行分析外,还需要掌握多个变量在不同取值情况下的数据分布情况,从而进一步深入分析变量之间的相互影响和关系,这种分析就称为交叉列联表分析。 当所观察的现象同时与两个因素有关时,如某种服装的销量受价格和居民收入的影响,某种产品的生产成本受原材料价格和产量的影响等,通过交叉列联表分析,可以较好地反映出这两个因素之间有无关联性及两个因素与所观察现象之间的相关关系。 因此,数据交叉列联表分析主要包括两个基本任务:一是根据收集的样本数据,产生二维或多维交叉列联表;二是在交叉列联表的基础上,对两个变量间是否存在相关性进行检验。要获得变量之间的相关性,仅仅靠描述性统计的数据是不够的,还需要借助一些表示变量间相关程度的统计量和一些非参数检验的方法。常用的衡量变量间相关程度的统计量是简单相关系数,但在交叉列联表分析中,由于行列变量往往不是连续变量,不符合计算简单相关系数的前提条件。因此,需要根据变量的性质选择其他的相关系数,如Kendall等级相关系数、Eta值等。SPSS提供了多种适用于不同类型数据的相关系数表达,这些相关性检验的零假设都是:行和列变量之间相互独立,不存在显著的相关关系。根据SPSS检验后得出的相伴概率(Concomitant Significance)判断是否存在相关关系。如果相伴概率小于显著性水平0.05,那么拒绝零假设,行列变量之间彼此相关;如果相伴概率大于显著性水平0.05,那么接受原假设,行列变量之间彼此独立。 在交叉列联表分析中,SPSS所提供的相关关系的检验方法主要有以下3种:(1)卡方(χ2)统计检验:常用于检验行列变量之间是否相关。计算公式为: (3.11)其中,f0表示实际观察频数,f e表示期望频数。 卡方统计量服从(行数-1)′(列数-1)个自由度的卡方统计。SPSS在计算卡方统计量时,同时给出相应的相伴概率,由此判断行列变量之间是否相关。

交叉列联表分析步骤

交叉列联表分析步骤 1【分析】—【描述统计】—【交叉表】 【精确】 一般情况下,"精确检验"(Exact Tests)对话框的选项都默认为系统默认值,不作调整。 【统计量】

【单元格】 【格式】

2 结果分析: 职称* 学历交叉制表 学历 合计 本科专科高中初中 职称高级工程师计数 1 1 1 0 3 职称中的% 33.3% 33.3% 33.3% .0% 100.0% 学历中的% 25.0% 25.0% 20.0% .0% 18.8% 总数的% 6.3% 6.3% 6.3% .0% 18.8% 工程师计数 1 3 0 0 4 职称中的% 25.0% 75.0% .0% .0% 100.0% 学历中的% 25.0% 75.0% .0% .0% 25.0% 总数的% 6.3% 18.8% .0% .0% 25.0% 助理工程师计数 2 0 1 3 6 职称中的% 33.3% .0% 16.7% 50.0% 100.0% 学历中的% 50.0% .0% 20.0% 100.0% 37.5% 总数的% 12.5% .0% 6.3% 18.8% 37.5% 无技术职称计数0 0 3 0 3 职称中的% .0% .0% 100.0% .0% 100.0% 学历中的% .0% .0% 60.0% .0% 18.8% 总数的% .0% .0% 18.8% .0% 18.8% 合计计数 4 4 5 3 16 职称中的% 25.0% 25.0% 31.3% 18.8% 100.0% 学历中的% 100.0% 100.0% 100.0% 100.0% 100.0% 总数的% 25.0% 25.0% 31.3% 18.8% 100.0% 卡方检验 值df 渐进Sig. (双侧) Pearson 卡方18.533a9 .029 似然比20.629 9 .014 线性和线性组合 2.617 1 .106 有效案例中的N 16

列联表模型

有些数据是类型变量,要求做因素影响的显著性分析或相关分析可以采用本模型 本模型的相关分析涉及三种相关系数,而且是层层递进的,我们可以刻意将它们写成模型的一步步改进 列联分析模型 1.2.1 列联表 列联表是由两个及两个以上的变量进行交叉分类的频数分布表。我们以是否就业和政治面貌为例,可以有以下列联表(2?4): 表1.2.1 其中,n 是总体样本数。交叉项为频数。 1.2.2 列联表中2χ统计量 2χ统计量常用于列联表中变量之间是否相关的检验。用0f 表示观察值频数,用e f 表示期望值频数,则2χ统计量可以写为: () 2 02e e f f f χ-=∑ (公式1.2.2) 2χ的自由度计算: 自由度=(行数-1)(列数-1)=(R-1)(C-1) 如表1.2.1(2?4)列联表的2χ分布的自由度为(2-1)(4-1)=3 1.2.3 φ相关系数测定与影响就业因素间的相关性 φ相关系数是描述2?2列联表数据相关程度较好的一种相关系数。计算公式为: φ= (公式1.2.3.1)

式中,2χ是按(公式1.2.2)计算出的2χ值;n 为列联表中的总频数,及总体样本数。 由表1.1知,有五个影响因素是二分变量,我们可以采用φ相关系数分析的方法。其列联表如下: 表1.2.3 是否就业与因素X 的2?2列联表 表1.2.3中,a,b,c,d 均为条件频数。在2?2列联表中,每个单元中频数的期望值为: 由(公式1.2.2)有: 将此结果代入(公式1.2.3.1),得到: ()()()() ad bc a b c d a c b d φ-= = ++++ (公式1.2.3.1) 分析: 由上式我们知道,当ab-bc 时,φ=0,两者完全独立。若b=0,c=0, φ=1;若a=0,d=0, φ=-1。由于列联表中,变量的位置可以任意变换,因此φ的符号在这里没实际意义,其绝对值=1只是表面两者完全相关。在此模型中,φ的取值范围是在0~1之间,且φ的绝对值越大,说明是否就业与因素X 的相关程度越高。对于表1.1中的五个二分变量的因素的研究,我们可以采用2?2列联表的φ相关系数。但是对于其他的不是二分变量的因素,其在列联表R ?C 中的列数C 大于2时,φ系数将随C 的增大而增大,且φ没上限。这时用φ系数测定两者的相关程度就不够清晰,所以,对其他的因素与是否就业之间的相关性的测定,我们采用列联相关系数。 1.2.4 列联相关系数(C 系数)测定与影响就业因素间的相关性 列联相关系数用于大于2?2列联表的情况。C 系数的计算公式为: c = (公式1.2.4)

相关主题
文本预览
相关文档 最新文档