当前位置:文档之家› 128《统计案例》--求'独立性检验'中卡方的观测值的计算和把握性判断

128《统计案例》--求'独立性检验'中卡方的观测值的计算和把握性判断

128《统计案例》--求'独立性检验'中卡方的观测值的计算和把握性判断
128《统计案例》--求'独立性检验'中卡方的观测值的计算和把握性判断

1x 2x 1y 2y a b c d n 2

2()()()()()n ad bc K a b c d a c b d -=++++ a b +

c d +

a c +

b d +

a b c d +++

n a b c d =+++

A

A

α

k

0k

20()P K k ≥

20()P K k ≥

2K

2.706k ≤

高中数学第三章统计案例3.1独立性检验假设检验(hypothesistesting素材苏教版选修2_3202012251102

假设检验(hypothesis testing) 方法演变:t检验、z检验、F检验、卡方检验,方差分析( ANOVA) ?概述 假设检验是分析数据的一种方法。回答此类问题:“随机发生的事件的概率是多少?”另一方面的问题是:“我们从数据中发现的结果是真的吗?”当问题是有关大的总体而只能得到总体的一个样本时用假设检验。这种方法被用来回答在质量改进中一系列重要的问题,如“我们在过程中所做的改变对产出创造了有意义的差别吗?”或”顾客对场地A的满意度是不是比其他场地高?” 最常用的检验是:z检验、t检验、F检验、卡方(χ2)检验和方差分析。这些检验和其他的检验都是基于均值、方差、比例及其他统计量所形成的具有常见模式的频率分布。最有名的分布就是正态分布,它是:检验的基础。t检验、F检验和卡方(χ2)检验是基于t分布、F分布和卡方分布。 ?适用场合 ·想知道一组或更多组数据的平均值、比例、方差或其他特征时; ·当结论是基于更大总体中所取得的样本时。 例如: ·想确定一个过程的均值或方差有否改变; ·想确定很多数据集的均值或方差是否不同: ·想确定两组不同的数据集的比例是否不同; ·想确定真正的比例、均值或方差是否和一个定值相等(或大于或小于)。 ?实施步骤 假设检验的步骤由三部分组成:理解要解决的问题并安排检验(以下步骤1~3);数字计算通常由计算机完成(步骤4和步骤5);应用数值结果到实际问题中(步骤6)。虽然计算机能处理数字,但理解假没检验隐含的观念对第1部分和第3部分至关重要。 如果第一次接触假设检验,那么从看“注意事项”中的术语和定义开始。这些定义解释了假设检验的慨念,然后再回来看这个步骤。 本书不可能详细地涉及假设检验。这个步骤是个综述和快速参考。要得到更多的信息,查阅统计学参考书或请教统计学家。 1确定要从数据中获得的结论。选择适当的检验方法。用哪种检验取决于检验的目的和数据的种类。可以用表5.7和表5.8概括的常用的假设检验,或者请教统计学家以得到帮助。 2建立零假设和备择假设。确定问题是属于双尾检验、左尾检验还是右尾检验。 3选择显著性水平。。 4计算检验统计量,可借助计算机软件。 5用统计分布的统计表或计算机程序等来确定检验统计量的P值。对于z检验可用表A.1正态曲线以下的曲线。 6把P值与左尾或右尾检验的α或者双尾检验的α/2作比较,如果P值较小,那么拒绝零假设并会得到备择假设可能正确的结论。否则,不能拒绝零假设,并得出没有足够证据支持备择假设的结论。 ?备择步骤 步骤1~4同上。然后: 5用统计表或计算机程序确定如下所示的检验统计量的临界值和拒绝域。以z检验作为示例,对t检验、F检验或卡方检验,用统计量f、F或χ2来替换z。 6比较检验统计量和拒绝域。如果检验统计量值落在拒绝域内,拒绝零假设,结论是备择假设可能止确。否则,不拒绝零假设,结论是没有足够的证据支持备择假设。 ?示例:t检验

2独立性检验

1.2独立性检验的基本思想及其初步应用 根据表中数据得到 2 50181589 27232426 k () ??-? =≈ ??? 5.059,因为p(K2≥5.024)=0.025, 则认为喜欢玩电脑游戏与认为作业量的多少有关系的把握大约为() (A)97.5% (B) 95% (C)90% (D)无充分根据 2.(2011?湛江一模)利用独立性检验来考虑两个分类变量X和Y是否有关系时,通过查阅表格来确定“X和Y有关 A.5% B.75% C.99.5% D.95% 3.(2012?泰安一模)下列说法: ①将一组数据中的每个数据都加上或减去同一个常数后,方差恒不变; ②设有一个回归方程,变量x增加一个单位时,y平均增加5个单位; ③线性回归方程必过; ④在一个2×2列联表中,由计算得K2=13.079,则有99%的把握确认这两个变量间有关系; 其中错误的个数是() A.0 B.1 C.2 D.3 4.(2010?泰安二模)某医疗研究所为了检验新开发的流感疫苗对甲型H1N1流感的预防作用,把1000名注射了疫苗的人与另外1000名未注射疫苗的人的半年的感冒记录作比较,提出假设H0:“这种疫苗不能起到预防甲型H1N1流感的作用”,并计算出P(Χ2≥6.635)≈0.01,则下列说法正确的是() A.这种疫苗能起到预防甲型H1N1流感的有效率为1% B.若某人未使用该疫苗,则他在半年中有99%的可能性得甲型H1N1 C.有1%的把握认为“这种疫苗能起到预防甲型H1N1流感的作用” D.有99%的把握认为“这种疫苗能起到预防甲型H1N1流感的作用” 5.(2012?枣庄一模)通过随机询问100名性别不同的大学生是否爱好踢毪子运动,得到如下的列联表: 随机变量,经计算,统计量K2的观测值k≈4.762,参照附表,得到的正

(新)高中数学第一章统计案例1_1独立性检验假设检验素材新人教B版选修1-21

假设检验 1、某厂生产的化纤纤度服从正态分布 )04.0,(2 μN 。某天测得25根纤维的纤度的均值39.1=x ,问与原设计的标准值1.40有无显著差异?(取05.0=α) 解 设厂生产的化纤纤度为X ,则总体)04.0,(~2μN X ,且总体方差2204.0=σ已 知。顾客提出要检验的假设为 40 .1:0=μH , 40.1:1≠μH 因为已知总体标准差04.0=σ,所以选用U 检验,且在0H 成立的条件下有 )1,0(~25 04.00 N X U μ-= 针对备择假设40.1:1≠μH ,拒绝域的形式可取为 } /{0 c n X U W >-= =σμ 为使犯第一类错误的概率不超过05.0=α,就要在40.10 =μ时,使临界值c 满足 ()05 .0=>c U P 成立。由此,在给定显著性水平05.0=α时,得到临界值为 96 .1975.02/1===-u u c α 故相应的拒绝域为

{} 96.1>=U W 利用来自总体的样本值求得 25 .125 /04.040.139.1-=-= u 即 975 .096.125.1u u =<= 成立。显然,样本未落在拒绝域内,因此在05.0=α水平上认为纤维的纤度与原设计的标准值1.40没有显著差异。 2、设某厂生产的洗衣机的使用寿命(单位:小时)X 服从正态分布),(2σu N 但2 ,σu 未 知。随机抽取20台,算得样本均值1832=X ,样本标准差=S 497,检验该厂生产的洗衣机的平均使用时数“2000=μ”是否成立?(取检验水平05.0=α) 解 待检验假设 2000 0=μ:H 20001≠μ:H H 的拒绝域: 21α - >t T =2.093 T 的观测值 512 .1/2000 -=-=n S X T W ∈ 不能拒绝 H ,可以认为洗衣机的平均使用时数“2000=u ”. 3、在正常情况下,某炼钢厂的铁水含碳量(%)X ~ ),.(2 554σN (σ未知)。一日测得5炉铁水含碳量如下:

高中数学统计案例--独立性检验 同步练习

统计案例--独立性检验 同步练习 1、下列关于卡方2χ的说法正确的是( ) A.2χ在任何相互独立问题中都可用与检验是否相关 B. 2χ的值越大,两个事件的相关性越大 C.2χ是用来判断两个相互独立事件相关与否的一个统计量,它可以用来判断两个事件是否相关这类问题 D. ) )()()(() (2d b c a d c b a bc ad n ++++-= χ. 2、在吸烟与患肺病这两个分类变量的计算中,下列说法中正确的是( ) A. 若统计量635.62>χ,我们有99%的把握说吸烟与患肺病有关,则某人吸烟,那么他有99%的可能患有肺病 B. 若从统计中求出,有99%的把握说吸烟与患肺病有关,则在100个吸烟者中必有99人患有肺病 C. 若从统计量中求出有95%把握说吸烟与患肺病有关,是指有5%的可能性使得推断错误 D. 以上说法均错误 3 A. 种子经过处理跟是否生病有关 B. 种子经过处理跟是否生病无关 C. 种子是否经过处理决定是否生病 D. 以上都是错误的 4、若由一个22?列联表中的数据计算得013.42=χ,那么有 的把握认为两个变量有关系. 5、独立性检验所采用的思路是:要研究A 、B 两类型因子彼此相关,首先假设这两类因子彼此 ,在此假设下构造2χ统计量.如果2χ的观测值较大,那么在一定程度上说明假设 . 6、某大学在研究性别与职称(分正教授、副教授)之间是否有关系,你认为应该搜集那些数据? . 7、打鼾不仅影响别人休息,而且可能与患某种疾病有关,下表是一次调查所得数据,试问:每一晚都打与患心脏病有关吗?有多大把握认为你的结论成立?

8、为了研究某种新药的副作用(如恶心等),给50位患者服用此新药,另外50名患者服用 9、某大型企业人力资源部为了研究企业员工工作积极性和对待企业改革的关系,随机抽取了189名员工进行调查,其中支持企业改革的调查者中,工作积极的54人,工作一般的32人,而不太赞成企业改革的调查者中,工作积极的40人,工作一般的63人. (1)根据以上数据建立一个2 2 的列联表; (2)对于人力资源部的研究项目,根据以上数据可以认为企业的全体员工对待企业改革的 态度与其工作积极性是否有关系?

统计案例一_----独立性检验

统计案例一独立性检验 研修学院数学教研室闻岩 一、课标要求 学生将在必修课程学习统计的基础上,通过对典型案例的讨论,了解和使用一些常用的统计方法,进一步体会运用统计方法解决实际问题的基本思想,认识统计方法在决策中的作用。 内容与要求 1.统计案例(约14课时) 通过典型案例,学习下列一些常见的统计方法,并能初步应用这些方法解决一些实际问题。 (1)通过对典型案例(如“肺癌与吸烟有关吗”等)的探究,了解独立性检验(只要求22列联表)的基本思想、方法及初步应用。 (2)通过对典型案例(如“质量控制”“新药是否有效”等)的探究,了解实际推断原理和假设检验的基本思想、方法及初步应用(参见例1)。------删掉了 (3)通过对典型案例(如“昆虫分类”等)的探究,了解聚类分析的基本思想、方法及初步应用。------删掉了 (4)通过对典型案例(如“人的体重与身高的关系”等)的探究,进一步了解回归的基本思想、方法及初步应用。 说明与建议 1.统计案例的教学中,应鼓励学生经历数据处理的过程,培养他们对数据的直观感觉,认识统计方法的特点(如统计推断可能犯错误,估计结果的随机性),体会统计方法应用的广泛性。应尽量给学生提供一定的实践活动机会,可结合数学建模的活动,选择1个案例,要求学生亲自实践。对于统计案例内容,只要求学生了解几种统计方法的基本思想及其初步应用,对于其理论基础不作要求,避免学生单纯记忆和机械套用公式进行计算。 2.教学中,应鼓励学生使用计算器、计算机等现代技术手段来处理数据,有条件的学校还可运用一些常见的统计软件解决实际问题。 例1某地区羊患某种病的概率是0.4,且每只羊患病与否是彼此独立的。今研制一种新的预防药,任选5只羊做实验,结果这5只羊服用此药后均未患病。问此药是否有效。 初看起来,会认为这药一定有效,因为服药的羊均未患病。但细想一下,会有问题,因为大部分羊不服药也不会患病,患病的羊只占0.4左右。这5只羊都未患病,未必是药的作用。分析这问题的一个自然想法是:若药无效,随机抽取5只羊都不患病的可能性大不大。若这件事发生的概率很小,几乎不会发生,那么现在我们这几只羊都未患病,应该是药的效果,即药有效。 现假设药无效,5只羊都不生病的概率是 (1-0.4)5≈0.078. 这个概率很小,该事件几乎不会发生,但现在它确实发生了,说明我们的假设不对,药是有效的。 这里的分析思想有些像反证法,但并不相同。给定假设后,我们发现,一个概率很小几乎不会发生的事件却发生了,从而否定我们的“假设”。 应该指出的是,当我们作出判断“药是有效的”时,是可能犯错误的。犯错误的概率是0.078。也就是说,我们有近92%的把握认为药是有效的。 二、全国考纲的要求 17.统计案例 了解下列一些常见的统计方法,并能应用这些方法解决一些实际问题. ①独立检验 列联表)的基本思想、方法及简单应用. 了解独立检验(只要求22

回归分析及独立性检验的基本知识点及习题集锦

回归分析的基本知识点及习题 本周题目:回归分析的基本思想及其初步应用 本周重点: (1)通过对实际问题的分析,了解回归分析的必要性与回归分析的一般步骤;了解线性回归模型与函数模型的区别; (2)尝试做散点图,求回归直线方程; (3)能用所学的知识对实际问题进行回归分析,体会回归分析的实际价值与基本思想;了解判断刻画回归模型拟合好坏的方法――相关指数和残差分析。 本周难点: (1)求回归直线方程,会用所学的知识对实际问题进行回归分析. (2)掌握回归分析的实际价值与基本思想. (3)能运用自己所学的知识对具体案例进行检验与说明. (4)残差变量的解释; (5)偏差平方和分解的思想; 本周内容: 一、基础知识梳理 1.回归直线: 如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这两个变量之间具有线性相关关系,这条直线叫作回归直线。 求回归直线方程的一般步骤: ①作出散点图(由样本点是否呈条状分布来判断两个量是否具有线性相关关系),若存在线性相关关系→②求回归系数→ ③写出回归直线方程,并利用回归直线方程进行预测说明. 2.回归分析: 对具有相关关系的两个变量进行统计分析的一种常用方法。 建立回归模型的基本步骤是: ①确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量; ②画好确定好的解释变量和预报变量的散点图,观察它们之间的关系(线性关系). ③由经验确定回归方程的类型. ④按一定规则估计回归方程中的参数(最小二乘法); ⑤得出结论后在分析残差图是否异常,若存在异常,则检验数据是否有误,后模型是否合适等. 3.利用统计方法解决实际问题的基本步骤: (1)提出问题; (2)收集数据; (3)分析整理数据; (4)进行预测或决策。 4.残差变量的主要来源: (1)用线性回归模型近似真实模型(真实模型是客观存在的,通常我们并不知道真实模型到底是什么)所引起的误差。 可能存在非线性的函数能够更好地描述与之间的关系,但是现在却用线性函数来表述这种关系,结果就会产生误差。这 种由于模型近似所引起的误差包含在中。 (2)忽略了某些因素的影响。影响变量的因素不只变量一个,可能还包含其他许多因素(例如在描述身高和体重 关系的模型中,体重不仅受身高的影响,还会受遗传基因、饮食习惯、生长环境等其他因素的影响),但通常它们每一个因素的影响可能都是比较小的,它们的影响都体现在中。 (3)观测误差。由于测量工具等原因,得到的的观测值一般是有误差的(比如一个人的体重是确定的数,不同的秤可 能会得到不同的观测值,它们与真实值之间存在误差),这样的误差也包含在中。 上面三项误差越小,说明我们的回归模型的拟合效果越好。

卡方独立性检验

第八章记数数据统计法—卡方检验法 知识引入 在各个研究领域中,有些研究问题只能划分为不同性质的类别,各类别没有量的联系。例如,性别分男女,职业分为公务员、教师、工人、……,教师职称又分为教授、副教授、……。有时虽有量的关系,因研究需要将其按一定的标准分为不同的类别,例如,学习成绩、能力水平、态度等都是连续数据,只是研究者依一定标准将其划分为优良中差,喜欢与不喜欢等少数几个等级。对这些非连续等距性数据,要判别这些分类间的差异或者多个变量间的相关性方法称为计数数据统计方法。 卡方检验是专用于解决计数数据统计分析的假设检验法。本章主要介绍卡方检验的两个应用:拟合性检验和独立性检验。拟合性检验是用于分析实际次数与理论次数是否相同,适用于单个因素分类的计数数据。独立性检验用于分析各有多项分类的两个或两个以上的因素之间是否有关联或是否独立的问题。 在计数数据进行统计分析时要特别注意取样的代表性。我们知道,统计分析就是依据样本所提供的信息,正确推论总体的情况。在这一过程中,最根本的一环是确保样本的代表性及对实验的良好控制。在心理与教育研究中,所搜集到的有些数据属于定性资料,它们常常是通过调查、访问或问卷获得,除了少数实验可以事先计划外,大部分收集数据的过程是难于控制的。例如,某研究者关于某项教育措施的问卷调查,由于有一部分教师和学生对该项措施存有意见,或对问卷本身有偏见,根本就不填写问卷。这样该研究所能收回的问卷只能代表一部分观点,所以它是一个有偏样本,若据此对总体进行推论,就会产生一定的偏差,势必不能真实地反映出教师与学生对这项教育措施的意见。因此应用计数资料进行统计推断时,要特别小心谨慎,防止样本的偏倚性,只有具有代表性的样本才能作出正确的推论。 第一节卡方拟合性检验 一、卡方检验的一般问题 卡方检验应用于计数数据的分析,对于总体的分布不作任何假设,因此它又是非参数检验法中的一种。它由统计学家皮尔逊推导。理论证明,实际观察次数(f o)与理论次数(f e),又称期望次数)之差的平方再除以理论次数所得的统计量,近似服从卡方分布,可表示为: 这是卡方检验的原始公式,其中当f e越大(f e≥5),近似得越好。显然f o与f e相差越大,卡方值就越大;f o与f e相差越小,卡方值就越小;因此它能够用来表示f o与f e相差的程度。根据这个公式,可认为卡方检验的一般问题是要检验名义型变量的实际观测次数和理论次数分布之间是否存在显著差异。它主要应用于两种情况: 卡方检验能检验单个多项分类名义型变量各分类间的实际观测次数与理论次数之间是否一致的问题,这里的观测次数是根据样本数据得多的实计数,理论次数则是根据理论或经验得到的期望次数。这一类检验称为拟合性检验。

高中数学 第一章 统计案例 1.2.2 独立性检验 2.3 独立性检验的基本思想 2.4 独立性检验的应用学案 北师大版

2.2 独立性检验 2.3 独立性检验的基本思想 2.4 独立性检验的应用 1.了解独立性检验的基本思想方法.(重点) 2.了解独立性检验的初步应用.(难点) [基础·初探] 教材整理1 独立性检验 阅读教材P21~P24第1行部分,完成下列问题. 设A,B为两个变量,每一个变量都可以取两个值,变量A:A1,A2=A1;变量B:B1,B2=B1,有下面2×2列联表: B B1B2总计 A A1a b a+b A2c d c+d 总计a+c b+d n=a+b+c+d 111取B2时的数据;c表示变量A取A2,且变量B取B1时的数据;d表示变量A取A2,且变量B取B2时的数据. 某电视台在一次对收看文艺节目和新闻节目观众的抽样调查中,随机抽取了100名电视观众,相关的数据如下表所示:

文艺节目 新闻节目 总计 20至40岁 40 18 58 大于40岁 15 27 42 总计 55 45 100 由表中数据直观分析,收看新闻节目的观众是否与年龄有关:________(填“是”或“否”). 【解析】 因为在20至40岁的58名观众中有18名观众收看新闻节目,而大于40岁的42名观众中有27名观众收看新闻节目,即b a + b =1858,d c + d =27 42,两者相差较大,所 以,经直观分析,收看新闻节目的观众与年龄是有关的. 【答案】 是 教材整理2 独立性检验的基本思想 阅读教材P 24“练习”以下至P 25“练习”以上部分,完成下列问题. 在2×2列联表中,令χ2= n ad -bc 2 a +b c +d a +c b +d ,当数据量较大时, 在统计中,用以下结果对变量的独立性进行判断: (1)当χ2≤2.706时,没有充分的证据判定变量A ,B 有关联,可以认为变量A ,B 是没有关联的; (2)当χ2>2.706时,有90%的把握判定变量A ,B 有关联; (3)当χ2>3.841时,有95%的把握判定变量A ,B 有关联; (4)当χ2>6.635时,有99%的把握判定变量A ,B 有关联. 对分类变量X 与Y 的统计量χ2的值说法正确的是( ) A .χ2越大,“X 与Y 有关系”的把握性越小 B .χ2越小,“X 与Y 有关系”的把握性越小 C .χ2越接近于0,“X 与Y 无关系”的把握性越小

高中数学 第三章 统计案例 3.1 独立性检验 卡方检验素材 苏教版选修2-3

2 χ 检验 (一) 掌握内容 1. 2χ检验的用途。 2. 四格表的2 χ检验。 (1) 四格表2 χ检验公式的应用条件; (2) 不满足应用条件时的解决办法; (3) 配对四格表的2 χ检验。 3. 行?列表的2 χ检验。 (二) 熟悉内容 频数分布拟合优度的2 χ检验。 (三) 了解内容 1.2 χ分布的图形。 2.四格表的确切概率法。 (一) 2χ检验的用途 2χ检验(Chi-square test )用途较广,主要用途如下: 1.推断两个率及多个总体率或总体构成比之间有无差别 2.两种属性或两个变量之间有无关联性 3.频数分布的拟合优度检验 (二) 2 χ检验的基本思想 1.2 χ检验的基本思想是以2 χ值的大小来反映理论频数与实际频数的吻合程度。在零假设0H (比如0H :21ππ=)成立的条件下,实际频数与理论频数相差不应该很大,即2 χ值不应该很大,若实际计算出的2 χ值较大,超过了设定的检验水准所对应的界值,则有理由怀疑0H 的真实性,从而拒绝0H ,接受H 1(比如1H :21ππ≠)。 2. 基本公式:()∑ -= T T A 2 2 χ,A 为实际频数(Actual Frequency ),T 为理论频数 (Theoretical Frequency )。四格表2 χ检验的专用公式正是由此公式推导出来的,用专用公 式与用基本公式计算出的2χ值是一致的。 (三)率的抽样误差与可信区间 1.率的抽样误差与标准误 样本率与总体率之间存在抽样误差,其度量方法: n p ) 1(ππσ-= ,π为总体率,或 (8-1) n p p S p ) 1(-= , p 为样本率; (8-2) 2.总体率的可信区间 当n 足够大,且p 和1-p 均不太小,p 的抽样分布逼近正态分布。 总体率的可信区间:(p p S u p S u p ?+?-2/2/,αα)。 (8-3) (四)2 χ检验的基本计算

无差检验、独立性检验 SPSS

作业6: 1.无差检验 随机从某市抽取90名教师,其中高级职称有30名,中级职称有42名,初级职称有18名。若假设规定高、中、初级职称比为2:6:2,试问这一调查结果是否与规定相一致? 注:上表中“1”表示高级职称、“2”表示中级职称、“3”表示初级职称。 (2)研究假设 零假设:这一调查结果与规定一致。 备择假设:这一调查结果与规定不一致。 (3)操作说明 1.输入数据。保存为“数据1”。 2.对观测量进行加权。单击“数据”菜单下的“加权个案”,在弹出的“加权个案” 对话框中,选择“加权个案”单选项,并选择“人数”变量,单击“添加”按钮使 之添加到“频率变量”框中,定义该变量为权数,然后单击“确定”按钮,返回数 据编辑框。 3.卡方检验。单击“分析”菜单下的“非参数检验”,选项中得“卡方检验”命令。 在弹出的“卡方检验”对话框中,因为要对高级职称、中级职称、初级职称的人数 进行分析,所以在对话框左侧的列表中选择“职称”变量,单击“添加”按钮使之 添加到“检测变量列表”框中。在“期望值”框中得“数值”处输入理论上高级职 称、中级职称、初级职称的比例2:6:2,然后单击“确定”按钮,SPSS开始进行卡 方检验。 (4)生成图表及结果解释 从第一个表格中可以看出高、中、初级职称的实际观测值、理论值和两者之间的差异个数;从第二个表格中可以看出自由度df=2,X2=10.667>9.210= X20.01 (2), P<0.01,所以拒绝零假设,支持备择假设,即这一调查结果与规定不一致。

2.独立性检验 在研究初中厌学学生意志力时,某研究得到下表样本资料,试问厌学学生的意志力水平是否与年级有关? (1)原始数据 (2)研究假设 零假设:厌学学生的意志力水平与年级无关。 备择假设:厌学学生的意志力水平与年级有关。 (3)操作说明 1. 输入数据。保存为“数据2”。 2.对观测量进行加权。单击“数据”菜单下的“加权个案”,在弹出的“加权个案”对 话框中,选择“加权个案”单选项,并选择“人数”变量,单击“添加”按钮使之添加到“频率变量”框中,定义该变量为权数,然后单击“确定”按钮,返回数据编辑框。 3.独立性检验。单击“分析”菜单下的“描述统计”中得“交叉表”选项,在弹出的“交叉表”对话框中,将左边列表中得“年级”添加到“行”变量框中,将左边列表框中得“意志力水平”添加到“列”变量中。点击“统计量”按钮,在弹出的对话框中,选择“卡方检验”单选项。点击“继续”按钮,返回到“交叉表”对话框中,点击“确定”。SPSS开始进行独立性检验。 (4)生成图表及结果解释。

统计案例之独立性检验

统计案例之独立性检验 班级姓名学号 参考公式:,其中. 1.在中学生综合素质评价某个维度的测评中,分优秀、合格、尚待改进三个等级进行学生 互评.某校高一年级有男生500人,女生400人,为了了解性别对该维度测评结果的影响, 采用分层抽样方法从高一年级抽取了45名学生的测评结果,并作出频数统计表如下: 表一:男生表二:女生 (1)从表二的非优秀学生中随机抽取2人交谈,求所选2人中恰有1人测评等级为合格的概率; (2)由表中统计数据填写下面的列联表,并判断是否有90%的把握认为“测评结果优秀与性别有关”.

2.东亚运动会将于2013年10月6日在天津举行.为了搞好接待工作,组委会打算学习北 京奥运会招募大量志愿者的经验,在某学院招募了16名男志愿者和14名女志愿者,调查发现,男女志愿者中分别有10人和6人喜爱运动,其余人不喜欢运动. (1)根据以上数据完成以下2×2列联表: 喜爱运动不喜爱运动总计 男10 16 女 6 14 总计30 (2)根据列联表的独立性检验,能否在犯错误的概率不超过0.10的前提下认为性别与喜爱运动有关? (3)如果从喜欢运动的女志愿者中(其中恰有4人会外语),抽取2名负责翻译工作,那么抽出的志愿者中至少有1人能胜任翻译工作的概率是多少? 3.某中学拟在高一下学期开设游泳选修课,为了了解高一学生喜欢游泳是否与性别有关, 现从高一学生中抽取人做调查,得到如下列联表: 已知在这人中随机抽取一人抽到喜欢游泳的学生的概率为, (Ⅰ)请将上述列联表补充完整,并判断是否有%的把握认为喜欢游泳与性别有关? 并说明你的理由;

(Ⅱ)针对问卷调查的名学生,学校决定从喜欢游泳的人中按分层抽样的方法随机抽取 人成立游泳科普知识宣传组,并在这人中任选两人作为宣传组的组长,求这两人中至少有一名女生的概率, 4.某学校高三年级有学生 1 000名,经调查,其中750名同学经常参加体育锻炼(称为A 类同学),另外250名同学不经常参加体育锻炼(称为B类同学),现用分层抽样方法(按A 类、B类分两层)从该年级的学生中共抽查100名同学,如果以身高达165 cm作为达标的标准,对抽取的100名学生,得到以下列联表: 身高达标身高不达标总计 经常参加体育锻炼40 不经常参加体育锻炼15 总计100 (1)完成上表; 5.某校进行文科、理科数学成绩对比,某次考试后,各随机抽取100名同学的数学考试成绩进行统计,其频率分布表如下.

统计案例-独立性检验及其初步应用

独立性检验的基本思想及其初步应用 知识点 1.与列联表相关的概念 (1)分类变量:变量的不同“值”表示个体所属的不同类型,像这样的变量称为分类变量. (2)列联表: ①列出的两个分类变量的频数表, 称为列联表. ①一般地,假设有两个分类变量X 和Y ,它们的取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(称为2×2列联表)为: y 1 y 2 总计 x 1 a b a +b x 2 c d c +d 总计 a +c b +d a + b + c +d 在2×2列联表中,如果两个分类变量没有关系,则应满足ad -bc ≈0, 因此|ad -bc |越小, 关系越弱; |ad -bc |越大, 关系越强. 2.等高条形图 将列联表中的数据用高度相同的两个条形图表示出来,其中两列的数据分别对应不同的颜色,这就是等高条形图。 等高条形图与表格相比,图形更能直观地反映出两个分类变量间是否相互影响, 常用等高条形图展示列表数据的频率特征. 列联表和等高条形图的优劣: 列联表可以准确掌握总体中各部分的频率,但是需要计算; 等高条形图可以比较各个部分之间的差异,明确展现两个分类变量的关系。 3.独立性检验的基本思想 (1)定义:利用随机变量K 2来判断“两个分类变量有关系”的方法称为独立性检验. (2)公式:K 2= n ad -bc 2a +b c + d a +c b +d ,其中n =a +b +c +d 为样本容量.用它的大小可以用 来决定是否拒绝原来的统计假设0H .如果K 2的值较大,就拒绝0H ,即认为A 与B 是有关的. 注:独立性检验的基本思想与反证法类似,由结论不成立时推出有利于结论成立的小概率事件发生,而小概率事件在一次试验中通常是不会发生的,所以认为结论在很大程度上是成立的.

《独立性检验》

《独立性检验的基本思想及其初步应用》教学设计 东北师范大学附属实验学校李宇 一、教学内容与内容解析 1.内容: 独立性检验的基本思想及实施步骤 2.内容解析: 本节课是人教A版(选修)2—3第三章第二单元第二课时的内容.在本课之前,学生已经学习过事件的相互独立性、正态分布及回归分析的基本思想及初步应用。本节课利用独立性检验进一步分析两个分类变量之间是否有关系,是高中数学知识中体现统计思想的重要课节。 在本节课的教学中,要把重点放在独立性检验的统计学原理上,理解独立性检验的基本思想,明确独立性检验的基本步骤。在独立性检验中,通过典型案例的研究,介绍了独立性检验的基本思想、方法和初步应用。独立性检验的基本思想和反证法类似,它们都是假设结论不成立,反证法是在假设结论不成立基础上推出矛盾从而证得结论成立,而独立性检验是在假设结论不成立基础上推出有利于结论成立的小概率事件发生,于是认为结论在很大程度上是成立的。因为小概率事件在一次试验中通常是不会发生的,所以有利于结论成立的小概率事件的发生为否定假设提供了有力的证据。 学习独立性检验的目的是“通过典型案例介绍独立性检验的基本思想、方法及其初步应用,使学生认识统计方法在决策中的作用”。这是因为,随着现代信息技术飞速发展,信息传播速度快,人们每天都会接触到影响我们生活的统计方面信息,所以具备一些统计知识已经成为现代人应具备的一种数学素养。 教学重点:理解独立性检验的基本思想及实施步骤. 二、教学目标与目标解析 1.目标: ①知识与技能目标 通过生活中新闻案例的探究,理解独立性检验的基本思想,明确独立性检验的基本步

骤,会对两个分类变量进行独立性检验,并能利用独立性检验的基本思想来解决实际问题。 ②过程与方法目标 通过探究“玩电脑游戏与注意力集中是否有关系”引出独立性检验的问题,借助样本数据的列联表分析独立性检验的实施步骤。利用上节课所学已经由数据直观判断出玩电脑游戏与注意力集中可能有关系。这一直觉来自于观测数据,即样本。问题是这种来自于样本的印象能够在多大程度上代表总体。这节课就是为了解决这个问题,在学生亲身体验感受的基础上,提高学生的数据分析能力。 ③情感态度价值观目标 通过本节课的学习,加强数学与现实生活的联系。以科学的态度评价两个分类变量有关系的可能性。培养学生运用所学知识,解决实际问题的能力。教学中适当地利用学生合作与交流,使学生在学习的同时,体会与他人合作的重要性。 2.目标解析: 独立性检验是考察两个分类变量是否有关系,并且能较精确地给出这种判断的可靠程度的一种重要的统计方法.利用独立性检验,能够帮助我们对日常生活中的实际问题作出合理的推断和预测.因此,在学习中通过对统计案例的分析,理解和掌握独立性检验的方法,体会独立性检验的基本思想在解决实际问题的应用,以提高我们处理生活和工作中的某些问题的能力. 新课标指出:学生的数学学习内容应当是现实的、有趣的和富有挑战性的。从心理学的角度看,青少年有一种好奇的心态、探究的心理。因此,紧紧地抓住学生的这一特征,利用学生身边的问题“玩电脑游戏与注意力集中是否有关系”,设计教学情境,使学生在观察、讨论等活动中,逐步提高数据分析能力。 三、教学问题诊断分析 1.本节课的内容独立性检验对学生来说是全新的内容,为什么有这么一个方法?为什么要学习这个方法?通过课前的新闻引入可以让学生体会到本节课知识的应用性。 2.独立性检验相当于建立一个判别“两个分类变量之间有关系”这一结论是否成立的规则,并且给出该规则把“两个分类变量之间没有有关系”错判成“两个分类变量之间有关系”的概率。所以首先要教会学生的是了解并初步理解这个规则,而后才是会用这个

高中数学 统计 板块五 独立性检验完整讲义(学生版)

学而思高中完整讲义:统计.板块四.统计数据的数字特征.学生版 一.随机抽样 1.随机抽样:满足每个个体被抽到的机会是均等的抽样,共有三种经常采用的随机抽样方法: ⑴简单随机抽样:从元素个数为N的总体中不放回地抽取容量为n的样本,如果每一次抽取时总体中的各个个体有相同的可能性被抽到,这种抽样方法叫做简单随机抽样. 抽出办法:①抽签法:用纸片或小球分别标号后抽签的方法. ②随机数表法:随机数表是使用计算器或计算机的应用程序生成随机数的功能生成的一张数表.表中每一位置出现各个数字的可能性相同. 随机数表法是对样本进行编号后,按照一定的规律从随机数表中读数,并取出相应的样本的方法. 简单随机抽样是最简单、最基本的抽样方法. ⑵系统抽样:将总体分成均衡的若干部分,然后按照预先制定的规则,从每一部分抽取一个个体,得到所需要的样本的抽样方法. 抽出办法:从元素个数为N的总体中抽取容量为n的样本,如果总体容量能被样本容量整 除,设 N k n =,先对总体进行编号,号码从1到N,再从数字1到k中随机抽取一个数s作 为起始数,然后顺次抽取第2(1) s k s k s n k +++- ,,,个数,这样就得到容量为n的样本.如果总体容量不能被样本容量整除,可随机地从总体中剔除余数,然后再按系统抽样方法进行抽样. 系统抽样适用于大规模的抽样调查,由于抽样间隔相等,又被称为等距抽样. ⑶分层抽样:当总体有明显差别的几部分组成时,要反映总体情况,常采用分层抽样,使总体中各个个体按某种特征分成若干个互不重叠的几部分,每一部分叫做层,在各层中按层在总体中所占比例进行简单随机抽样,这种抽样方法叫做分层抽样. 分层抽样的样本具有较强的代表性,而且各层抽样时,可灵活选用不同的抽样方法,应用广泛. 2.简单随机抽样必须具备下列特点: ⑴简单随机抽样要求被抽取的样本的总体个数N是有限的. ⑵简单随机样本数n小于等于样本总体的个数N. ⑶简单随机样本是从总体中逐个抽取的. ⑷简单随机抽样是一种不放回的抽样. ⑸简单随机抽样的每个个体入样的可能性均为n N . 3.系统抽样时,当总体个数N恰好是样本容量n的整数倍时,取 N k n =; 若N n 不是整数时,先从总体中随机地剔除几个个体,使得总体中剩余的个体数能被样本容 量n整除.因为每个个体被剔除的机会相等,因而整个抽样过程中每个个体被抽取的机会仍 然相等,为N n . 二.频率直方图 列出样本数据的频率分布表和频率分布直方图的步骤: ①计算极差:找出数据的最大值与最小值,计算它们的差; 知识内容

知识讲解 独立性检验的基本思想及其初步应用(文、理)

独立性检验的基本思想及其初步应用 编稿:赵雷审稿:李霞 【学习目标】 1. 了解独立性检验(只要求2×2列联表)的基本思想、方法及初步应用 2. 通过典型案例的探究,了解实际推断原理和假设检验的基本思想、方法及初步应用. 【要点梳理】 要点一、分类变量 有一种变量,这种变量所取不同的“值”表示的是个体所属不同类别,称这种变量为分类变量。 要点诠释: (1)对分类变量的理解。 这里的“变量”和“值”都应作为广义的“变量”和“值”进行理解。例如:“性别变量”有“男”和“女”两种类别,这里的变量指的是性别,同样这里的“值”指的是“男”和“女”。因此,这里所说的“变量”和“值”取的不一定是具体的数值。 (2)分类变量可以有多种类别。例如:吸烟变量有“吸烟”与“不吸烟”两种类别,而国籍变量则有多种类别。 要点二、2×2列联表 1. 列联表 用表格列出的分类变量的频数表,叫做列联表。 2. 2×2列联表 对于两个事件A ,B ,列出两个事件在两种状态下的数据,如下表所示: 这样的表格称为2×2列联表。 要点三:卡方统计量公式 为了研究分类变量X 与Y 的关系,经调查得到一张2×2列联表,如下表所示 统计中有一个有用的(读做“卡方”)统计量,它的表达式是: 22 ()()()()() n ad bc K a b c d a c b d -=++++(n a b c d =+++为样本容量)。 要点四、独立性检验

1. 独立性检验 通过2×2列联表,再通过卡方统计量公式计算2K 的值,利用随机变量2K 来确定在多大程度上可以认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验。 2. 变量独立性的判断 通过对2K 统计量分布的研究,已经得到两个临界值:3.841和6.635。当数据量较大时,在统计中,用以下结果对变量的独立性进行判断: ①如果2K ≤3.841时,认为事件A 与B 是无关的。 ②如果2K >3.841时,有95%的把握说事件A 与事件B 有关; ③如果2 K >6.635时,有99%的把握说事件A 与事件B 有关; 要点诠释: (1)独立性检验一般是指通过计算2K 统计量的大小对两个事件是否有关进行判断; (2)独立性检验的基本思想类似于反证法。即在H 0:事件A 与B 无关的统计假设下,利用2K 统计量的大小来决定在多大程度上拒绝原来的统计假设H 0,即拒绝“事件A 与B 无关”,从而认为事件A 与B 有关。独立性检验为假设检验的特例。 (3)利用独立性检验可以考察两个分类变量是否有关,并且能较精确地给出这种判断的把握程度。 3.独立性检验的基本步骤及简单应用 独立性检验的步骤: 要推断“A 与B 是否有关”,可按下面步骤进行: (1)提出统计假设H 0:事件A 与B 无关(相互独立); (2)抽取样本(样本容量不要太小,每个数据都要大于5); (3)列出2×2列联表; (4)根据2×2列联表,利用公式:22 ()()()()() n ad bc K a c b d a b c d -=++++,计算出2 K 的值; (5)统计推断:当2 K >3.841时,有95%的把握说事件A 与B 有关; 当2 K >6.635时,有99%的把握说事件A 与B 有关; 当2K >10.828时,有99.9%的把握说事件A 与B 有关; 当2K ≤3.841时,认为事件A 与B 是无关的. 要点诠释: ① 使用2 K 统计量作2×2列联表的独立性检验时,要求表中的4个数据都要大于5.

卡方检验 (Chi-square)

卡方检验(Chi-square) ?参数与非参数检验 ?卡方匹配度检验 ?卡方独立性检验 ?卡方检验的前提和限制 ?卡方检验的应用 参数与非参数检验 ?参数检验 ◆用于等比/等距型数据 ◆对参数的前提:正态分布和方差同质 ?非参数检验 ◆不用对参数进行假设 ◆对分布较少有要求,也叫d i s t r i b u t i o n-f r e e t e s t s ◆用于类目/顺序型数据 ◆没有参数检验敏感,效力低 ◆因此在二者都可用时,总是用参数检验 卡方匹配度检验 ?用样本数据检验总体分布的形状或比率,以确定与假设的总体性质的匹配度?是对次数分布的检验 ?研究情境 ◆在医生职业中,男的多还是女的多? ◆在三种咖啡中,哪种被国人最喜欢? ◆在北京大学中,各国留学生的比例有代表性吗? 卡方匹配度检验的公式 ?χ2=∑[(f0-f e)2/f e] ?f e=p n ?d f=C-1 ◆F0:观察次数 ◆f e:期望次数 ◆C:类目的个数 ◆Χ2:统计量 卡方独立性检验 ?检验行和列的两个本来变量彼此有无关联 卡方独立性检验的公式 ?χ2=∑[(f0-f e)2/f e] ?f e=(r o w t o t a l)(c o l u m n t o t a l)/n, ?d f=(R-1)(C-1)

◆F0:观察次数 ◆f e:期望次数 ◆R:行类目的个数C:列类目的个数◆Χ2:统计量 例:х2检验 1.计算期望次数fe=(fc*fr)/n 2.计算每个单位格的х2值 22 df=(R-1)(C-1)= (3-1)(2-1)=2,х2的临界值为5.99 拒绝Ho,对手表显示的偏好程度与被试的年龄段有关

高中数学第一章统计案例独立性检验独立性检验的基本思想独立性检验的应用

独立性检验 独立性检验的基本思想 独立性检验的应用 一、选择题 1.在研究吸烟与患肺癌的关系中,通过收集数据、整理分析数据得“吸烟与患肺癌有关”的结论,并且有99%以上的把握认为这个结论是成立的,下列说法中正确的是( ) A. 100个吸烟者中至少有99人患有肺癌 B. 1个人吸烟,那么这个人有99%的概率患有肺癌 C .在100个吸烟者中一定有患肺癌的人 D .在100个吸烟者中可能一个患肺癌的人也没有 【答案】 D 【解析】 独立性检验的结论是有一定失败概率的. 2.为考察高中生的性别与是否喜欢数学课之间的关系,从某高中随机抽取300名学生,得到如下列联表: 喜欢数学课程 不喜欢数学课程 总计 男 37 85 122 女 35 143 178 总计 72 228 300 A .性别与是否喜欢数学无关 B .性别与是否喜欢数学有关 C .性别与是否喜欢数学关系不确定 D .以上说法都错误 【答案】 B 【解析】 χ2 = 300×37×143-35×852 72×228×178×122 ≈4.514>3.841,故选B. 3.下表是一个2×2列联表: y 1 y 2 总计 x 1 a 21 73 x 2 2 25 27 总计 b 46 100 则表中a ,b

2 A .94,96 B .52,50 C .52,54 D .54,52 【答案】 C 【解析】 由??? ?? a +21=73 a +2=b ,得??? ?? a =52 b =54 . 二、填空题 4.在一次打鼾与患心脏病的调查中,共调查了1 671人,经过计算得χ2 =27.63,根据这一数据分析,我们有理由认为打鼾与患心脏病是____________的.填(“有关”或“无关”) 【答案】 有关 【解析】 ∵27.63>6.635, ∴打鼾与患心脏病有关的可能性很大,我们可以有99%的把握这么认为. 5.如果χ2 的值为8.654,可以认为“A 与B 无关”的可信度是____________. 【答案】 1% 【解析】 ∵8.654>6.635 ∴我们认为A 与B 有关的把握为99%,故“A 与B 无关”的可信度为1%. 三、解答题 6.2009年春天山东出现了手足口传染病,在菏泽地区调查了350人,其中女孩170人,男孩180人,女孩中有14人被感染,其余未被感染,男孩中有21人被感染,其余未被感染. (1)根据以上数据建立一个2×2的列联表; (2)判断性别与被感染是否有关系. 【解析】 (1)2×2列联表如下: 是否感染 性别 被感染 未被感染 总计 女 14 156 170 男 21 159 180 总计 35 315 350 (2)由χ2 = 350×14×159-21×156 2 170×180×35×315 ≈1.144 0<2.706, ∴没有充分证据说明性别与被感染有关.

相关主题
文本预览
相关文档 最新文档