当前位置:文档之家› 统计学原理复习重点概述

统计学原理复习重点概述

统计学原理复习重点概述
统计学原理复习重点概述

统计学原理复习重点概述

本课程主要包括三部分知识。第一部分统计基础知识第一章和第二章数据收集部分。第二部分描述统计第二章统计数据整理部分(表格与图形法)、第三章数据分布特征的描述(静态数据描述法)和动态数据描述法,即第六章时间数列分析和第八章统计指数。第三部分推断统计第四章抽样估计和第五章假设检验与方差分析。

第一章绪论。本章介绍统计学及相关概念,勾勒了本课程的框架结构——描述统计学和推断统计学。是统计的三层含义,总体、样本及指标等概念。

统计的三层含义及相互关系

统计学是一门关于数据的科学,是一门关于数据的收集、整理、分析、解释和推断的科学。

(一)统计工作(统计的基本含义)

即统计实践活动,是人们对客观事物的数据资料进行搜集、整理、分析的工作活动的总称。

(二)统计资料

是统计工作的成果,包括各种统计报表、统计图形及文字资料等。

(三)统计学

是一门收集、整理、描述、显示和分析统计数据的方法论的科学,其目的是探索事物的内在数量规律性,以达到对客观事物的科学认识。

(四)三者关系

统计学与统计实践活动的关系是理论与实践的关系,理论源于实践,理论又高于实践,反过来又指导实践。统计工作和统计数据是工作和工作成果关系。

统计实践活动的产生与发展

三个主要的统计学派

1、政治算术学派

代表人物:英国的威廉·配第(1623-1687)、约翰·格朗特(1620-1674)等。

威廉·配第的代表著《政治算术》对当时的英、荷、法等国的― 国富和力量‖进行了数量的计算和比较;格朗特写出了第一本关于人口统计的著作。他们开创了从数量方面研究社会经济现象的先例。

可以说,威廉·配第是统计学的创始人。

2、记述学派(国势学派〕

代表人物:德国的康令(1606-1681)

阿亨瓦尔(1719-1772;1764年首创统计学一词)

他们在大学中开设― 国势学‖课程,采用记述性材料,讲述国家― 显著事项‖,籍以说明管理国家的方法。特点是偏重于事物质的解释而忽视量的分析。

3、数理统计学派

代表人物:比利时的凯特勒(1796-1874)

他把古典概率论引进统计学,发展了概率论,推广了概率论在统计中的应用。凯特勒把德国的国势学派、英国的政治算术学派和意大利、法国的古典概率论家以融合改造为近代意义的统计学。他是数理统计学派的奠定人。

代表著作:社会物理学

有的教材分类

古典统计学时期(17世纪中后期~18世纪中后期)

1.政治算术学派:代表人物威廉·配第(政治经济学之父),首次运用数量对比分析法,又称―有名无实‖的统计学。

2.记述学派/国势学派:―统计学是研究一国或多国的显著事项之学‖,以文字描述为主,又称―有实无名‖的统计学。

3.图表学派:用统计图和统计表表现和保存统计资料。

近代统计学时期(18世纪末~19世纪末)

1.数理统计学派:创始人阿道夫·凯特勒,第一次将概率论引入社会经济现象的研究中,被誉为―近代统计学之父‖。

2.社会统计学派:代表人物恩格尔,采用大量观察法研究社会经济现象总体。现代统计学时期(20世纪初至今)

1.主要成果:在随机抽样基础上建立了推断统计学。

2.数理统计学的发展特点与趋势

(1)数学方法的广泛应用。

(2)边缘统计学的形成。

(3)借助计算机手段,统计学的应用日益广泛和深入。

统计学的分类

从统计方法的构成角度分:

1、描述统计学(descriptive statistics)

研究如何取得、整理和表现数据资料,进而通过综合、概括与分析反映客观现象的数量特征。包括数据的收集与整理、数据的显示方法、数据分布特征的描述与分析方法等。

2、推断统计学(inferential statistics)

研究如何根据样本数据去推断总体数量特征的方法。包括抽样估计、假设检验、方差分析及相关和回归分析等。

描述统计学和推断统计学的关系

描述统计学是统计学的基础和统计研究工作的前提,推断统计学则是现代统计学的核心和统计工作的关键。

从统计方法的研究和应用角度分:

1、理论统计学(theoretical statistics)

利用数学原理研究统计学的一般理论和方法的统计学,如概率论与数理统计2、应用统计学(applied statistics)*

研究如何应用统计方法解决实际问题,大多是以数理统计为基础形成的边缘学科。如自然科学领域的生物统计学、社会科学领域的社会经济统计学等。

统计学与其他学科的关系

(一)统计学与数学的关系

1、区别

(1)研究对象不同:数学研究抽象的量,

统计研究具体的量。

(2)研究方法不同:数学是演绎,统计是归纳和演绎的结合。

2.、联系

数学为统计研究提供数学公式、模型和分析方法。

(二、)统计学与其他学科的关系

统计几乎与所有学科都有联系。统计方法可以帮助其他学科探索学科内的数量规律性,但对这种数量规律性的解释与进一步的研究,只能由各学科自已的研究完

成。

统计的研究对象、特点、作用

统计的研究对象、特点:

社会经济统计,也可称为经济统计,其研究对象是社会经济现象总体的数量规律,即通过对(社会)经济现象的规模、水平、结构、比例和速度等数量关系的调查研究,说明国民经济和社会发展在一定时间、地点、条件下的数量表现及变化规律,其中涉及到数量的多少、现象间的数量关系以及质量互变的数量界限等。社会经济统计学研究的就是在一定的质的规定下具体的不是抽象的数量表现与变化规律。

社会经济统计的特点:

1、数量性:统计研究对象是客观事物的数量方面。

2、总体性:社会经济统计认识社会经济现象时,主要是研究社会经济现象的总体数量规律,即通过大量的观察,获得足够多的统计资料,说明、认知总体现象的变化情况及规律。

3、具体性:社会经济统计的研究对象是具体事物的数量,不是抽象的量。它与数学研究的数量是不尽相同的。

4、社会性:社会经济统计认识的对象是社会经济现象,它包括人类经济社会活动的各种条件(自然条件、社会条件)、人类各种活动的过程与结果(生产活动、交换活动、分配活动、消费活动等)。

统计的职能:信息职能、咨询职能、监督职能。

统计学中几个基本概念

统计总体和总体单位

总体即统计总体,是指客观存在的、在同一性质基础上结合起来的许多个别事物的整体。

例如:要研究全国城镇居民的收支情况,就以全国城镇居民作为一个总体。特点:

同质性是确定总体的前提和基础。它是根据统计的研究目的而定的。

研究目的不同,则所确定的总体也不同,其同质性的意义也随之变化。例如,研究城镇居民贫困户的生活状况,那么,贫困线下的城镇居民户则构成了统计总体,贫困线下的城镇居民户是同质的,而贫困线上的城镇居民户是非同质的。

大量性统计总体应该由足够数量的同质性单位构成。实现统计研究目的的必要条件

差异性构成总体的各个同质性单位的特征存在着差异。它是统计研究的前提和内容。

总体单位(简称单位)是组成总体的各个个体。根据研究目的的不同,单位可以是人、物、机构等实物单位,也可以是一种现象或活动等非实物单位。

总体和单位的概念是相对而言的,随研究目的不同,总体范围不同而变化。同一研究对象,在一种情况下为总体,但在另一情况下又可能变成单位。

根据总体所包含的单位数量,总体可以分为有限总体和无限总体两类。有限总体是由有限量的单位构成的总体。当总体单位数难以确定,其数量可能是无限时,便构成无限总体。

样本由总体的部分单位组成的集合称为样本(又称子样)。

当总体单位数量很多甚至无限时,不必要或不可能对构成总体的所有单位都进行调查。这时,需要采用一定的方式,从由作为研究对象的事物全体构成的总体(又称全及总体、母体)中,抽取一部分单位,作为总体的代表加以研究。

样本也由一定数量的单位构成的,符合总体的概念;由样本单位组成的总体称为抽样总体,样本所包含的总体单位数称为样本容量。

标志和变量

总体各单位普遍具有的属性或特征称为标志。

标志分类:

品质标志:品质属性方面的特征,只能用文字、符号或数字代码来表现。

数量标志:数量方面的特征,用数值来表现。

不变标志: 一个总体中各单位某标志的具体表现都相同,称之为不变标志。不变标志是总体同质性的基础。一个总体至少要有一个不变标志,才能够使各单位结合成一个总体。

变异标志:亦称可变标志,在一个总体中,当一个标志在各单位的具体表现有可能不同时,这个标志便称为可变标志。作为总体,同时必须存在变异标志,这表示所研究的现象在各单位之间存在着差异,才需要进行统计研究。

统计指标

统计指标是反映统计总体数量特征的概念和数值。如2002年我国国内生产总值104790.6亿元。

–统计指标由两项基本要素构成,即指标的概念(名称)和指标的取值。

–指标的概念(名称)是对所研究现象本质的抽象概括,也是对总体数量特征的质的规定性。确定统计指标必须有一定的理论依据,使

之与社会经济或科学技术的范畴相吻合。同时,又必须对理论范畴

和计算口径加以具体化。

–指标的数值反映所研究现象在具体时间、地点、条件下的规模和水平。在观察指标数值时,必须了解其具体的时间状态、空间范围、

计量单位、计量方法等限定,同时注意由于上述条件的变化而引起

数值的可比性问题。

特性:数量性、具体性、综合性

指标与标志的关系

–标志反映总体单位的属性和特征,而指标则反映总体的数量特征。

标志和指标的关系是个别和整体的关系。需要通过对各单位标志的

具体表现进行汇总和计算才能得到相应的指标。

–总体和单位的概念会随着研究目的不同而变化,因此指标与标志的概念也是相对而言的。例如,所要研究的是全国工业企业的情况,

则各企业的职工人数、固定资产、工业增加值等都是总体单位(即

各个企业)的标志,如果研究目的变成研究某一企业的职工状况,

则该企业变成一个总体,企业职工人数变成了统计指标,每个职工

的文化程度、技术等级、性别等就成为标志。

统计数据

(一)变量与变量值

说明现象的某一数量特征的概念也被称为变量,变量的具体取值是变量值,统计数据就是统计变量的具体表现。

例如,固定资产是一个变量,各企业固定资产的具体数值是变量值。

为了区别,在本书中,凡是变量均用大写的英文字母表示,而变量值则用小写英文字母表示。连续型变量是指变量的取值在数轴上连续不断,无法一一列举,即在一个区间内可以取任意实数值。

例如,气象上的温度、湿度,零件的尺寸等。

离散型变量是指变量的其取值是整数值,可以一一列举。

例如,企业数,职工人数等。

确定性变量是受确定性因素影响的变量,即影响变量值变化的因素是明确的,是可解释和可控制的。

随机变量则是受许多微小的不确定因素(又称随机因素)影响的变量。变量的取值无法事先确定。

社会经济现象既有确定性变量也有随机变量。统计学所研究的主要是随机变量。

(二)数据的计量尺度

统计数据是总体单位标志或统计指标的具体数量表现。

根据对研究对象计量的不同精确程度,人们将计量尺度由低到高、由粗略到精确分为四个层次:定类尺度、定序尺度、定距尺度和定比尺度。

(三)数据的类型

横截面数据又称为静态数据,它是指在同一时间对同一总体内不同单位的数量进行观察而获得的数据。

时间序列数据又称为动态数据,它是指在不同时间对同一总体的数量表现进行观察而获得的数据。

例如,2005年全国各省市自治区的国内生产总值就属于横截面数据。而―十五‖期间我国历年的国内生产总值就属于时间序列数据。

(四)数据的表现形式

绝对数。现象的规模、水平一般以绝对数形式表现。绝对数的计量单位一般为实物单位或价值单位,有时也采用复合单位。实物单位可以是自然计量单位,也可以是物理计量单位,如人口数用人计量,机器数用台计量,对于一些化工产品和燃料,常常还折合成标准实物单位计量。复合计量单位是由两种或两种以上计量单位复合而成的,如以―吨公里‖为货物周转量的计量单位,以―千瓦时‖为用电量的计量单位。

相对数。相对数由2个互相联系的数值对比求得。常用的相对数包括:结构相对数、动态相对数、比较相对数、强度相对数、利用程度相对数、计划完成相对数等。

平均数。平均数反映现象总体的一般水平或分布的集中趋势。关于这部分的内容,将在第三章作详细介绍。

第二章统计数据的收集与整理。本章介绍统计数据的搜集及整理。重点在于统计调查方式和统计数据整理(分组)。

统计调查方式:

1、普查:

为某一特定目的而专门组织的一次性全面调查

如:人口普查、工业普查等

●特点:

(1)通常是周期性的或一次性的,涉及面广、耗时、费力,一般需间隔较长时间;

(2)一般需要规定统一的标准调查时间,以避免调查数据的重复或遗漏;(3)准确性一般较高,较规范;

(4)适用的对象较窄,只能调查一些最基本、最一般的现象。

2、抽样调查:

从调查对象的总体中随机抽取一部分单位作为样本进行调查,并根据样本调查

结果推断总体数量特征。

●特点:

(1)经济性强:工作量小、可节省人、财、物力

(2)时效性高:可迅速、及时地获得所需要的信息

(3)适应面广:可获得更广泛的信息,适用于各个领域、各种问题的调查;(4)准确性高:用工量小,从而工作可做得更细,误差往往很小。

3、统计报表

按国家有关法规规定,自上而下地统一布置,自下而上地逐级提供基本统计数据。

●特点:

统一的表式、统一的指标、统一的报送时间、统一的报送程序。

●类型:

(1)按报送调查范围分:

全面报表:调查对象中的每一个单位都填报

非全面报表:只要求调查对象中的一部分单位填报

(2)按报送时间间隔分

日报、月报、季报、年报

(3)按报送地域(机构)范围分:

国家报表、地方报表、部门报表

4、重点调查

从调查对象的全部单位中选择少数重点单位进行调查(适用于“同类”中的“大户”)。

5、典型调查

从调查对象的全部单位中选择一个或几个有代表性的单位进行调查。(不一定针对“大户”)

▼注意:

重点调查、典型调查与抽样调查的不同处在于:

1、抽样调查是随机抽取调查单位,不存在对调查对象选择的主观性,因此可以根据抽样结果推断总体的数量特征;

2、重点调查和典型调查不是随机取样,具有一定的主观性,因此调查结果不能推断总体。

数据的搜集方法

1、访问调查(派员调查):调查者与被调查者通过面对面的交谈获取调查资料;

2、邮寄调查:通过邮寄或其他方式将问卷送至被调查者,由被调查者填写问卷并寄回或投放到指定收集点;

3、电话调查:调查者利用电话同受访者进行语言交流以获取信息;

4、座谈会(集体访谈):将受访者集中在调查现场,使其对调查主题发表意见以获取调查资料;

5、个别深度访问:一次只有一名受访者参加的特殊的定性研究。

统计数据的整理(summarizing data)是指对所搜集的数据进行加工整理、使之系统化、条理化,以符合分析的需要。

统计数据的整理通常包括:

数据的预处理

分类或分组

汇总 数据分组与频数分布

统计分组是将预处理过的数据按照某种特征或标准分成不同的组别。

◎统计分组标志:分组时所依据的特征或标准,有品质标志和数量标志。

◎频数分布表:对分组后的数据,计算各组中数据出现的次数或频数所形成的汇总表。 概念:频数/次数分布;相对频数;百分数频数

◎ 频数分布或次数分布(Frequency distribution):全部数据按其分组标志在各组内的分布状况。

分布在各组内的数据个数称为频数或次数。

A frequency distribution is a tabular summary of a set of data showing the frequency (or number) of items in each of several nonoverlapping classes.

◎相对频数(Relative frequency )/频率/比重:各组频数与全部频数之和的比重。 The relative frequency of a class is the proportion of the total number of data items belonging to the class.(=Frequency of the class/n)

◎百分数频数(Percentage frequency):is the relative frequency multiplied by 100.

数值数据的分组与频数分布 分组计频基本步骤:

确定组数→? 确定组距→?(按组)整理成分布频数表

第一步,确定组数(Number of classes)。组数的确定一般视数据本身的特点及数据的多少而定

经验上以5~20之间为好,尤其注意不要确定太多的组数,使得每组包含的数据太少。

实际分组时常按斯特格斯(Sturges )提出的经验公式来确定组数K :

第二步,确定组距(Width of classes):组距是一个组的上限与下限之差,可根据全部数据的最大值和最小值及所分的组数来确定: 组距=(最大值 - 最小值)/组数

第三步,确定各组组限(Class limits)并据此整理频数分布表。 1、分组所遵循的主要原则是“不重不漏”(each data value belongs to one class and only one class)。因此,

最低组限(The lower class limit) ≤ 数据的最小值, 最大组限(The upper class limit) ≥数据的最大值;

另外,数据在每组中的归属习惯上采用“上组限不在内”。 2、对离散型数据,可采用相邻两组组限间断的办法解决“不重”的问题(如6~10,11~15,16~20等); 3、对连续型数据,往往采用相邻两组组限重叠,根据“上限不在内原则”解决“不重”问题(如[5,10),[10,15),[15,20)等)。 注意:

1

、在最大值与最小值与其他数据相差悬殊时,为避免空白组出现,第一

组和最后一组可采用―XX 以下‖及―XX 以上‖这样的开口组;

2、在组距分组时,如果各组组距相等则称为等距分组,否则为不等距分组。 不等距分组各组的频数受组距大小不同的影响,因此需要计算频数密度(=频数/组距),才能准确反映频数分布的实际;

3、有时为了统计需要,需进一步计算累积频数(某数值以上或以下的频之数和)。

统计分组的概念、原则、则和方法统计表(补充讲义14页word 文档)。

分配数列/次数分布数列

由两个要素构成,一是组别,二是各组次数或频率。根据需要,可以编制简单次数分布表和累计次数分布表。 次数分布

主要有钟形分布、U 形分布和J 形分布。 统计表和统计图

统计表和统计图是显示统计数据的两种重要形式。统计表的结构从形式看可分为总标题、横表目、纵标目和指标数值;从内容上看可分为主词和宾词两部分。统计图主要有条形图、直方图、圆形图等。

第三章、数据分布特征的描述。本章主要介绍数据的集中趋势和离散趋势。重点是各种平均指标及离散指标概念、计算方法和适用条件。

统计学中刻划数据分布特征的最主要的代表有二:数据分布的集中趋势与数据分布的离散程度。

集中趋势是指一组数据向某一中心值靠拢的倾向,测度集中趋势就是寻找数据一般水平的代表值或中心值。

均值(Mean ) 均值就是一组数据的平均值(average value),用来测度中心位置(central location)。

1、算术平均数

简单算术平均数 加权算术平均

加权算术平均往往适用于对分组后的数据求均值,这时Xi 为各组变量代表值(往往取组中值),Fi 为各组变量值出现的频数。 算术均值具有如下性质:

(1)各变量值与其均值的离差和为零: (2)各变量值与其均值的离差平方和最小:

(3)对被平均的变量实施某种线性变换后,新变量的算术平均数等于对原变量的算术平均数实施同样的线性变换的结果。

(4)对于任意两个变量x 和y

,它们的代数和的算术平均数等于两个变量的算术平均数的

代数和。

均值容易受到统计数据中个别极端数据的影响,从而使均值代表某组统计数据的“平均水平”时失去意义,这时往往用“剔除极端值”的方法加以修正。 2、几何平均数

(1)几何平均数是N 个变量值乘积的N 次方根 (2)加权几何平均数

几何平均数的对数是各变量值对数的算术平均。 几何平均主要用于计算比率或速度的平均 几何平均数的应用及特点 :

我国国内生产总值2001年、2002年、2003年的环比发展速度分别是107.5%,108.3%,109.3%,则各年的平均发展速度是

%4.108084.1093.1083.1075.13==??=G

某人有一笔款项存入银行10年,前2年的年利率为6%,第3至5年的年利率是5%,后5年的年利率3%,如果按复利计算,这笔款项的平均年利率为多少?

%

.......G 24042010421042103105106110532==-=??=

这笔款项的平均年利率为4.2%。 ①应用条件

a.变量值是相对数据,如比率或发展速度。

b.变量值的连乘积等于总比率或总发展速度。 ②特点

a.如果数列中有一个标志值等于零或负值,则无法计算。

b.受极端值影响较小,故较稳健。

(3)调和平均数,是各数据倒数的(简单)算术平均数的倒数: 价格=金额/购买量

由相对数和平均数计算平均数

根据相对数和平均数计算平均数时,如何正确选择和应用算术平均数与调和平均数,

在缺少被平均标志x

的分子资料时,要采用算术平均数,即“缺分子,用算术”。如上述平均计划完成程度,其分子是实际利润额,分母是计划利润额,当已知各企业的利润计划完成程度和计划利润额时(缺少实际利润额),则采用算术平均数。

%.f xf x 0396800

1600500800

10516009550085=++?+?+?=∑∑=

在缺少被平均标志的分母资料时,要采用调和平均数,即“缺分母,用调和。”如例4.6中,

当已知各企业的利润计划完成程度和实际利润额时(缺少计划利润额资料),则采用调和平均数。

中位数(Median)

中位数是一组数据按大小排序后,处于中间位置上的变量值。 1、 对于未分组数据:

(1)如果数据个数为奇数,则中位数恰为处于中间位置的数: (2)如果数据个数为偶数,则为中间位置两个数的平均数

?

?

?

??+=21N e X M

(2)单项数列的中位数

计算各组的累计频数(向上累计或向下累计);根据中位数位置确定中位数。

对于分组后的数据

下限公式:

上限公式:

式中:m 为中位数所在的组,d 为该组组距,

L 、U 分别为该组的下限值与上限值, fm 为该组的频数,

Sm-1 为该组以下各组的频数总和, Sm+1为该组以上各组的频数总和, 显然

众数(Mode)

众数是一组数据中出现次数最多的变量值。 在分组数据中,众数可按下式计算: 下限公式:

上限公式:

式中: fm 为某数值出现次数(频数)最多的组(第m 组)的频数, fm-1与fm+1分别为第m-1组与m+1组的频数,

L 、U 分别为第m 组的下限与上限值,d 为该组组距。

???

?

??????+=??? ??+??

? ??12221N N e X X M d

f S f

L M m

m e ?-+=-∑

1

2d

f S f

U M m

m e ?--=+∑

1

2∑

=+++-f S f S m m m 11

1、如果某组统计数据中没有哪个数值出现较多的频率(次数),则可认为该组数无众数;如果有多个数据出现的次数(频率)较多,则认为有多个众数。

在有多个众数的情况下,则对众数的关注度下降,因为多众数对描述数据位置无多大帮助。

2、对描述品质数据的分布特征的―位置‖测度只能用众数。

中位数、众数与算术平均数的关系

?众数、中位数和均值都是对数据集中趋势的测度,

1、均值由全部数据计算,包含了全部数据的信息,具有良好的数学性质,当数据接近对称分布时,具有较好的代表性;但对于偏态分布,其代表性较差。

2、中位数是一组数据中间位置上的代表值,不受数据极端值的影响,对于偏态分布的数据,其代表性要比均值好。

3、众数是一组数据分布的峰值,是一种位置的代表,当数据的分布具有明显的集中趋势时,尤其对于偏态分布,众数的代表性比均值好。

4、对接近正态的分布数据,常用均值描述数据的集中趋势;对偏态分布,常用众数或中位数描述数据的集中趋势。

5、均值只适用于定距或定比尺度的数据;定序尺度数据可用中位数或众数进行描述,而对定类尺度数据,只能用众数进行描述。

分布离散程度的测度

对数据分布特征的另一个测度指标是数据分布离散程度。

它反映各数据远离其中心值的程度,因此,也称离中趋势。

集中趋势反映的是各变量值向其中心值聚集的程度,

离中趋势反映各变量值之间的差异状况。

注意:

集中趋势的测度值概括地反映了数据的一般水平,它对该组数据的代表程度,取决于该组

数据的离散水平。

数据的离散程度越大,集中趋势的测度值对该组数据的代表性就越差。

极差(Range)

极差是最简单的测度离中趋势(分散程度)的指标,也称全距,是一组数据最大值与最小值之差:

Range=Largest Value - Smallest Value

对于组距分组数据,极差可近似地表示为:

R=最高组上限- 最低组下限

▲注意:

1、极差易受极端值的影响;

2、由于极差只利用了数据两端的信息,没有反映中间数据的分散状况,因而不能准确描述数据的分散程度。

方差(Variance)

方差是各变量值与其均值离差(deviation about the mean)平方的平均数。

总体方差(Population Variance)

总体方差用 2表示

其中:Fi为第i组数据的频数Xi为第i个数(未分组)或第i 组组中值(分组)

样本方差(Sample Variance)

样本方差用S2表示

其中:fi为第i组数据的频数xi为第i个数(未分组)或第i 组组中值(分组)

标准差:方差的平方根(正)。

1、由于方差计算中使用了平方运算,因此方差的单位也是平方,如上述班级规模例中方差为64(学生)2,其具体意义不明确。因此方差只有在比较不同组数据的离散程度时才有数量大小上的意义。

2、标准差是对方差的开方运算,因此,其单位与原始数据的单位一致,它与均值及其他用同一单位测度的数据相比较也容易一些。

(标准差就是指数据“离散程度的测度值”距“均值”的距离)。 离散系数(Coefficient of Variation)

离散系数:一组数据标准差与其均值的比,也称为标准差系数,是测度数据离散程度的相对指标:

离散系数:一组数据标准差与其均值的比,也称为标准差系数,是测度数据离散程度的相对指标:

例:五个班级规模的例中,

若视为总体,离散系数为:7.15/44=0.16,若视为样本,则离散系数为:8/44=0.182。

四、离散系数

(Coefficient of Variation)

1、对不同组数据,其离散程度既受其数据本身的水平的影响,也受数据计量单位的影响,因此对不同(性质)组别的数据,不好用离差或标准差来比较它们的离散程度;

2、由于离散系数消除了来自这两方面的影响,因此可以用它进行不同数据组的比较。

分布偏态与峰度的测度

偏态(Skewness)和峰度(Kurtosis)是对数据分布特征的进一步描述。

平均数与标准差相同的数据组,其频数分配(分布)也可能不同,如果频数分布是对称的,则称为对称分布,否则为偏态分布。 偏态及其测度

测定偏态的方法主要有两种: (1)算术平均数与众数比较法, (2)动差法。

算术平均数与众数比较法

完全对称分布:算术平均数、中位数、众数重合 非对称分布:三者相互分离,

算术平均数 < 中位数 < 众数

可用算术平均数与众数之间的距离作为测度偏态的一个尺度: 偏态 = 算术平均数 - 众数

这是偏态的绝对数,它以原有数据的单位为单位。

峰度及其测度

峰度是频数分布的另一重要特点。

其测度的是:某种频数分布的曲线与正态分布曲线相比,是尖顶,还是平顶,其尖或平的程度如何。

峰度就是频数分布曲线顶端的尖峭程度。

峰度的测度,往往以中心4阶动差为基础进行;

第四章抽样估计。本章主要介绍了抽样估计的基本概念及抽样估计。点估计和区间估计。其中区间估计是主要方法。应理解置信区间、置信度、显著性水平的含义,领会区间估计精确度和可靠度之间的关系,重点掌握总体均值和总体比例的区间估计方法、样本容量的确定方法。

一般所讲的抽样调查,即指狭义的抽样调查(随机抽样):按照随机原则从总体中抽取一部分单位进行观察,并运用数理统计的原理,以被抽取的那部分单位的数量特征为代表,对总体作出数量上的推断分析。

抽样估计的特点

?按随机原则抽取样本单位

?目的是推断总体的数量特征

?抽样推断的结果具有一定的可靠程度,抽样误差可以事先计算并控制

抽样推断中的基本概念

全及总体和样本

1.全及总体:是由被调查对象的全部单位所构成的集合体,简称总体。

总体容量:总体中的单位数,用N表示。

2.样本:样本是从总体中抽取的进行调查的部分单位的集合体,又称抽样总体。

样本容量:样本中的单位数,用n表示。

大样本和小样本:n≥30时称大样本,n<30称小样本。

**应用:在班级40名学生中随机选取15人进行健康状况调查,说明其中的总体、样本及容量。概率抽样与非概率抽样

1.概率抽样:又称随机抽样,是按随机原则抽取样本单位。本章所指的均为概率抽样。

2.非概率抽样:又称非随机抽样,是指从研究的目的和需要出发,根据调查者的经验或判断,从总体中有意识地抽取部分单位构成样本。

**应用举例:重点调查、典型调查应为非概率抽样。

重复抽样和不重复抽样

1.重复抽样:又称有放回的抽样,从总体中抽取样本时,每次被抽中的单位都再被放回总体中参与下一次抽样。

2.不重复抽样:又称无放回的抽样,总体中随机抽选的单位经观察后不放回到总体中,即不再参加下次抽样。

统计学期末复习-公式汇总

统计报表 专门调查 普查 抽样调查 典型调查 重点调查 按调查的组织方式不同分为 按调查时间是否连续分为 按调查单位的范围大小分为 全面调查 非 全面调查 一次性调查 经 常性调查 统计学复习 第一章 1.“统计”的三个涵义:统计工作、统计资料、统计学 2.三者之间的关系:统计工作和统计资料是工作与工作成果的关系; 统计资料和统计学是实践与理论的关系 3.统计学的特点:数量性,总体性,具体性,社会性(广泛性) 4.统计工作的过程一般分为统计调查、统计整理和统计分析三个阶段 5.总体与总体单位的区分:统计总体是客观存在的,在同一性质基础上结合起来的许多个别单位的整体,构成总体的这些个别单位称为总体单位。(总体或总体单位的区分不是固定的:同一个研究对象,在一种情况下是总体,在另一种情况下可能成了总体单位。) 6.标志:总体单位所具有的属性或特征。 A 品质标志—说明总体单位质的特征,不能用数值来表示。如:性别、职业、血型色彩 B 数量标志—标志总体单位量的特征,可以用数值来表示。如:年龄、工资额、身高 指标:反映社会经济现象总体数量特征的概念及其数值。 指标名称体现事物质的规定性,指标数值体现事物量的规定性 第二章 1.统计调查种类 2.统计调查方案包括六项基本内容: 1)确定调查目的;(为什么调查) 2)确定调查对象与调查单位;(向谁调查) 调查对象——社会现象的总体 调查单位——调查标志的承担者(总体单位) 填报单位——报告调查内容,提交统计资料 3)确定调查项目、拟定调查表格;(调查什么) 4)确定调查时间和调查期限 5)制定调查的组织实施计划; 6)选择调查方法。

统计学原理期末复习

一、单项选择题 1.某机床厂要统计该企业的自动机床的产量和产值,上述两个变量是()。 A.二者均为离散变量 B.二者均为连续变量 C.前者为连续变量,后者为离散变量 D. 前者为离散变量,后者为连续变量 2.社会经济统计的研究对象是()。 A.抽象的数量特征和数量关系 B.社会经济现象的规律性 C.社会经济现象的数量特征和数量关系 D.社会经济统计认识过程的规律和方法 3.统计标志用以说明()。 A.总体的属性和特征 B.总体某一综合数量特征的社会经济范畴 C.总体中各个单位共同具有的属性和特征 D.总体单位在一定时间、地点条件下运作的结果 4.某市进行一次零售食品质量与价格调查,其调查单位是()。 A.该市所有食品商店 B.每一个食品商店 C.每一种零售食品 D.全部零售食品 5.调查对象与调查单位具有一定的对应关系。如果调查对象是全部工业企业,则调查单位是()。 A.工业企业中的职工 B.每一个企业的厂长 C.每一个工业企业 D.企业中的每一个车间 6、调查某市全部工业企业设备的状况,则调查单位是()。 A.全部工业企业B.每一个工业企业 C.每一台设备D.设备台数

7.某机床厂要统计该企业的自动机床的产量和产值,上述两个变量()。 A.两者均为离散变量 B.两者均为连续变量 C.前者为连续变量,后者为离散变量 D.前者为离散变量,后者为连续变量 8.某市工业企业2007年生产经营成果年报呈报时间规定在2008年1月31日,则调查期限为()。 A.一日B.一个月 C.一年D.一年零一个月 9.已知某地区有300家工业企业,要调查研究这些企业生产那设备的完好状况,调查单位是()。 A.300家工业企业 B.每个工业企业 C.全部生产设备 D.每一件生产设备 10.统计调查是进行资料整理和分析的()。 A.基础环节 B.中间环节 C.最终环节 D.必要补充 11.对某城市工业企业未安装设备进行普查,总体单位是()。 A.工业企业全部未安装设备 B.工业企业每一台未安装设备 C.每一个工业企业的未安装设备 D.每一个工业企业 12.对全国各铁路交通枢纽的货运量.货物种类等进行调查,以了解全国铁路货运概况,这种调查属于()。 A.不连续性典型调查 B.连续性全面调查 C.连续性重点调查 D.抽样调查 13.对某企业职工按日生产的产品数多少分为四组:100件以下、100-140件、140-180件、180件以上。第一组和第四组的组中值分别是()。 A.80和200 B.90和210 C.100和180 D.60和120

统计学原理计算题及答案

2 ?采用简单重复抽样的方法从一批零件中抽取 200件进行检查,其中合格品 188件。要求: (1) 计算该批零件合格率的抽样平均误差; (2) 按95.45%的可靠程度(t=2,就是我们现在的Z )对该批零件的合格率作出区间估计。 解:n =200,n =188 (1)合格率 = 1?^ = 94% n 200 合格率的抽样平均误差 p(1 — p) 「0.94 x 0.06 J0.0564 . ---------- 0.000282 = 0.01679 = 1.679%(2)按95.45%的可靠程度对该批零件的 p i n , 200 \ 200 合格率作出区间估计 二Z 」p =2 1.68% =3.36% p - :p =94% -3.36% =90.64% p :P =94% 3.36% =97.36% 该批零件合格率区间为: 990.64%乞P 乞97.36% 要求: (1) 试计算各年的环比发展速度及年平均增长量。 (2) 如果从2006年起该地区的粮食生产以 10%的增长速度发展,预计到 2010年该地区的粮食产量将达到什么水平? 2006年起该地区的粮食生产以 10%的增长速度发展 x =1 10% =110% 71 预计到2010年该地区的粮食产量将达到 解: (1) 各年的环比发展速度 472 二 108.76% a 0 434 a 2 516 109.32 % 472 a g 584 a 2 516 = 113.18% 618 =105.82% a 4 年平均增长量 累计增长量 累计增长个数 …=618一434」84=46 4 4 4 (2)如果从

统计学考试要点整理

2010级3班整理生物统计学基础知识整理 生物统计学整理 第一部分名词解释本文档仅供参考,仍有不足,有许多名词没有交待,需自己补充。本资料与课本,课后习题册搭配使用效果更好,有疑问联系大正 1生物统计学:是一门探讨如何从事生物学实验研究的设计,取样,分析,资料整理与推 论的科学.是数理统计在生物学研究中的应用,它是应用数理统计的 原理和方法来分析和解释生物界各种现象和试验调查资料的一门学科, 属于应用统计学的一个分支。 2总体:统计学研究的全部对象叫做总体,分为无限总体和有限总体。 3个体:构成总体的每个成员称为个体。 4样本:总体的一部分称为样本 5样本含量:样本内包含的个体数目称为样本含量 6抽样:从总体中获得样本的过程。 7连续性数据:与某种标准做比较所得到的数据称为连续型数据,又称为度量数据 8离散型数据:由记录不同类别个体的数目所得到的数据,称为离散型数据 9变量的方法:对连续性数据进行分析的方法,通常称为变量的方法 10属性的方法:对离散型数据进行分析的方法 11对于数据的变异程度,经常使用的度量方法有三中,1 范围或称为极差 2 平均离差 3 标准离差或称为标准差 12概率论:研究偶然现象本身规律性的科学 13统计学:基于实际观测结果,利用概率论得出的规律,揭示偶然性中所寄寓的必然性 的科学 14随机实验:在我们做第一次观测时,并不能准确得知下一次的结果,这样的实验叫做随机实验 随机误差:试验过程中,由于各种无法控制的随机因素所引起统计量与参数之间的偏差,称之为随机误差。 15基本事件:试验的每一最基本结果用小写拉丁字母表示

2.什么叫总体?什么叫样本?为什么要抽样?怎样抽样? 1)总体:统计学研究的全部对象叫做总体,分为无限总体和有限总体。 2)样本:总体的一部分称为样本 3)从总体中获得样本的过程称为抽样,抽样的目的是希望通过对样本的 研究,推断其总体。生物统计学中往往总体数目是无限个,为方便研究总 体特征需要抽样。 4)从总体中抽取样本时,总体中的每一个个体被抽中的机会必须都一样,不能带有偏见,我们得到的样本应该是该市总体的一部分,需要进行随机 抽样。随机抽样的方法很多,例如抽签,拈阄等。最好方法是使用随机数 字表进行抽样。 5)随即数字表抽样步骤:第一步,闭上眼睛用铅笔在随机数字表上任意 点上一点,假若点到奇数,就用第一页表;假若点到偶数,就用第二页表。 第二步,在选定的那一页上,在点一次,决定从那个字开始。决定开始以 后进行读书(例如,总体有 4728 个个体,那就四位数字为一节读下去,

《统计学原理》期末复习资料(1)

2015秋季学期《统计学原理》复习资料 一、单选题 1. 某厂4月份产量与1月份产量相比增长了10%,若已知4月份产量为1000,那么1月份的产量为(A )。 A.909.09 B.976.45 C.968.73 D.1032.28 2.以下各项属于品质标志的有(B )。 A.工龄 B.健康状况 C.工资水平 D.劳动时间利用率 3.连续变量( C)。 A.表现形式为整数 B.取值可一一列举 C.取值连续不断,不能一一列举 D.一般都四舍五入取整数 4.了解某公司职工文化程度情况,总体单位是( B)。 A.该公司全体职工 B.该公司每一位职工 C.该公司全体职工文化程度 D.该公司每一位职工文化程度 5.在某市工业设备普查中,调查单位是(D )。 A. 该市每一家工业企业 B. 该市全部工业设备 C. 该市全部工业企业 D. 某公司新推出了一种饮料产品,欲了解该产品在市场上的受欢迎程度,公司派人到各商 场、超市随机调查了200 名顾客。该公司采用的调查方法是(C )。 A. 直接观察法 B. 报告法 C. 访问调查法 D.很难判断 7.企业要对流水生产线上的产品质量实行严格把关,那么,在质量检验时最合适采用的调 查组织方式是( D)。 A. 普查 B. 重点调查 C.典型调查 D. 抽样调查 8. 统计资料按数量标志分组后,处于每组两端的数值叫(C )。 A. 组距

C. 组限 D. 组中值 9.统计分组的核心问题是(A )。 A.选择分组的标志 B.划分各组界限 C.区分事物的性质 D.对分组资料再分组 10. 在分组的情况下,总体平均指标数值的大小(C )。 A. 只受各组变量值水平的影响,与各组单位数无关 B. 只受各组单位数的影响,与各组变量值水平无关 C. 既受各组变量值水平的影响,又与各组次数有关 D. 既不受各组变量值水平的影响,也部受各组次数的影响 11. 在组距数列中,用组中值作为计算算术平均数直接依据的假定条件是(D )。 A. 各组次数必须相等 B. 各组必须是闭口组 C. 总体各单位变量值水平相等 D. 总体各单位变量值水平在各组内呈均匀分布 12. 标志变异指标反映了总体各单位变量值分布的(B )。 A. 集中趋势 B. 离散趋势 C. 变动趋势 D. 长期趋势 13. 抽样误差( D)。 A.既可以避免,也可以控制 B. 既不可以避免,也不可以控制 C. 可以避免, 但不可以控制 D. 不能避免, 但可以控制 14. 抽样平均误差反映了样本估计量与总体参数之间的(C )。 A. 实际误差 B. 可能误差范围 C. 平均差异程度 D. 实际误差的绝对值 15.凡是用来反映现象数量对比关系的相对数被称为( C)。 A. 增(减)量 B. 增加速度 C. 广义指数 D. 狭义指数 16.用来反映个别事物数量对比的相对数称为( C)。 A. 总指数 B. 类指数 C. 个体指数 D. 平均指数 17.在综合指数的变形中,加权算术平均指数所用权数是(D )。

统计学原理计算题试题及答案

电大专科统计学原理计算题试题及答案 计算题 1.某单位40名职工业务考核成绩分别为: 68 89 88 84 86 87 75 73 72 68 75 82 97 58 81 54 79 76 95 76 71 60 90 65 76 72 76 85 89 92 64 57 83 81 78 77 72 61 70 81 单位规定:60分以下为不及格,60─70分为及格,70─80分为中,80─90 分为良,90─100分为优。 要求: (1)将参加考试的职工按考核成绩分为不及格、及格、中、良、优五组并 编制一张考核成绩次数分配表; (2)指出分组标志及类型及采用的分组方法; (3)分析本单位职工业务考核情况。 解:(1) (2)分组标志为"成绩",其类型为"数量标志";分组方法为:变量分组中 的开放组距式分组,组限表示方法是重叠组限; (3)本单位的职工考核成绩的分布呈两头小, 中间大的" 正态分布"的形态, 说明大多数职工对业务知识的掌握达到了该单位的要求。 2.2004年某月份甲、乙两农贸市场农产品价格和成交量、成交额资料如下

试问哪一个市场农产品的平均价格较高?并说明原因。 解: 解:先分别计算两个市场的平均价格如下: 甲市场平均价格()375.145 .5/==∑∑=x m m X (元/斤) 乙市场平均价格325.14 3 .5==∑∑= f xf X (元/斤) 说明:两个市场销售单价是相同的,销售总量也是相同的,影响到两个市场 平均价格高低不同的原因就在于各种价格的农产品在两个市场的成交量不同。 3.某车间有甲、乙两个生产组,甲组平均每个工人的日产量为36件, 标准差为9.6件;乙组工人日产量资料如下: 要求:⑴计算乙组平均每个工人的日产量和标准差; ⑵比较甲、乙两生产小组哪个组的日产量更有代表性? 解:(1)

统计学重点

简答 1、抽样框是包含全部抽样单位的名单框架。主要有三种形式:名单抽样框;区域抽样框;时间表抽样框。 2、样本估计量的标准差定义为抽样平均误差;抽样平均误差的平方为抽样方差;一定概率下抽样误差的可能范围,称为极限误差 3、必要抽样数目因素影响(1)总体方差(或总体标准差)(2)允许误差范围(3)置信度(4)抽样方法(5)抽样组织形式 4、估计量:样本指标又称样本统计量与或估计量。 标准为:无偏性;有效性;一致性 5、点估计常用的方法有哪两种?其基本思想是什么?一是矩估计法。其基本思想是:由于样本来源于总体,样本矩在一定程度上反映了总体矩,而且由大数定律可知,样本矩依概率收敛与总体矩。因此,只要总体x的k阶原点矩存在,就可用样本矩作为相应总体矩的估计量,用样本矩的函数作为总体矩的函数的估计量。 二是极大似然估计法。其基本思想是:设总体分不函数形式已知,但又未知参数,未知参数可以取很多值,在未知参数的一切可能取值中选一个使样本观测值出现的概率为最大的参数作为估计量。 6什,么是抽样推断?抽样推断都有哪几方面的特点? 答:抽样推断是在抽样调查的基础上,利用样本的实际资料计算样本指标,并据以推断总体相应数量特征的统计分析方法。特点:(1)是由部分推算整体的一种认识方法论。(2)建立在随机取样的基础上。(3)运用概率估计的方法。(4)抽样推断的误差可以事先计算并加以控制。 7,什么是参数和统计量?各有何特点? 答:参数指的就是某一个全及指标,它反映了全及总体某种数量特征,统计量即样本指标,它反映了样本总体的数量特征。其特点是:全及指标是总体变量的函数,但作为参数其指标值是确定的、唯一的,是由总体各单位的标志值或标志属性决定的;而统计量是样本变量的函数,是总体参数的估计值,其数量由样本各单位标志值或标志属性决定,统计量本身也是随机变量, 8数据计量尺度:定类尺度、定序尺度、定距尺度、定比尺度。其中定类是分类数据,定序是顺序数据,定距和定比是数值型数据。 常用的调查方式:统计报表、普查、抽样调查、重点调查、典型调查。 9.方差分析:是检验多个总体均值是否相等的统计方法。它是通过检验个总体的均值是否相等来判断分类型自变量对数值型因变量是否有影响。表面上看,方差分析是检验多个总体均值是否相同,但本质上他所研究的是分类型自变量对数值型因变量的影响。例如,他们之间有没有关系,关系的密切程度如何等。10,一组数据的分布从三个方面进行测度:集中趋势,离散程度,偏态和峰太。数据的集中趋势是指一组数据项某一中心靠拢的倾向,它反映了一组数据中心点的位置所在,数据的离散程度反映了各变量值远离其中新的程度,数据的偏态和峰太是测度数据分布形状的两个重要指标。, 11离散系数是用来对两组数据的差异程度进行相对比较的。因为在比较相关的.两组数据的差异时,方差和标准差是以均值为中心计算的,因而有时直接比较方差是不准确的,需要剔除均值大小不等的影响,计算并比较离散系数。他是从相对的角度观察差异和离散系数的,在比较相关事务的差异程度时,较之直接比较标准差要好。 1.一个完整的统计调查方案应包括那些内容? 答:1、确定目的和任务;2、确定对象和单位;3、确定内容,拟定调查表;4、确定时间和期限;5、确定方法;6、确定组织和计划。 2.统计调查误差哪有几种?如何防止或尽量减少调查误差?答:统计调查误差有两种,一种是登记误差,一种是代表性误差。防止和减少登记误差,应制定周密的调查方案,并抓好调查方案的实施工作,利用先进的设备和手段。防止代表性误差,关键在于调查单位的选取。在重点调查和典型调查中应加强选取单位前的研究,在抽样调查中则要严格遵守随机抽样原则,以便选出的调查单位对总体具有较高的代表性。 3.对于连续型变量编制组距式变量数列组限应如何设置?为 什么? 答:对于连续型变量编制组距式变量数列组限应重叠设置。因为连续型变量的数值是连续不断的,相邻两值之间可以取无限个数值,在编制组距式变量数列时,如果组限不重叠设置,就会使一部分变量值无阻可归。 4.简述总量指标的作用? 答:总量指标是对社会经济现象的认识的起点,是实行经济管理的依据之一,是计算其它形式的统计指标的基础。 5.总体单位总量和总体标志总量有何区别? 答:总体单位总量是指总体中单位数的总和,总体标志总量是总体各单位某项指标值之和,二者是从同一总体的俩个方面来看的,它们的含义和作用都不相同。但二者的地位随着研究目的的不同和总体的变化而发生变化。区分它们的关键在于指标本身所反映的内容,属于总体单位的个数为总体单位总量,属于总体中各单位某一标志值的总和为总体标志总量。 6.简述时期指标和时点指标的特点? 答:1、时期指标数值可以连续计数,即通过连续登记获得数据,每个数据都说明了现象在一段时期内发生的总量;而时点指标只能间断计数,即每隔一定时间登记一次,每个数据都表示现象在某一时点上达到的水平。2、性质相同的时期指标数值可以相加,相加后说明较长时期内现象发展的总量;时点指标数值一般相加后没意义。3、同类时期指标数值大小与时期长短成正比;时点指标数值大小与时点间隔长短没有直接关系。 7.平均指标有何作用? 答:平均指标的作用有:1、可以对比同类现象在不同单位、地区的一般水平;2、可以对比某一现象在不同时间的变化;3、可

统计学期末复习重点

统计总体:统计总体是根据一定目的确定的所要研究事物的全体,它是客观存在,并在某一相同性质基础上结合起来的由许多个别事物组成的整体,简称总体。 样本:是指在全及总体中按随机原则抽取的那部分单位所构成的集合体。 算术平均数:算术平均数是统计中最基本、最常用的一种平均数,它的基本计算形式是用总体的单位总数去除总体的标志总量。 调和平均数:是根据变量值的倒数计算的,是变量值倒数的算术平均数的倒数,也叫倒数平均数。 简单分组:是指对所研究的总体按一个标志进行分组。 复合分组:复合分组是指对所研究的总体按两个或两个以上的标志进行的多层次分组。 结构相对指标:结构相对指标是表明总体内部的各个组成部分在总体中所占比重的相对指标,也叫比重指标。 强度相对指标:是指两个性质不同,但有一定联系的总量指标数值之比。 类型抽样:又称分类抽样或分层抽样,它是先将总体按某个主要标志进行分组(或分类),再按随机原则从各组(类)中抽取样本单位的一种抽样方式。 机械抽样:它是将总体各单位按某一标志顺序排列,然后按固定顺序和相等距离或间隔抽取样本单位的抽样组织方式。 综合指数:凡是一个总量指标可以分解为两个或两个以上的因素指标时,为观察某个因素指标的变动情况,将其他因素指标固定下来计算出的指数称为综合指数。 平均指数:平均指数法是以个体指数为基础来计算总指数,根据选用的权数不同,平均指数法可以进一步分为加权算术平均法,加权调和平均法,固定权数加权平均法。 相关关系:是指现象之间客观存在的,在数量变化上受随机因素的影响,非确定性的相互依存关系。 回归分析:现象之间的相关关系,虽然不是严格的函数关系,但现象之间的一般关系值,可以通过函数关系的近似表达式来反映,这种表达式根据相关现象的实际对应资料,运用数学的方法来建立,这类数学方法称为回归分析。 统计调查:就是根据统计研究的目的、要求和任务,运用各种科学的调查方法,有计划、有组织的搜集有关现象的各个单位的资料,对客观事实进行登记,取得真实可靠的调查资料的活动过程。 统计指数:广义指数泛指社会经济现象数量变动的比较指标,及用来表明同类现象在不同空间、不同时间,实际与计划对比变动情况的相对数。狭义指数仅指反应不能直接想家的复杂社会经济现象在数量上综合变动情况的相对数。 简单随机抽样:简单随机抽样也叫纯随机抽样,它对总体单位不做任何分类排队,而是直接从总体中随机抽取一部分单位来组成样本的抽样组织方式。 季节分析的含义:是指某些现象由于自然因素和社会条件的影响在一年之内比较有规律的变动。 总量指标:是指反映一定时间、地点和条件下某种现象总体规模或水平的统计指标。 相对指标:是指说明现象之间数量对比关系的指标,用两个或两个以上有联系的指标数值对比来求得,其结果表现为相对数,故也将相对指标称为相对数。 平均指标:是同类社会经济现象总体内,各单位某一数量标志在一定时间、地点和条件下,数量差异抽象化的代表性水平指标,其数值表现为平均数。 1计算运用总量指标的原则。 (1)在计算实物指标时,应注意现象的同类性 (2)统计总量指标时要有明确的统计含义和合理的统计方法

统计学原理复习1

统计学原理计算题(考试复习必备) 1 某车间有30个工人看管机器数量的资料如下: 5 4 2 4 3 4 3 4 4 5 4 3 4 2 6 4 4 2 5 3 4 5 3 2 4 3 6 3 5 4 以上资料编制变量分配数列。 答案: 2 某班40名学生统计学考试成绩分别为: 68 89 88 84 86 87 75 73 72 68 75 82 97 58 81 54 79 76 95 76 71 60 90 65 76 72 76 85 89 92 64 57 83 81 78 77 72 61 70 81 学校规定:60分以下为不及格,60─70分为及格,70─80分为中,80─90分为良,90─100分为优。要求: (1)将该班学生分为不及格 及格 中 良 优五组,编制一张次数分配表。 (2)指出分组标志及类型;分组方法的类型;分析本班学生考试情况。 答案:(1) (2) 分组方法为:变量分组中的组距式分组,而且是开口式分组; 本班学生的考试成绩的分布呈两头小,中间大的“正态分布”的形态。 3 某企业10 4 计算表如下: 元620=∑? ∑=f x x 该工业集团公司工人平均工资620元。 5 某厂三个车间一季度生产情况如下: 第一车间实际产量为190件,完成计划95%;第二车间实际产量250件,完成计划100%;第三车间实际产量609件,完成计划105%,三个车间产品产量的平均计划完成程度为: %1003 % 105%100%95=++ 另外,一车间产品单位成本为18元/件,二车间产品单位成本12元/件,三车间产品单位成本15元/件,则三个车间平均单位成本为: 153 15 1218=++元/件 以上平均指标的计算是否正确?如不正确请说明理由并改正。 解:两种计算均不正确。 平均计划完成程度的计算,因各车间计划产值不同,不能对其进行简单平均,这样也不符合计划完成程度 指标的特定涵义。正确的计算方法是:平均计划完成程度 () % 84.1011030 104905.160900.125095.0190609250190/== ++++=∑∑= x m m X 平均单位成本的计算也因各车间的产量不同,不能简单相加,产量的多少对平均单位成本有直接影响。故 正确的计算为: 平均单位成本件元/83.141049 15555 609250190609152501219018==++?+?+?=∑∑= f xf X 6

统计学原理计算题及参考答案

"

}

| 1、某生产车间30名工人日加工零件数(件)如下: 30 26 42 41 36 44 40 37 37 25 45 29 43 31 36 36 49 34 47 33 43 38 42 32 34 38 46 43 39 35 要求:(1)根据以上资料分成如下几组:25—30,30—35,35—40,40—45,45—50,计算各组的频数和频率,编制次数分布表; (2) 根据整理表计算工人平均日产零件数。(20分) 解:(1)根据以上资料编制次数分布表如下:

则工人平均劳动生产率为: 17.3830 1145 == = ∑∑f xf x # 要求:(1)建立以产量为自变量的直线回归方程,指出产量每增加1000件时单位成本的平均变动是多少 、 (2)当产量为10000件时,预测单位成本为多少元(15分) x bx a y n x b n y a x x n y x xy n b c 5.28080 10703 125.232105.2615 1441502520250512503210128353)(2 2 2-=+==+=?+=-=-=-=--=-??-?= --= ∑∑∑∑∑∑∑因为,5.2-=b ,所以产量每增加1000件时, 即x 增加1单位时,单位成本的平均变动是:平均减少元 (2)当产量为10000件时,即10=x 时,单位成本为 — 55105.280=?-=c y 元

>课程的测试,甲班平均成绩为81分,标准差为分;乙班的成绩分组资料如下: 计算乙班学生的平均成绩,并比较甲.乙两班哪个班的平均成绩更有代表性 解:乙班学生的平均成绩∑∑=f xf x ,所需的计算数据见下表:

统计学原理考试知识点整理

第1章 绪论 1、统计的含义统计一词最基本的含义是对客观事物的数量方面进行核算和分析,是人们对客观事物的数量表现、数量关系和数量变化进行描述和分析的一种计量活动。 2、统计的特点P3 数量性 具体性 综合性 3、统计学的若干基本概念 总体与总体单位P10: 总体是指在某种共性的基础上由许多个别事物结合起来的整体,构成总体的个别事物叫总体单位; 总体的特征:同质性,大量性,差异性;总体的分类:有限总体与无限总体;标志、变异与变量P10: 标志,是指说明总体单位特征的名称。变异:总体单位之间品质和数量上的差异,即可变标志在总体各单位之间所表现出的差异。变量:可变的数量标志。 连续型变量与离散型变量联系和区别:连续型:变量值可作无限分割的变量离散型:变量值只能以整数出现的变量指标与标志P11 (指标,说明总体数量特征的概念)区别:第一,指标说明总体的特征,而标志则说明总体单位的特征。第二,指标只反映总体的数量特征,所有指标都要用数字来回答问题,没有用文字回答问题的指标。而标志既有反映数量也有反映品质。 第2 章统计调查 1、统计调查的含义及其在统计工作中的地位P13 含义:根据统计研究的目的,有组织、有计划地搜集统计资料的过程地位:是统计工作的第一阶段,是整个统计工作的基础一环 2、统计调查的基本原则P13-14 一、要实事求是,如实反映情况 二、要及时反映,及时预报 三、要数字与情况相结合 3、统计调查的组织形式:普查P14:含义:为搜集某种社会经济现象在某时某地的情况而专门组织的一次性全面调查、优缺点:,适用场合:主要用于一些重要项目呢的调查,如人口普查、耕地普查、基本单位普查、工业普查和库存普查等; 随机抽样调查P14:含义(按随机原则(机会均等原则)从总体中抽取部分单位进行调查,并借以推断和认识总体的一种统计方法)以及具体的抽样方法【第七章】系统抽样、多阶 简单随机、分层抽样、整群抽样、 段抽样)及适用场合;非随机抽样:含义(调查者有意识地或随意而 非随机地从总体中抽取部分单位进行调查的统计方法)以及具体的抽样方法P15 (重点抽样:只对总体中为数不多但影响颇大的重点单位进行研究的一种非

统计学原理复习1

一、判断题() 1. 标志和指标是两个根本不同的概念,两者没有任何联系。 2. 典型调查的误差可以控制。 ( ) 3. 按数量标志分组所形成的次数分布数列叫做变量分布数列。 4. 直接用物量乘以其相应的不变价格所求得的价值指标仅包括数量因素变动, 映物量的变化。 ( ) 5. 平均数与次数和的乘积等于变量值与次数乘积的总和。 6. 平均差是各标志值对其算术平均数的离差的平均数。 7. 利用指数体系理论,可以反映被研究现象的变动趋势。 8. 使用全面资料条件下,平均指数法可以理解为是综合指数法的一种变形形式。 9. 由于抽样调查中既有登记误差又有抽样误差,所以只有登记误差的全面调查准确性高。 ( ) 10. 定量预测必须以定性预测为基础,定性预测是定量预测的前提。 二、单项选择题() 统计学原理》 1.“统计”一词的基本含义是 ( ) A. 统计调查、统计整理、统计分析 B. 统计方法、统计分组、统计计算 C. 统计方法、统计分析、统计预测 D. 统计科学、统计工作、统计资料 2.数量指标一般表现为 ( ) A. 平均数 B. 相对数 C. 绝对数 D. 指数 3.要了解我国农村经济的具体情况,最适合的调查方式是 A. 普查 B. 典型调查 C. 重点调查 D. 抽样调查 4.下 面属于按品质标志分组的是 ( ) A. 企业按职工人数分组 B. 企业按工业总产值分组 C. 企业按经济类型分组 D. 企业按资金占用额分组 5.按连续型变量分组、其末组为开口组, 下限为 2 000 。 组组中值为 ( ) A. 2 500 B. 2 250 C. 2 100 D. 2 200 ( 已知相邻组的组中值为 1 750,则末 则商品销售额计划完成情况相对指标 可以确切地反

00974统计学原理练习题

00974统计学原理 一、单选 1、下列调查中,调查单位与填报单位一致的是( D )。 A. 企业设备调查 B. 人口普查 C. 农村耕地调查 D. 工业企业现状调查 2、每一吨铸铁成本(元)倚铸件废品率(%)变动的回归方程为: y c = 56 + 8x,这意味着( C ) 3、 A. 废品率每增加1%,成本每吨增加64元 B. 废品率每增加1%,成本每吨增加8% 4、 C. 废品率每增加1%,成本每吨增加8元 D. 废品率每增加1%,则每吨成本为56元 3、2005年某地区下岗职工已安置了万人,安置率达%,安置率是( D )。 A.总量指标 B.变异指标 C.平均指标 D.相对指标 4、下面现象间的关系属于相关关系的是( C )。 A. 圆的周长和它的半径之间的关系 B. 价格不变条件下,商品销售额与销售量之间的关系 C. 家庭收入愈多,其消费支出也有增长的趋势 D. 正方形面积和它的边长之间的关系 5、分配数列各组标志值和每组次数均增加15%,加权算术平均数的数值( B )。 A.减少15% B.增加15% C.不变化 D.判断不出 6、次数分配数列是( D)。 A.按数量标志分组形成的数列 B.按品质标志分组形成的数列 C.按统计指标分组所形成的数列 D.按数量标志和品质标志分组所形成的数列 7、对于不同水平的总体不能直接用标准差比较其标志变异度,这时需分别计算各自的 ( A )来比较。 A.标准差系数 B.平均差 C.全距 D.均方差 8、企业按资产总额分组( B ) A.只能使用单项式分组 B.只能使用组距式分组 C.可以单项式分组,也可以用组距式分组 D.无法分组 9、某企业的职工工资水平比上年提高5%,职工人数增加2%,则企业工资总额增长( B )。 A. 10% B. % C. 7% D. 11% 10、在进行分组时,凡是遇到某单位的标志值刚好等于相邻两组上下限数值时,一般是 ( B )。

统计学期末复习重点知识

P11 1.3统计数据可以分为哪几种类型?不同类型的数据各有什么特点? 答:①按照所采用的计量尺度不同,可以将统计数据分为分类数据、顺序数据和数值型数据。 分类数据和顺序数据说明的是事物的品质特征,通常是用文字来表述的,其结果均表现为类别,因此统称定性数据或品质数据。数值型数据说明的是现象的数量特征,通常是用数值来表现,因此也可称为定量数据或数量数据。 ②按照统计数据的收集方法,可以将统计数据分为观测数据和实验数据。 观测数据是通过调查或观测而收集到的数据,这类数据是在没有对事物人为控制的条件下得到的。实验数据则是在实验室中控制对象而收集到的数据。 ③按照被描述的现象与时间的关系,可以将统计数据分为截面数据和时间序列数据。 截面数据通常是在不同的空间获得的,用于描述现象在某一时刻的变化情况。时间序列数据是按时间顺序收集到的,用于描述现象随时间变化的情况。 1.5举例说明总体,样本、参数,统计量变量这几个概念 总体是包含研究的全部个体的集合。比如要检验一批灯泡的使用寿命,这一批灯泡构成的集合就是总体。样本是从总体中抽取的一部分元素的集合。比如从一批灯泡中随机抽取100个,这100个灯泡就构成了一个样本。参数是用来描述总体特征的概括性数字度量。比如要调查一个地区所有人口的平均年龄,“平均年龄”即为一个参数。统计量是用来描述样本特征的概括性数字度量。比如要抽样调查一个地区所有人口的平均年龄,样本中的“平均年龄”即为一个统计量。变量是说明现象某种特征的概念。比如商品的销售额是不确定的,这销售额就是变量。 P40 2.2比较概率抽样和非概率抽样的特点,举例说明什么情况下适合采用概率抽样?什么情况下适合非概率抽样? 答:概率抽样的特点: ①抽样时是按一定的概率以随机原则抽取样本。 ②每个单位被抽中的概率是已知的,或是可以计算出来的。 ③当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中的概率。 非概率抽样的特点: 操作简便,时效快,成本低,而且对于抽样中的统计学专业技术要求不高。 非概率抽样适合探索性的研究,调查的结果用于发现问题,为更深入的数量分析提供准备。同时也适合市场调查中的概念测试,如产品包装测试、广告测试等。 概率抽样适合调查的目标是用样本的调查结果对总体相应的参数进行估计,并计算估计的误差,得到总体参数的置信区间。 P109

统计学原理复习

统计学原理计算题练习第 1 页 共 6 页 统计学原理计算题练习 1.某生产车间30名工人日加工零件数(件)如下:(学习指导P300—1,下同) 30 26 42 41 36 44 40 37 37 25 45 29 43 31 36 36 49 34 47 33 43 38 42 32 34 38 46 43 39 35 要求:(1)根据以上资料分成如下向组:25—30,30—35,35—40,40—45,45—50,计算出各组频数和频率,编制次数分布表。(2)根据整理表计算工人平均日产零件数。 2.某公司下属50个企业,生产同种产品,某月对产品质量进行调查,得资料;要求计算该产品的平均合格率。(P279—1) 34、某企业产品的有关资料如下:试分别计算企业该企业产品98年99年的平均单位产品成本。 5. 1990 试问哪一个市场农产品的平均价格较高?并说明原因。 6. 7 (P168— (P166—18(P165—13(P164—10

8.某企业甲、乙两个车间,甲车间平均每个工人日加工零件数65件,标准差11件;乙车间工人日加工零件数资料:计算乙车间工人加工零件的平均数和标准差,并比较甲、乙两车间哪个车间的平均日加工零 9.某工厂有2000个工人,用简单随机不重复方法抽出100个工人作为样本,计算出平均工资560元,标准差32.45元。要求:(1)计算抽样平均误差; (2)以95.45%(t=2)的可靠性估计该厂工人的月平均工资区间。(P295—5) 10.某乡有5000农户,按随机原则重复抽取100户调查,得平均每户年纯收入12000元,标准差2000元。要求:(1)以95%的概率(t=1.96)估计全乡平均每户年纯收入的区间。 (2)以同样概率估计全乡农户所纯收入总额的区间范围(P179—14) 11.为了解某城市分体式空调的零售价格,随机抽取若干个商场中的40台空调,平均价格为3800元,样本标准差400元。要求:(1)计算抽样平均误差;(2)以99.73%(t=3)的可靠性估计该城市分体式空调的价格区间。(P179—10) 12.从某年级字生中按简单随机抽样方式抽取100名学生,对某公共课的考试成绩进行检查,及格的有82人,试以95.45%的概率保证程度推断全年级学生的及格率区间范围。如果其它条件不变,将允许误差 缩小一半,应抽取多少名学生检查?(P181—19) 13.某企业生产一批日光灯管,随机重复抽取400只作使用寿命试验。测试结果,平均寿命为5000小时,样本标准差为300小时,400只中发现10只不合格。求平均数的抽样平均误差和成数的抽样平均误差。(P177—2) 14.某洗衣机厂随机抽选100台洗衣机进行质量检验,发现有5台不合格。试计算:(1)以68.27%的概率保证程度推断这批洗衣机的合格率。(2)若概率保证程度提高到95.45%,则这批洗衣机的合格率将怎样变化?(3)由此例说明误差范围与概率度之间的关系。 15.采用简单重复抽样的方法,抽取一批零件中的200件作为样本,其中合格品为188件。要求: (1)计算该批零件合格率的抽样平均误差(2)以95.45%的概率保证程度对该零件的合格率进行区间估计16.从某年级字生中按简单随机抽样方式抽取50名学生,对某公共课的考试成绩进行检查,得知其平均分数为75.6分,样本标准差10分,试以95.45%的概率保证程度推断全年级学生的考试成绩的区间范围。 如果其它条件不变,将允许误差缩小一半,应抽取多少名学生检查?(P180—18) P287—3) 17.某企业第二季度产品产量与单位成本资料如下:( 统计学原理计算题练习第 2 页共 6 页

统计学原理计算题

一、时间序列: 1.某公司某年9月末有职工250人,10月上旬的人数变动情况就是:10月4日新招聘12名大学生上岗,6日有4名老职工退休离岗,8日有3名青年工人应征入伍,同日又有3名职工辞职离 岗,9日招聘7名营销人员上岗。试计算该公司10月上旬的平均在岗人数。 解: 1.2562 12232 2591252225822623250=++++?+?+?+?+?= = ∑∑f af a 要求:(1)具体说明这个时间序列属于哪一种时间序列。 (2)分别计算该银行2001年第一季度、第二季度与上半年的平均现金库存额。 解: 2.(1)这就是个等间隔的时点序列 (2)n a a a a a a a n n 22 13210++++++=-K 第一季度的平均现金库存额: )(4803 2520 4504802 500万元=+ ++=a 第二季度的平均现金库存额: )(67.5663 2580 6005502 500万元=+ ++=a 上半年的平均现金库存额: 33.5232 67 .566480,33.52362580 6005504802 500=+==+ ++++=或K a 答:该银行2001年第一季度平均现金库存额为480万元,第二季度平均现金库存额为566、67 万元,上半年的平均现金库存额为523、33万元、 要求计算:①第一季度平均人数;②上半年平均人数。 解: 第一季度平均人数: )(10322 1221020 10501210501002人=+?++?+=a 上半年平均人数:

10233 21321008 102022102010501210501002=++?++?++?+=a 解: 解:产品总产量 ∑=+++++=)(210005000040003000400030002000件a 产品总成本 ∑=+++++=)(1.1480.346.279.214.286.216.14万元b 平均单位成本)/(52.70210001.148件元件 万元 总产量总成本= = ∑∑∑a b c 或:平均单位成本)(52.706 2100010000 61 .148万元=?= =a b c 答:该企业2001年上半年的产品平均单位成本为70.52元/件。 要求:(1)计算并填列表中所缺数字。 (2)计算该地区1997—2001年间的平均国民生产总值。 (3)计算1998—2001年间国民生产总值的平均发展速度与平均增长速度。 解: (1)计算表如下: 某地区1996--2000年国民生产总值数据 (2) )(88.545 9.61585.6811.459.40万元=++++== ∑n a a

统计学复习重点

1、统计学:是收集、汇总和分析统计数据的科学和艺术。 2、统计数据的分析是统计学的核心内容,它是通过统计描述和统 计推断的方法探索数据内在规律的过程。 3、普查:是为某一特定目的而专门组织的一次性全面调查,如人口普查、工业普查、农业普查等。 4、抽样调查的特点:经济性;时效性高;适应面广;准确性高。 5、调查方案:是指导整个过程的纲领性文件,其内容包括调查目的、调查对象和调查单位、调查项目和调查表等内容。 6、组距分组的几个步骤:一、确定组数二、确定组距三、确定组限和进行次数分配四、绘制统计图五、分析。) 7、为消除组距不同对频数分布的影响,需要计算频数密度,即频数密度=频数/组距,用频数密度才能准确反映频数分布的实际情况。8、以组中值作为代表值有一个必要的假定条件,即各组数据在本组内呈均匀分布或在组距中值两侧呈对称分布。 9、描述统计的内容也包括频数分布、但主要是关于集中趋势和离中趋势的描述问题。 10、众数:是一组数据中出现次数最多的变量值。从分布的角度看,众数是具有明显集中趋势点的数值,一组数据分布的最高峰点所对应的数值即为众数,记为M。 11、众数是一组数据中心位置的一个代表值。当然,如果数据的分布没有明显的集中趋势或最高峰点,众数也可以不存在;如果有多个高峰点,实际上也可以认为有多个众数。

12、协方差的大小会受到计量单位和数据均值水平的影响,从而使不同相关总体之间的相关程度缺乏可比性。 13、时间系列:是反映现象随时间的变化而变化的数据系列,也称为时间数列或动态数列。 14、用报告期水平减去基期水平,就等于增长量。其中,当基期水平为上期水平时,就称为逐期增长量,当基期水平为某个时期的固定发展水平时,就称为累计增长量。 15、报告水平与基期水平之比,称为发展速度。其中,当基期水平为上期水平时,就称为环比发展速度;当基期水平为某个时期的固定发展水平时,就称为定基发展速度。 16、序时平均数也称为动态平均数,它反映现象在一定时期内发展水平达到的一般水平。由于指标形式分绝对数、相对数和平均数等,所以对其平均的方法存在差异性。 17、绝对数有时期数和时点数之分,两者的区别主要在于是否具有可加性。 18、几何平均法的应用条件是要求现象呈现均匀变动。如果现象发生大起大落的变化,用几何平均法所计算的平均发展速度将失去代表性。 19、累计法考虑各时期的发展状况,不只是受最初和最末两个极端值的影响。 20、移动平均法是趋势变动分析的一种较简单的常用方法。该方法的基本思想和原理是,通过扩大原时间序列的时间间隔,并按一定的间

相关主题
文本预览
相关文档 最新文档