当前位置:文档之家› 社会统计学

社会统计学

社会统计学
社会统计学

·社会统计学

平均值容易受到偏异值的影响

统计的目的:Inference——推断

答疑时间:周五6-7

第一讲社会科学研究过程

科学循环圈:(研究设计)(贡献新的经验证据,发现新的问题)提出研究问题→形成研究假设→收集数据→分析数据→检验假设→提出研究问(检验不同社会现象之间的关系,文献检索和评述)

理论(ideas)中心

最终得到一般化解释

是一个科学闭环

社会科学研究循环圈、论文写作

定量研究基础:

1.社会科学研究的逻辑

社会科学应该遵循科学研究的逻辑

所谓科学研究,就是运用客观的、逻辑的、系统的方法来搜集事实和分析事实,总结出规律,或者说社会现象间的本质联系,即理论

高度概括

经验数据支持

可以重复

解释、预测predict

2.科学研究的条件(KKV,1994)

以推论为研究目的:

-从直观数据中推导出难以直接观察得到的结论

-描述性推论和因果推论

采用公开的研究程序:

-资料(数据)是公开的

-方法是公开的

科学研究的内容是关于方法的:

-科学研究遵守一系列能够保证推论有效性的规则

-能够把所有科学研究整合起来的是方法,而不是材料

Empirical study 实证研究 positive study

(包括定性研究、案例资料、文本——经验资料)

纯粹的理论研究不属于实证研究

3.社会科学研究的要素

理论模型或框架,即已经被验证的规律

调查或研究工具

应用于一个实际的问题或案例

规范性背景(normative context),即为什么这个问题重要?

4.方法论

科学的方法

达尔文:科学就是整理事实,从中发现规律,做出结论

自然界→人类社会(复杂性增加)人是复杂的动物

定量社会研究的方法论渊源

古典社会学思想与实证主义

—孔德(1798-1857)

倡导用“实证主义”的方法来研究社会

—斯宾塞

社会唯实论

—涂尔干

《社会学方法的准则》(实证主义的纲领)

依据严格的科学方法,检验社会的“法则”或社会现象之间的因果关系,力图解释真实的社会世界

社会学研究基本步骤:假设、推测和检验

社会科学研究的三个基本原理

变异性原理(variability)

-研究的核心是差异(变量),即为什么个体之间存在差异?

社会分组原理(social grouping)

-分组可以消减变异、简化数据,以最小化组内差距和最大化解释的社会变异为原则(分组原则:减少组内差异,增大组间差异——消减变异)

社会情境原理

-变异性模式随着社会情境(时间、空间)的变化而变化

EG:西方基督教文化/中国儒家文化

(差异性本身有各种情境)

——谢宇《社会学方法与定量研究》社会科学的解释机制

规律性

-统计规律;总体的规律(推论inference)

因果性

-时间上有先后

-两个变量之间有相关性

-两个变量之间的关系不受第三方(中介变量)影响——揭示机制

EG:横截面调查,通过隔断事件,获取时间的影响因素

社会科学:一种相对的真理(有条件,有范围)

-检验已有的知识

-操作化的不足(EG:灵性资本→社会资本布迪厄测量)

对话《新教伦理与资本主义精神》教徒的内心世界自律性

宗教信仰对精神层面的激励,而不仅仅是经济和物质层面(社会网络)

EG:治理绩效:公共场所

-只适用于可观察的对象(外显的)

-可证伪的:可能被推翻的(研究假设)

逻辑方法

演绎法:从普遍性结论或一般性事理推导出个别性结论的论证方法(三段论)定量研究实际上是一种演绎的方法

归纳法:从个别性知识,引出一般性知识的推理,是由一直真的前提,引出可能

真的结论

一般都包含两种说法,只是不同程度使用不同发放

理论激发研究灵感

-提出研究问题

-寻找理论阐释

-揭示社会机制

研究问题与理论视角

研究与理论相连接的策略

-直接验证一个理论

-检验竞争性理论或解决理论争议

-修正(完善)一个理论

提出研究问题

什么是经验研究问题?

-值得关心的问题

-可以被从现实世界收集的资料所验证的问题(可行性问题)

-要回答经验研究问题,我们不能依赖推理、猜想、道德判断或主观意象(主观臆想)

实然和应然问题:社会学更贴近实然研究(实际上是什么样的)

形成研究假设

理论:用来揭示两个或多个社会现象(物体、概念或人类特征之间逻辑陈述或命题,理论是抽象的)

研究假设:连接理论与实证材料的桥梁

-对研究问题的尝试性回答(有待验证)

数据收集

收集数据之前,研究者必须要明确:

研究对象是什么?

-分析单位

-总体

-样本(抽样)

需要收集什么样的信息?

-变量及其测量

-数据结构与特征

总体、样本与抽样

参数值、统计值(量)

抽样Sampling(技术环节):

概率抽样(样本可以推论总体):抽中概率已知且不为0,

EG:简单随机,系统抽样,多阶段抽样,整体抽样,PPS

非概率抽样(样本不一定能推论总体):不知个体抽中概率

可能不知样本规模和总统;主观判断原则(标准不同,主观臆断)

等概率抽样和不等概率抽样

数据分析

统计:一整套收集、整理和分析数据的方法和技术

描述性统计:对数据进行整理、概括、计算的方法,以了解数据的分布特征、规律、趋势以及变量之间的关系

-单变量描述、双变量描述。多变量描述统计

推论性统计分析

-用样本统计量来估计总体参数

-置信区间、假设检验、回归分析

R:vector向量

数字的集合——数集

第二讲调查与数据

普查

-在特定时间对特定范围内人群中的每一成员进行的全面调查。

-人口普查

——成本很高,人力精力财力

抽样调查

-随机抽取研究人群中有代表性的一部分人(样本)进行调查,以所得的结果推论总体

-10%人口抽样调查

个案调查

-选取一个或几个个体(个人、家庭、企业、社区等),进行深入、细致、全面的调查

-“解剖麻雀”

→普遍机制

Panel——追踪数据(面板数据)

测量:概念的具体化

自然科学中的测量

-客观性

-标准化

社会科学中的测量

-对现实世界的观察,并凭借变量的属性来描述事物

-对研究内容名或调查指标进行有效的观测与量度

测量:

就是根据一定的规则将数字或符号分派于研究对象的特征(变量)之上从而使社会现象数量化

调查内容

特征

客观指标

如性别、年龄、教育程度

意向

主观变量

如态度、观念、信仰、动机、偏好等

行动

社会行为和社会行动

如入党、投票、参军、结婚、迁徙、求职

问题形式

填空、单选多选(转化为单选)、表格、开放

量表

-测量复杂的概念

-幸福

-健康

-工作能力

……

效度——不一定适用于中国(社会举例量表)

测量的三个标准:

准确性(出生年份:1995年代)、完备性(婚姻状况:已婚、未婚)、互斥性(政治身份和职业类型:工人;农民;群众;干部)

什么是抽样?

抽样就是选择调查对象的过程

-通过有选择性的调查一部分研究对象

社会调查的原则:随机抽样

1.概率抽样

简单随机抽样;等距抽样(系统抽样);分层抽样;整群抽样;多阶段抽样2.非概率抽样

偶遇抽样;判断抽样;配额抽样;空间抽样

滚雪球抽样(定性常用)

非概率抽样

优点:

-省时省力、成本低廉

-在有些情况下有其独到用途

缺点:

-只能代表样本,无法推断总体

-无法计算抽样误差

常用于定性研究和探索研究

样本规模该有多大存在争议

理论饱和:不能获得新的信息

概率抽样

总体中的每个个体都有非零且已知的被抽中的概率

非零:每个个体都有被抽中的可能性

已知:每个个体被抽中的概率能准确计算出来

等概率抽样:总体

总体

个体

样本

抽样

参数(parameter)和统计量(statistic)

总体特征样本特征

抽样误差与非抽样误差

样本统计量与总体参数不等有两个原因:

-抽样误差:抽样的随机性造成的样本值与总体值之间的差异,不可避免

-非抽样误差:不是由于抽样的随机性,其他多种原因引起的估计值与总体值之间的差异

如:抽样框的覆盖偏差、无回答误差(收入)

概率抽样的步骤

抽样框:我要调查的总体的集合

EG:班级名单:一堆名单,以个体为单位

确定抽样方法:简单随机抽样,系统抽样,分才能抽样,整群抽样

计算样本容量(实际、代表性)

抽取样本

简单随机抽样

最基本的epsem抽样法,但也常是最难做到的(实际操作的复杂性,抽样框复杂)将总体中的每一个体单位列成一名单,然后以一个保证让每一单位都有均等的机会被选为样本的抽样方式

两个条件

-每一单位被挑选的概率一样

-样本中每一单位的挑选是独立的

数据的类型:社会测量的层次(由低到高)

(1)定类变量:性别、党派、婚姻、户籍……(分类)

(2)定序变量:年级、职称、教育、阶层……(分层级)

(3)定距变量:温度、智商、相对比率…… 连续

(4)定比变量:年龄、收入、比率、人数…… 是否存在“。”

可以在两个变量之间插入一个变量说明它是连续的

分类变量、连续变量可以将4类分为2类

数据库:一个N×K的二维矩阵

N:观测值,表示一个观测对象

K:变量,表示特征

单变量描述性统计

单变量:描述统计;推论统计

多变量:模型选择

性别-收入(分类-连续)——研究社会分层

性别-分类变量(两个分类)——T检验

只比较两者差异,而不考虑整体差异

政治类型-分类变量(多于两个分类)——方差分析analysis of variance 只要有一个组不一样就认为组别是有差异的

X连续,y分类收入-地位

量表;选择

如果y是两个变量-logistic和probit模型

Y的分类大于两个——multinomial logistics

关键是y——被解释变量,x并不是特别重要

1.数据分析

描述性统计——统计量:对于样本情况的描述

推论性统计——推论:从样本到总体

样本统计量与总体参数值(样本n 总体N)

部分情况下,样本=总体(不需要统计学)

总体参数对应总体,样本统计量对应样本 (希腊字母) (英文字母)

统计推论的任务就是从样本统计量推断总体参数 2.数据的描述性统计:三种形式 表,数,图 3. 变量类型

由低到高为四个尺度:定类变量、定序变量、定距变量、定比变量 4. 频数:亦称为次数

-绝对频数:是指分布在各个类别中的数据个数 -相对频数:百分比、累计百分比

频数描述方法适用于所有类型的变量,包括类别变量(定类定序)和定距、定比变量(划分为不同区隔range ),但通常用于描述类别变量的分布。 5.表

所谓统计表就是用表格的形式表示变量的分布,它不需用文字叙述,就能反映出资料的特性以及资料之间的联系。

适用于定类、定序变量;有限分类

将定距和定比的变量转化为分类变量,降低了其精度,但减少了缺失值,提高应答率 Head Attach-with

一个完整的统计表必须包括以下内容: 表号——在文章中便于查阅、引用 表头——包括标题、时间和地点

标识行——其中第一项为变量名称,第二项为变量对应数的说明

总体参数 (θ) 样本统计量(T ) 总体均值 μ 样本均值 总体比例 π 样本比例 p 总体方差 σ2 样本方差 s 2 总体相关系数 ρ

样本相关系数 r

统计推论

Y _

主体行——这部分至少有两行以上第一项主词,按列填写变量的不同取值,第二

项是对应不同取值的频次或频率

总计行

表尾——写清资料来源

两个变量——完全共线性、多重共线性

(一个变量几乎可以完全被另一个变量所代表)

表头

标识行

主体行

总计行

注(显著性、来源)

同时,可以再频数后加注百分比,或者在频次分布表后加注绝对频数N 6.频次分布

频率分布的一般形式是:

( x1 , p1 )

( x2, p2 )

( x3, p3 )

……

( xi, pi )

pi = ni / N

其中x 是变量的不同取值,pi 是该取值出现的频率。

p1+p2+p3+……+pi =100%

(3)连续变量的统计表(将连续变量变为分类变量)

关键在于分组处理(一般分组不用太多)

按照经验,分组一般保持在6-20组,太少则简化太过,太多则不可读

组距

A .计算法,等组距原则;经验法,一般选用5,10,15等) 只要遵循等组距原则,我们知道组数或组距,就可以确定另外一个 (1) 确定数据极差R=最大值L-最小值S (2) 用极差除以组数=组距

等组距原则 极差/组数=组距

但有时也采用非等距分组:生育年龄一般集中于20岁左右,而40岁以后 便很少生产了。所以可以细分20岁年龄段,而对于40岁则划为一组。

B .经验法

一般选择5、10/20等整数作为组距,而不应选择小数做组距 上述数据我们可以分为5组,以10分为组距,则

真实组界(两组相邻两组标明组界的中点)和标明组界P31

数字

集中趋势:用一个数字来代表一组数据的基本情况。

用某些典型的变量值或特征值(根据变量值计算出来的值)来代表全体变量值,这个典型的变量值或特征值就称作集中值或集中趋势测量值。 EG :频次(众数)、中间值(中位数)、均值 集中趋势测量的目的:

A.选出的集中趋势最有代表性(最典型:特征突出、特殊性或者最平均:普遍性);

B.损失的信息最少,或者说所产生的误差最小。 (1)均值

R L S w K K

-==

【例】某研究生班的年龄如下:

21 32 23 41 20 30 36 22 25 27,求平均年龄。

易受到偏异值的影响,好处是信息量大 EG :成绩、收入 (2)中位数(先排序)

一组数据中,处于中间位置(50%)的数值 注意:

中位值是把个案而非取值一分为二的那个值 它是个取值而不是一个个案!!! 计算中位值:

1)利用原始数据求中位值(M ) M 的个案位置=(N+1)/2 A 、如果N 为奇数,M=

B 、如果N 为偶数,

2)利用频率分布求中位值

看表中0.5所处在的数字是多少 看累积频率,累加频率

分组中位数的计算方法——公式见PPT 分组数据的均值计算 (3)众值

(1)/2

N X +2

1

2

2

++=

N

N X X M

众值就是分布中具有频次或频率最多的变量值 注意:

(1) 众值是变量的一个取值或者一类,而不是这个取值所对应的频次或频率 (2) 不要求众值的频率超过50%(相对最多)

(3) 众值多用来测量定类变量,当然也可以测量定序和定距变量

(4)可以有双众值或多众值,最高的两个频率相等或者相近,我们都应该算作双众值的情况 (4)三类数字比较

中位数:排序

性别:1.506,没有意义

离散趋势

表示一组数据的差异程度

每一个集中趋势的指标都可以对应一个离散趋势的指标 (1)异众比例(对应众数)

可以理解成=1-众数所占比例

作用:衡量众值的代表性

注意:①异众比例是一个“比率”,而不是一个变量值

②只要有众值,就有异众比率。因此异众比率可以适用于适用于众值的那

些变量

mod e

n f VR n

-=

(2)四分位差(Inter-quartile Range )——对应中位数

三个值平分成四个部分

IQR=Q3-Q1(75%-25%)

全距-极差Range =最大值-最小值

各取值情况

dt[,IQR(income)]——四分位差 dt[,range(income)]——极差

(3)方差(variance )、标准差(standard deviation) 一般来说,求标准差的步骤如下:

首先求均值;再求变异值及其平方;再算出平方和;除以(n-1)得方差;对方差取正平方根。

1)根据原始资料计算标准差

如果是总体的话,除以n

如果是样本的话,需要减去1(自由度) 方差 标准差

离散趋势越小,方差越大 离散趋势越大,方差越大

234678Q1

91214151718Q2Median

202224262830Q3

3540435054

三、统计图

统计图就是用图的形式来表示变量的分布特征

比统计表更直观、生动、易记忆,缺点是不如统计表精确

变量的测量层次不同,使用的图形也不尽相同

不同类型的图形表示数据大小的方式不同

用图表现数据的分布特征时有一定的规范和要求。每一个图的左下方都要有图的编号,图的正下方有图的名称。如果图中有多种绘图元素,

(一)描述类别变量分布特征的统计图

1.简单条形图

条形的长短或高低来表示数据大小。以类别变量的取值为横轴的分类标志,以纵轴表示频次或频率

2.圆形图:也称饼图

一般用于描述类别变量中各类别所占的比例。是以一个圆为整体,以每一部分所占的比例来分割圆心角,圆心角所占扇形即表示每一部分所占的比例

3.线形图

线形图是在坐标系内用折线或连续曲线表示事物的分布或变化的图

(二)描述尺度变量(区分出不同尺度:定距,定序,定比)分布特征的统计图

1.直方图

描述尺度变量分布,用条形长短或高低来表现数据大小

与简单条形图不同的是,条的宽度表示分组的组距,条与条之间不分离

直方图以尺度变量为横轴,以分组的组限为横轴的数据标志,以纵轴表示频次或频率。分组表的数据就可以用直方图来表示

如果是等组距就看高度,不是等组距看面积

直方图的典型应用:人口金字塔

2.累积频率直方图

以尺度变量为横轴,

3.线形图

将直方图或累计频率直方图每条顶部的中点用直线连接即构成描述尺度变量分布的线性图

4.点状分布图

直方图虽能较好表现尺度变量的分布特征,但它通过分组将尺度变量转化成了顺序变量

5.盒子图box plot

6.茎叶图

能对于小样本定量变量提供的一目了然的比较

比较适合小数据库,对于小样本连续变量能提供简单的、一目了然的比较

统计图形的作用

统计推论的基础:概率和分布

现代社会学中,最普遍应用的方法是抽样调查(随机和非随机抽样)

一、随机现象与随机变量

1.确定性现象与非确定性现象

(1)确定性现象

(2)非确定现象

(3)确定性现象和非确定性现象的关系

2.随机现象和随机变量

1.随机现象:在个别观察中呈现出不确定性,在大量重复实验或观察中,又有统计规律性现象——偶然性与必然性

2.随机变量:把一个随机现象视为一个变量,把这个随机现象的所有结果是为这个变量的取值,就把这个随机现象称为随机变量

二、概率

1.随机事件

(1)含义:随机变量的每一个取值或是这些取值的集合就是随机事件。即,在一次试验或观察中可能出现也可能不出现,但在大量重复试验或观察中其出现的情况具有某种规律性事件。

(2)无论怎样控制条件都无法事先知道确切结果的现象。如,从人群中随机抽一个人,看他的受教育水平。

2.概率

统计规律的定量表现

(极限定理)

3.频率和概率的关系:

频率是实验值,具有随机性

概率是理论值,具有唯一性

当N足够大时,可以把频率作为概率的近似值

三、概率的计算

1.古典概型

二、随机变量的集中趋势和离散趋势(三)矩、偏态与峰态

中心矩

统计学20个重点知识整理

一、统计的含义及其之间的关系 统计一词一般有三种含义,即统计工作、统计资料和统计学。 1、统计工作即统计实践活动,是指按照调查研究的任务,对社会经济现象的数量方面进行搜集资料、整理资料和分析运用资料等一系列调查研究的工作过程。 2、统计资料是指反映社会经济现象特征的各项数字资料以及与之有联系的其他资料,包括调查阶段搜集的原始资料,经过加工整理和分析后的图标和文字资料等系统资料。 3、统计学是研究怎样进行社会经济统计活动的方法论科学,它阐述了统计研究社会经济现象的数量和数量关系时应该遵循的原理、原则和采用的方法等,是系统化的知识体系。 4、关系:统计资料是统计工作的成果,是对社会经济现象进行统计研究的基础;统计学是统计活动经验的科学总结和理论概括,统计学来源于实践,又高于实践,对统计实践起着指导的作用;统计工作要以统计学的理论为指导,并检验和发展统计理论。 二、统计总体和统计单位及其之间的关系 1、统计总体:是由客观存在的、具有某种共同性质的许多个别单位所构成的整体,简称总体。 2、统计总体的特征:大量性、同质性、差异性 3、总体单位:构成统计总体的个别事物 4、例:要研究某一乡镇企业的职工素质情况,则该乡镇企业的全体人员构成一个总体,其中每一个职工就是总体单位。 5、关系:a.总体由总体单位组成; b.组成总体的个体是有差别的; C.根据统计研究目的的不同,总体与总体单位是可以相互转化的。 三、统计指标和统计标志之间的关系 两者之间既有明显的区别,又有密切的联系。主要区别在于: 1、指标说明总体特征;而标志则说明总体单位特征; 2、统计指标必须是可量的;统计标志未必都是可量的; 3、统计指标具有综合性;而统计标志一般不具有综合性; 两者之间的主要联系在于: 1、许多统计指标的指标数值是从总体单位的数量标志值汇总而来; 2、指标与标志之间存在着变换关系; 例如:要了解我国粮食生产状况,则我国的粮食总产量是指标,而某省的粮食总产量是标志。 四、一个完整的统计调查方案包括的内容 1、确定调查目的; 2、确定调查对象和调查单位; 3、确定调查项目,设计调查表; 4、确定调查时间和方法; 5、制定调查工作的组织实施计划 五、统计调查的分类 1、按统计调查方式的不同,可分为定期统计报表和专门调查; 2、按调查总体包括的范围不同,可分为全面调查和非全面调查; 3、按调查登记的时间是否具有连续性,可分为经常性调查和一次性调查; 4、按统计调查是否具有强制性,可分为政府统计调查、民间统计调查和涉外社会调查; 5、按收集资料的方法,可分为直接观察法、报告法、采访法和问卷法

广东财经社会统计学期末考试试卷(A卷)

广东财经社会统计学期末考试试卷(A卷) 一、单项选择题(请将正确选项的序号填在答题纸相应的位置。) 1.社会统计中的变量一般分四个层次,其中最高层次的变量是 D 。 A、定类变量 B、定序变量 C、定距变量 D、定比变量 2.标准正态分布的均值一定 C 。 A、等于1 B、等于-1 C、等于0 D、不等于0 3.计算中位值时,对于未分组资料,先把原始资料按大小顺序排列成数列,然后用公式 D 确定中位值所在位置。 A、n/2 B、(n-1)/2 C、(n+2)/2 D、(n+1)/2 4.下列统计指标中,对极端值的变化最不敏感的是 A 。 A、众值 B、中位值 C、四分位差 D、均值 5.如果原假设是总体参数不小于某一数值,即大于和等于某一数值,应采用的检验是。 A、两端检验 B、右端检验 C、左端检验 D、无法判断 6.在一个右偏的分布中,大于均值的数据个数将。 A、不到一半 B、等于一半 C、超过一半 D、视情况而定 7.下列关于“回归分析和相关分析的关系”的说法中不正确的是。 A、回归分析可用于估计和预测 B、相关分析是研究变量之间的相互依存关系的密切程度 C、相关分析不需区分自变量和因变量 D、回归分析是相关分析的基础 8.假定男性总是与比自己年轻3岁的女性结婚,那么夫妻年龄之间的积距相关系数r为。 A、-1 < r< 0 B、0 < r< 1 C、r = 1 D、r = -1 9.“4、6、8、10、12、26”这组数据的集中趋势宜用测量。 A、众值 B、中位值 C、均值 D、平均差 10.某校期末考试,全校语文平均成绩为80分,标准差为4.5分,数学平均成绩为87分,标准差为9.5分。某学生语文得了83分,数学得了92分,从相对名次的角度看,该生的成绩考得更好。 A、数学 B、语文 C、两门课程一样 D、无法判断 三、判断题(请在答题纸相应位置打√或?。) 1.无论分布曲线是正偏还是负偏,中位值都居于均值和众值之间。 2.一组数据的均值代表了该组数据中大多数的数据。 3.对于连续型随机变量,讨论某一点取值的概率是没有意义的。 4.异众比率越大,各变量值相对于众值越离散,众值的代表性越好。 5.只要样本量足够大,则不论总体分布如何,样本均值的抽样分布都服从正态分布。 6.检验均值差异时,独立样本采用“差的均值”、关联样本采用“均值的差”进行检验。 7.在显著性水平既定的情况下,一端检验比两端检验更容易拒绝H0。 8.不管相关关系表现形式如何,当r=1时,变量X和变量Y都是完全相关;当r=0时,变量X 和变量Y都是完全不相关。 9.方差分析就其内容来说,是分析或检验总体间的均值是否存在差异。 10.纳伪的概率β可以根据原假设H0所设的分布计算出来。 1

《概率论与数理统计》笔记

《概率论和数理统计》笔记 一、课程导读 “概率论和数理统计”是研究随机现象的规律性的一门学科 在自然界,在人们的实践活动中,所遇到的现象一般可以分为两类: 确定性现象随机现象 确定性现象 在一定的条件下,必然会出现某种确定的结果.例如,向上抛一枚硬币,由于受到地心引力的作用,硬币上升到某一高度后必定会下落.我们把这类现象称为确定性现象(或必然现象).同样,任何物体没有受到外力作用时,必定保持其原有的静止或等速运动状态;导线通电后,必定会发热;等等也都是确定性现象. 随机现象 在一定的条件下,可能会出现各种不同的结果,也就是说,在完全相同的条件下,进行一系列观测或实验,却未必出现相同的结果.例如,抛掷一枚硬币,当硬币落在地面上时,可能是正面(有国徽的一面)朝上,也可能是反面朝上,在硬币落地前我们不能预知究竟哪一面朝上.我们把这类现象称为随机现象(或偶然现象).同样,自动机床加工制造一个零件,可能是合格品,也可能是不合格品;射击运

动员一次射击,可能击中10环,也可能击中9环8环……甚至脱靶;等等也都是随机现象. 统计规律性 对随机现象,从表面上看,由于人们事先不能知道会出现哪一种结果,似乎是不可捉摸的;其实不然.人们通过实践观察到并且证明了,在相同的条件下,对随机现象进行大量的重复试验(观测),其结果总能呈现出某种规律性.例如,多次重复抛一枚硬币,正面 朝上和反面朝上的次数几乎相等;对某个靶进行多次射击,虽然各次弹着点不完全相同,但这些点却按一定的规律分布;等等.我们把随机现象的这种规律性称为统计规律性. ●使用例子 摸球游戏中谁是真正的赢家 在街头巷尾常见一类“摸球游戏”.游戏是这样的:一袋中装有16个大小、形状相同,光滑程度一致的玻璃球.其中8个红色、8个白色.游戏者从中一次摸出8个,8个球中.当红白两种颜色出现以下比数时.摸球者可得到相应的“奖励”或“处罚”: 结果(比数) A (8:0) B (7:1) C (6:2) D (5:3) E (4:4) 奖金(元)10 1 0.5 0.2 -2 注:表中“-2”表示受罚2元

社会统计学试卷A及答案解析

级专业2010学年第 1 学期《社会统计学》试卷 A 姓名:学号: (□开卷□闭卷) 一、选择题:2*10=20分 1、要了解400个学生的学习情况,则总体单位是( B ) 。 A 400个学生 B 每一个学生 C 400个学生的成绩 D 每一个学生的成绩 2、只与一个自由度有关的是( A ) 分布 B 超几何分布C 泊松分布 D F分布 A 2 3、将总体按与研究有关的标志进行分组,然后再随机地从各组中抽选单位组成样本。这种 抽样方式叫( B )。 A 简单随机抽样 B 类型抽样 C 等距抽样 D 整群抽样。 4、在方差分析中,自变量是(A )。 A 定类变量 B 定序变量 C 定距变量 D 定比变量 5、某城市男性青年27岁结婚的人最多,该城市男性青年结婚平均年龄为26.2岁,则该城 市男性青年结婚的年龄分布为(B)。 A.正偏B.负偏 C.对称D.不能作出结论 6、分析统计资料,可能不存在的平均指标是( A )。 A 众数 B 算术平均数 C 中位数 D 几何平均数 7、在一个左偏的分布中,小于平均数的数据个数将( C )。 A 超过一半 B 等于一半 C 不到一半 D 视情况而定 8、若P(A)=0.2,P(B)=0.6,P(A/B)=0.4,则) P =( D )。 A (B A 0.8 B 0.08 C 0.12 D 0.24。 9、关于学生t分布,下面哪种说法不正确(B )。 A 要求随机样本 B 适用于任何形式的总体分布

C 可用于小样本 D 可用样本标准差S 代替总体标准差σ 10、对于大样本双侧检验,如果根据显著性水平查正态分布表得 Z α/2=1.96,则当零假 设被否定时,犯第一类错误的概率是( C )。 A 20% B 10% C 5% D .1% 二、判断题:2*10=20分 1、所有的统计指标都是变量。 ( 对 ) 2、统计所研究的对象就是社会经济现象的数量方面。 (错 ) 3、随机变量在相同的条件下进行观测,其可能实现的值不止一个。 (对 ) 4、在社会现象中,即使相同的意识作用也完全可能有不确定的结果,这就提供了概率论应用的可能性。 ( 对 ) 5、成功次数的期望值λ是决定泊松分布的关键因素。 ( 对 ) 6、进行区间估计,置信水平总是预先给定的。 ( 对 ) 7、可以对置信水平作如下解释:“总体参数落在置信区间的概率是(1-α)”。(错 ) 8、将收集到得的数据分组,组数越多,丧失的信息越多。 (错 ) 9、N 个变量值连乘积的平方根,即为几何平均数。 (错 ) 10、当样本容量n 无限增大时,样本均值与总体均值的绝对离差小于任意正数的概率趋于零。 (错 ) 三、简答题:5*7=35分 1、大数规律 大数规律是随机现象出现的基本规律,它的一般意义是:观察过程中每次取得的结果可能不同(因为具有偶然性),但大量重复观察结果的平均值却几乎接近某个确定的数值。 2、配对样本 所谓配对样本,指只有一个总体,双样本是由于样本中的个体两两匹配成对而产生的。 3、消减误差比例 变量间的相关程度,可以用不知Y 与X 有关系时预测Y 的误差0E ,减去知道Y 与X 有关 系时预测Y 的误差1E ,再将其化为比例来度量。将削减误差比例记为PRE 。 4、同分对 如果在X 序列中,我们观察到i j X =X (此时Y 序列中无i j Y =Y ),则这个配对仅是X 方向而非Y 方向的同分对;如果在Y 序列中,我们观察到i j Y =Y (此时X 序列中无i j X =X ),则这个配对仅是Y 方向而非X 方向的同分对;我们观察到i j X =X ,也观察到i j Y =Y ,则称这个配对为X 与Y 同分对。 5、什么是分层抽样? 分层抽样也叫类型抽样,就是先将总体按某种特征或属性分若干类别或层次,再按照一定比 例在各个子类别或层次中随机抽取,最后将各抽取的单位合并成样本。 6、简述回归分析和相关分析之间的密切联系。 一般说来,只有当两个变量之间存在着较高程度的相关关系时,回归分析才变得有意义和有价值。相关程度越高,回归预测越准确。因此,往往先进行相关分析,然后才选用有明显相关关系的变量作回归分析。与此同时,相关关系往往要通过回归分析才能阐释清楚,例如皮尔逊相关系数的PRE 性质。回归分析具有推理的性质,而相关分析从本质上讲只是对客观事物的一种描述,知其然而不知其所以然。因而从分析层次上讲,回归分析更深刻一些。 7、P 值决策与统计量的比较 P 值是被称为观察到的(或实测的)显著性水平。用P 值进行检验比根据统计量检验提供更多

社会统计学复习题(有答案)复习课程

社会统计学复习题(有 答案)

社会统计学课程期末复习题 一、填空题(计算结果一般保留两位小数) 1、第五次人口普查南京市和上海市的人口总数之比为 比较 相对指标;某企业男女职工人数之比为 比例 相对指标;某产品的废品率为 结构 相对指标;某地区福利机构网点密度为 强度 相对指标。 2、各变量值与其算术平均数离差之和为 零 ;各变量值与其算术平均数离差的平方和为 最小值 。 3、在回归分析中,各实际观测值y 与估计值y ?的离差平方和称为 剩余 变差。 4、平均增长速度= 平均发展速度 —1(或100%)。 5、 正J 形 反J 形 曲线的特征是变量值分布的次数随变量值的增大而逐步增多; 曲线的特征是变量值分布的次数随变量值的增大而逐步减少。 6、调查宝钢、鞍钢等几家主要钢铁企业来了解我国钢铁生产的基本情况,这种调查方式属于 重点 调查。 7、要了解某市大学多媒体教学设备情况,则总体是 该市大学中的全部多媒体教学设备 ;总体单位是 该市大学中的每一套多媒体教学设备; 。 8、若某厂计划规定A 产品单位成本较上年降低6%,实际降低了7%,则A 产品单位成本计划超额完成程度为 100%7% A 100% 1.06%100%6% -=- =-产品单位成本计划超额完成程度 ;若某厂计划规定B 产 品产量较上年增长5%,实际增长了10%,则B 产品产量计划超额完成程度为 100%10% 100% 4.76%100%5% += -=+B 产品产量计划超额完成程度 。 9、按照标志表现划分,学生的民族、性别、籍贯属于 品质 标志;学生的体重、年龄、成绩属于 数量 标志。

统计学知识点汇总情况

统计学知识点汇总 一、统计学 统计学是一门关于数据资料的收集、整理、分析和推断的科学。 三、统计的特点 (1)数量性: 社会经济统计的认识对象是社会经济现象的数量方面,包括现象的数量表现、现象之间的数量关系和质量互变的数量界限。 (2)总体性: 社会经济统计的认识对象是社会经济现象的总体的数量方面。例如,国民经济总体的数量方面、社会总体的数量方面、地区国民经济和社会总体的数量方面、各企事业单位总体数量方面等等。 (3)具体性: 社会经济统计的认识对象是具体事物的数量方面,而不是抽象的量。这是统计与数学的区别。(4)社会性: 社会经济现象是人类有意识的社会活动,是人类社会活动的条件、过程和结果,社会经济统计以社会经济现象作为研究对象,自然具有明显的社会性。 四、统计工作过程 (1)统计设计 根据所要研究问题的性质,在有关学科理论的指导下,制定统计指标、指标体系和统计分类,给出统一的定义、标准。同时提出收集、整理和分析数据的方案和工作进度等。 (2)收集数据 统计数据的收集有两种基本方法,实验法和调查法。 (3)整理与分析

描述统计是指对采集的数据进行登记、审核、整理、归类,在此基础上进一步计算出各种能反映总体数量特征的综合指标,并用图表的形式表示经过归纳分析而得到的各种有用的统计信息。 推断统计是在对样本数据进行描述的基础上,利用一定的方法根据样本数据去估计或检验总体的数量特征。 (4)统计资料的积累、开发与应用 对于已经公布的统计资料需要加以积累,同时还可以进行进一步的加工,结合相关的实质性学科的理论知识去进行分析和利用。 五、统计总体的特点 (1)大量性 大量性是指构成总体的总体单位数要足够的多,总体应由大量的总体单位所构成,大量性是对统计总体的基本要求; (2)同质性 同质性是指总体中各单位至少有一个或一个以上不变标志,即至少有一个具有某一共同标志表现的标志,使它们可以结合起来构成总体,同质性是构成统计总体的前提条件; (3)变异性 变异性就是指总体中各单位至少有一个或一个以上变异标志,即至少有一个不同标志表现的标志,作为所要研究问题的对象。变异性是统计研究的重点。 六、标志与指标的区别与联系 ■区别: 标志是说明总体单位特征的;指标是说明总体特征的。 标志中的品质标志不能用数量表示;而所有的指标都能用数量表示。 标志(指数量标志)不一定经过汇总,可直接取得;而指标(指数量指标)一定要经过汇总才能取得。

社会统计学期末复习提纲

《社会统计学》课程期末复习提纲 ·考试题型: 一、填空题(10×1分=10分)二、判断题(10×1分=10分) 三、单项选择题(20×1分=20分)四、简答题(2×6分=12分)五、计算题(4题共48分) ·各章复习要点 第一章总论 P.2 统计的含义:统计工作·统计资料·统计学。其中:统计工作和统计资料是活动过程和成果的关系;统计学和统计工作是理论和实践的关系。 “统计”一词包含三种涵义,并且具有密切的联系。其中:统计工作和统计资料之间是工作与成果的关系;统计学和统计工作之间是理论和实践的关系。(y ) P.11—P.13 定类尺度;定序尺度;定距尺度;定比尺度(结合课件相关内容) 量化尺度特征功能举例 1、定类尺度确定类别分类民族的测量 2、定序尺度确定类别排列顺序分类排序考试成绩等级的测量 3、定距尺度确定类别排列顺序测数量差别和间隔距离无绝对零点分类排序加减智商的测量 4、定比尺度确定类别有序排序测数量差别和间隔距离有绝对零点分类排序加减乘除体重的测量何谓定类尺度和定序尺度?两者有何区别?1定类尺度是确定事物类别的计量尺度---高一个层次 2定类只能区分不同性质的现象并予以归类---可将所区分的类别按高低,大小,好坏,强弱,优劣等顺序做有序排列。 3定类不能进行数的比较和数学运算--能进行大小比较。 何谓定距尺度和定比尺度?两者区别定距尺度是确定研究对象之间某些数值相差的距离的尺度---最高的数据计量尺度 缺乏绝对零点---有,0 2. 0只表示一个值,即0值---0是绝对零点,表示没有 3.只能加减,不能乘除---加减乘除,高层次的各种统计分析。 P.13—P.14 总体和总体单位 一、总体和总体单位 (一)总体 1、概念总体(也称为统计总体)是指客观存在的、在同一性质基础上结合起来的许多个别单位的整体(同质个体的集团)。 2、特点·客观性·大量性同质性·差异性 1、总体单位除了必须具备同质性外,还必须具备1、差异性(或变异性)性,否则

贾俊平《统计学》复习笔记课后习题详解及典型题详解(数据的搜集)【圣才出品】

第2章数据的搜集 2.1 复习笔记 一、数据的来源 1.数据的直接来源 数据的直接来源是指通过直接调查或实验活动直接获得一手数据,直接来源的数据又分为调查数据和实验数据。它们的不同之处在于: (1)调查数据为通过调查方法得到的数据,而实验数据为通过实验方法得到的数据。 (2)调查数据通常是针对社会现象而获取的,而实验数据大多是针对自然现象而获取的; (3)调查数据通常取自有限总体,即总体所包含的个体单位是有限的;而实验数据是指在实验中通过控制实验对象所搜集到的变量的数据。 2.数据的间接来源 (1)间接来源的数据(二手资料) 如果与研究内容有关的原信息已经客观存在,只是对这些原信息重新加工、整理,使之成为进行统计分析可以使用的数据,则称为间接来源的数据。 (2)二手资料的优点 搜集方便;数据采集快;采集成本低。 (3)二手资料的作用

分析所要研究的问题;提供研究问题的背景,帮助研究者更好地定义问题,检验和回答某些假设和疑问,寻找研究问题的思路和途径。 (4)二手资料的局限性 针对性不够;资料的相关性不够;口径可能不一致;数据也许不准确,也许过时等。 (5)对二手资料进行评估的内容 ①资料是谁搜集的?数据搜集者的实力和社会信誉度会在一定程度上影响数据说服力; ②搜集的目的是什么?为了某种特殊的利益而搜集的数据是值得怀疑的; ③数据是怎样搜集的?搜集数据的方法有很多,不同方法所采集到的数据,其解释力和说服力都是不同的。如果不了解搜集数据所用的方法,很难对数据的质量做出客观的评价。数据的质量来源于数据的产生过程; ④什么时候搜集的?过时的数据的说服力会受到质疑。 (6)使用二手数据的注意事项 使用二手数据,要注意数据的定义、含义、计算口径和计算方法,避免错用、误用、滥用。在引用二手数据时,应注明数据的来源,以尊重他人的劳动成果。 二、调查方法 1.概率抽样和非概率抽样 (1)概率抽样 概率抽样(随机抽样):指遵循随机原则进行的抽样,总体中每个单位都有一定的机会被选入样本。 ①概率抽样的特点 a.抽样时是按一定的概率以随机原则抽取样本,随机原则就是在抽取样本时排除主观

2020年自考《社会统计学》模拟试题及答案

2020年自考《社会统计学》模拟试题及答案 一、填空题 1.统计数据分组的关键在于。 2.一般说来,统计分组具有三方面的作用:(1) ;(2) ;(3) 。 3.根据分组标志的不同,统计分组可以有分组和分组。 4.按每个变量值分别列组所编制的变量分布数列叫,其组数等于。 5.在组距式数列中,表示各组界限的变量值叫。各组中点位置上的变量值叫。 6.组距式变量数列,根据各组的组距是否相等可以分为和。 7.已知一个数列最后一组的下限为900,其相邻的组中值为850,则最后一组的上限和组中值分别为和。 8.统计资料的表现形式主要有和。 9.从形式上看,统计表主要由、、和四部分组成;从内容上看,统计表由和两部分组成。 10.统计数据整理就是对搜集得到的进行审核、分组、汇总,使之条理化、系统化,变成能反映总体特征的的工作过程。 11.数据的预处理是数据整理先行步骤,它是在对数据分类或分组之前对和所做的必要处理,包括对数据的、和。 12.直方图是用——的宽度和高度来表示频数分布的图形。 13.雷达图是一种的图示方法。 二、单项选择题

1.统计分组的关键问题是( ) A确定分组标志和划分各组界限B确定组距和组数 C确定组距和组中值D确定全距和组距 2.要准确地反映异距数列的实际分布情况,必须采用( ) A次数B累计频率C频率D次数密度 3.按品质标志分组,分组界限的确定有时会发生困难,这是由于( ) A组数较多B标志变异不明显C两种性质变异间存在过渡形态D分组有粗有细 4.某连续变量数列,其末组为开口组,下限为200,又知其邻组的组中值为170,则末组组中值为( ) A260 B 215 C 230 D 185 5.下列分组中按品质标志分组的是( ) A人口按年龄分组B产品按质量优劣分组 C企业按固定资产原值分组D乡镇按工业产值分组 6.对企业先按经济类型分组,再按企业规模分组,这样的分组,属于( ) A简单分组B平行分组C复合分组D再分组 7.用组中值代表各组内的一般水平的假定条件是( ) A各组的次数均相等B各组的组距均相等 C各组的变量值均相等D各组次数在本组内呈均匀分布 8.对统计总体按两个及以上标志分组后形成的统计表叫( )

社会统计学复习题(有答案)

社会统计学课程期末复习题 一、填空题(计算结果一般保留两位小数) 1、第五次人口普查南京市和上海市的人口总数之比为 比较 相对指标;某企业男女职工人数之比为 比例 相对指标;某产品的废品率为 结构 相对指标;某地区福利机构网点密度为 强度 相对指标。 2、各变量值与其算术平均数离差之和为 零 ;各变量值与其算术平均数离差的平方和为 最小值 。 3、在回归分析中,各实际观测值y 与估计值y ?的离差平方和称为 剩余 变差。 4、平均增长速度= 平均发展速度 —1(或100%)。 5、 正J 形 反J 形 曲线的特征是变量值分布的次数随变量值的增大而逐步增多; 曲线的特征是变量值分布的次数随变量值的增大而逐步减少。 6、调查宝钢、鞍钢等几家主要钢铁企业来了解我国钢铁生产的基本情况,这种调查方式属于 重点 调查。 7、要了解某市大学多媒体教学设备情况,则总体是 该市大学中的全部多媒体教学设备 ;总体单位是 该市大学中的每一套多媒体教学设备; 。 8、若某厂计划规定A 产品单位成本较上年降低6%,实际降低了7%,则A 产品单位成本计划超额完成程度为 100%7% A 100% 1.06%100%6% -=-=-产品单位成本计划超额完成程度 ;若某厂计划规定B 产品产量较上年增长5%,实际增长了10%,则B 产品产量计划超额完成程度为 100%10% 100% 4.76%100%5% +=-=+B 产品产量计划超额完成程度 。 9、按照标志表现划分,学生的民族、性别、籍贯属于 品质 标志;学生的体重、年龄、成绩属于 数量 标志。 10、从内容上看,统计表由 主词 和 宾词 两个部分组成;从格式上看,统计表由 总标题 、 横行标题 、 纵栏标题 和 指标数值(或统计数值); 四个部分组成。 11、从变量间的变化方向来看,企业广告费支出与销售额的相关关系,单位产品成本与单位产品原材料消耗量的相关关系属于 正 相关;而市场价格与消费者需求数量的相关关系,单位产品成本与产品产量的相关关系属于 负 相关。 12、按指标所反映的数量性质不同划分,国民生产总值属于 数量 指标;单位成本属于 质量 指标。 13、如果相关系数r=0,则表明两个变量之间 不存在线性相关关系 。 二、判断题

统计学笔记(精修版)

绪论 第一节统计学的含义和作用 一、什么是统计学 1.统计学的含义 统计学是有效收集、处理、分析和解释数据,发现规律,以便更好决策的一门方法论学科。 2. 分析数据的方法有描述统计、推断统计。 ⑴描述统计 ①描述统计是将所收集的数据处理后,用数值、表格或图形形式表现的有用信息。 ②描述统计是基础,它为推断统计、统计咨询、统计决策提供必要 ⑵推断统计就是根据样本数据特征去估计或检验总体的数据特征。 二、统计学的作用和重要性 1.统计学的作用 人们用数据发现的规律做出更好的决策。 2.要发现规律,对统计数据通常有要求:客观性、适用性、准确性和及时性。 三、统计学是如何解决实际问题的? 统计学解决实际问题的基本思路是: ①提出与统计有关的实际问题; ②建立有效的指标体系; ③收集数据; ④选用或创造有效的统计方法处理、显示所收集数据的特征; ⑤根据所收集数据的特征、结合定性、定量知识作出总体特征的合理推断; ⑥根据推断给出更好决策的建议; 不解决问题时,重复第②-⑥步。 第二节统计学的基本概念 一、总体、单位和样本 1.总体 统计总体是根据一定目的确定的,由客观存在的、具有某种同质性的许多个别事物构成的整体。 ⑴同质性是确定统计总体的基本标准,它是根据统计的研究目的而定的。研究目的不同,所确定的总体也不同,其同质性的意义也随之变化。 ⑵统计总体还应具备大量性,即统计总体应应该由足够数量的同质性单位构成。 2.总体单位(简称单位)是组成总体的各个个体。如典型案例1中英军的每架战机;事例4中的每个居民。 3.由总体的部分单位组成的集合称为样本(又称子样)。构成样本的单位称为样品,样本中样品的数目称为样本容量。 4. 统计学解决问题的目的是认识总体的数据特征。但是,当调查是破坏性的,或者出于成本、时间等因素考虑时,不必要或不可能对构成总体的所有单位都进行调查。

社会统计学重点

1.社会调查研究的步骤:1.确定课题。 2.了解情况。 3.建立假设。 4.确定概念和测量方法。 5.涉及问卷。 6.试填问卷。 7.调查实施。 8.校核与登录。 9.统计分析与命题的检验。资料的整理归纳分析以及如何收集资料正是统计分析所要谈论的内容。 2.社会调查资料的特点:随机性和统计规律性。 3.怎样选用统计分析方法:1.全面调查和非全面调查。2.单变量和多变量。3.变量层次. 4.分布概念:指一个概念或变量,它的各个情况出现的次数或频次,又称频次分布。表现形式:数对的集合. 5.变量取值的要求—⑴变量取值必须完备;⑵变量取值必须互斥。 6.统计表:是用表格形式来标识前面所说变量的分布。它不需要文字叙述,就能反应出资料的特性以及资料之间的关系,在编印,传递方面有很大优点,比统计表更精确,但不及统计图直观。 7.统计表必须具备的内容:1.表号。2.表头。3.标识行。4.主体行。5.表尾。 8.根据变量的层次,可以选择以下不同的统计图形:定类变量:圆瓣图、条形图。定序变量:条形图。定距变量:直方图、折线图。 9.圆瓣图:是将资料展示在一个圆的平面上,通常用圆形代表现象的总体,用圆瓣代表现象中一种情况,其大小代表变量取值在总体中所占的百分数。 10.条形图:是用长条的高度来表示资料类别的次数或百分数。定类:离散。定序:离散或紧挨着的。 11.直方图:直方图从图形来看,也是紧挨着的长条形所组成,它与条形图不同,宽度有意义,一般来说,直方图是以长条的面积来表示频次或相对频次,而条形的长度。即纵轴高度表示是频次密度或相对频次密度。频次密度=频次/组距。 12.折线图:如果用直线连接直方图中条形顶端的中点,就是折线图。折线图可使资料的频次分布趋势更一目了然。 13.累计图和累计表:表示的是大于某个变量值的频次是多少或小于某个变量值的频次是多少。 14.众值:就是用具有频数最多的变量值来表示变量的集中值。 15.中位值:是数据序列之中央位置之变量值。未分组:N为奇数时:中位值等于n+1/2. N 为偶数时:中位值等于中间两变量和/2. 根据频次分布求中位值:中位值等于频次的和+1/2.中位值等于求出所对应值所在的区域。分组:1.计算出累计频次,得到累计百分比。2.确定最高频次所在组。 均值:总体各单位数值之和除以总体单位数目所得之商。 统计分析中习惯以X 来表示。 离散趋势测量法:

2018年春社会统计学期末复习训练题 (4)

2018年春社会统计学期末复习题 一、单项选择题 1.以下关于因变量与自变量的表述不正确的是() A.自变量是引起其他变量变化的变量 B.因变量是由于其他变量的变化而导致自身发生变化的变量 C.自变量的变化是以因变量的变化为前提 D.因变量的变化是以自变量的变化为前提 2.在频数分布表中,将各个有序类别或组的百分比逐级累加起来称为() A.频率 B.累积频数 C.累积频率 D.比率 3.离散系数的主要目的是() A.反映一组数据的平均水平 B.比较多组数据的平均水平 C.反映一组数据的离散程度 D.比较多组数据的离散程度 4.经验法则表明,当一组数据正态分布时,在平均数加减2个标准差的范围之内大约有() A.50%的数据 B.68%的数据 C.95%的数据

D.99%的数据 5.在某市随机抽取10家企业,7月份利润额(单位:万元)分别为 72.0、63.1、20.0、23.0、54.7、54.3、23.9、25.0、26.9、29.0,那么这10家企业7月份利润额均值为() A.39.19 B.28.90 C.19.54 D.27.95 6.用样本统计量的值直接作为总体参数的估计值,这种方法称为() A.点估计 B.区间估计 C.有效估计 D.无偏估计 7.在频数分布表中,比率是指() A.各组频数与上一组频数之比 B.各组频数与下一组频数之比 C.各组频数与总频数之比 D.不同小组的频数之比 8.下面哪一项不是方差分析中的假定() A.每个总体都服从正态分布 B.观察值是相互独立的 C.各总体的方差相等 D.各总体的方差等于0

9.判断下列哪一个不可能是相关系数() A.-0.9 B.0 C.0.5 D.1.2 10.用于说明回归方程中拟合优度的统计量主要是() A.相关系数 B.离散系数 C.回归系数 D.判定系数 11.在假设检验中,不拒绝虚无假设意味着() A.虚无假设是肯定正确的 B.虚无假设肯定是错误的 C.没有证据证明虚无假设是正确的 D.没有证据证明虚无假设是错误的 12.下列变量属于数值型变量的是() A.工资收入 B.产品等级 C.学生对考试改革的态度 D.企业的类型 13.如果用一个图形描述比较两个或多个样本或总体的结构性问题时,适合选用哪种图形()

统计学原理读书笔记

统计学原理读书笔记 1、统计工作是指对社会经济现象数量方面进行搜集、整理和分析工作的总称,它是一种社会调查研究活动。统计资料也即统计信息,是统计部门或单位进行工作所搜集、整理、编制的各种统计数据资料的总称,它是进行国民经济宏观调控的决策依据,是社会公众了解国情、国力和社会经济发展状况的信息主题。统计学是关于统计过程的理论和方法的科学。 2、统计学在研究社会经济现象时,首先从定性研究开始,即在搜集原始统计资料(统计调查)之前,就要根据所要研究对象的性质和研究任务、目的,确定调查对象的范围,规定分析这个对象的统计指标、指标体系和分组方法。——定性工作,为定量分析做准备。在定量分析基础上再达到认识社会经济现象的本质、特征或规律。 3、质——量——质 4、统计学特点: ①数量性(用大量数字资料说明事物的规模、水平、结构、比例关系、差别程度、普遍程度、发展速度、平均规模和水平、平均发展速度等) ②总体性(针对总体,研究过程是从个体到总体,即必须对足够大量的个体进行登记、整理和综合,是它过度到总体的数量方面,从而把握社会经济现象的总规模、总水平及其变化与发展的总趋势。 ③具体性(一定的质规定一定的量,一定的量表现一定的质。) ④社会性 5、统计工作的基本任务 ①全面、准确、及时地提供有关社会经济发展情况的资料为决策管理服务。 会议记录 买单率X 客单价 ‖‖ 商圈人流X20%=进店客流X(买单人数/进店客流数)X(营收/买单人数)=营收 进店客流少——行销品牌问题 买单率低——产品组合问题 客单价高——商圈和选址问题 选址在远离市区,开大商场,要求开车来,这样买单率和客单价会高,件单价会低,一买一车。选址在市内,开便利店,要求件单价高,客单价低,客流大。 人口变项——目的是做市调 人口结构——消费结构。 人口 品 项

社会统计学习题和答案--相关与回归分析报告

第十二章 相关与回归分析 第一节 变量之间的相关关系 相关程度与方向·因果关系与对称关系 第二节 定类变量的相关 双变量交互分类(列联表)·削减误差比例(PRE )·λ系数与τ系数 第三节 定序变量的相关分析 同序对、异序对和同分对·Gamma 系数·肯德尔等级相关系数(τa 系数、τb 与τc 系数)·萨默斯系数(d 系数)·斯皮尔曼等级相关(ρ相关)·肯德尔和谐系数 第四节 定距变量的相关分析 相关表和相关图·积差系数的导出和计算·积差系数的性质 第五节 回归分析 线性回归·积差系数的PRE 性质·相关指数R 第六节 曲线相关与回归 可线性化的非线性函数·实例分析(二次曲线指数曲线) 一、填空 1.对于表现为因果关系的相关关系来说,自变量一般都是确定性变量,依变量则一般是( 随机性 )变量。 2.变量间的相关程度,可以用不知Y 与X 有关系时预测Y 的全部误差E 1,减去知道Y 与X 有关系时预测Y 的联系误差E 2,再将其化为比例来度量,这就是( 削减误差比例 )。 3.依据数理统计原理,在样本容量较大的情况下,可以作出以下两个假定:(1)实际观察值Y 围绕每个估计值c Y 是服从( );(2)分布中围绕每个可能的c Y 值的( )是相同的。 4.在数量上表现为现象依存关系的两个变量,通常称为自变量和因变量。自变量是作为( 变化根据 )的变量,因变量是随( 自变量 )的变化而发生相应变化的变量。 5.根据资料,分析现象之间是否存在相关关系,其表现形式或类型如何,并对具有相关关系的现象之间数量变化的议案关系进行测定,即建立一个相关的数学表达式,称为( 回归方程 ),并据以进行估计和预测。这种分析方法,通常又称为( 回归分析 )。 6.积差系数r 是( 协方差 )与X 和Y 的标准差的乘积之比。 二、单项选择 1.当x 按一定数额增加时,y 也近似地按一定数额随之增加,那么可以说x 与y 之间 存在( A )关系。 A 直线正相关 B 直线负相关 C 曲线正相关 D 曲线负相关

(完整版)社会统计学简答题与计算题复习资料

社会统计学复习材料 简答题 1、统计数据的质量要求: 1、精度:最低的抽样误差或随机误差; 2、准确性:最小的非抽样误差或偏差; 3、关联性:满足用户决策、管理和研究的需要; 4、及时性:在最短的时间里取得并公布数据; 5、一致性:保持时间序列的可比性; 6、最低成本:以最经济的方式取得数据。 2、抽样误差及其影响因素: 1、由于抽样的随机性所带来的误差; 2、所有样本可能的结果与总体真值之间的平均性差异; 3、影响抽样误差的大小的因素:样本量的大小,总体的变异性。 3、判断计量优劣的评判标准: 用样本的估计量直接作为总体参数的估计值, 无偏性:估计量抽样分布的数学期望等于被估计的总体参数; 有效性:对同一总体参数的两个无偏点估计量,有更小标准差的估计量更有效;一致性:随着样本容量的增大,估计量的值越来越接近被估计的总体参数。4、假设检验的一般步骤: (1)陈述原假设和备择假设; (2)从所研究的总体中抽出一个随机样本; (3)确定一个适当的检验统计量,并利用样本数据算出其具体数值;

(4)确定一个适当的显著性水平,并计算出其临界值,指定拒绝域; (5)将统计量的值与临界值进行比较,作出决策; (6)统计量的值落在拒绝域,拒绝H0,否则不拒绝H0。 5、假设检验中的两类错误及其之间的关系 错误: 1、第Ⅰ类错误(弃真错误)原假设为真时拒绝原假设,第Ⅰ类错误的概率记为a ,即显著性 水平; 2、第Ⅱ类错误(取伪错误)原假设为假时未拒绝原假设,第Ⅱ类错误的概率记为b 。 a 和 b 的关系就像翘翘板,a 小b 就大,a 大b 就小。因此,在样本容量n 固定情况下, 不能同时减少两类错误!一般采用增加样本容量的办法来解决。 关系:当显著性水平a 减小时,由于拒绝域的减小,弃真的错误会减小,但由此而来的是 接受域增大了,因此纳伪的概率b 要增大。反之亦然(P235)。也就是说如果要减小b ,就 增大显著性水平a 。 6、置信区间与置信度的关系表达式: ()αεθθεθ -=+≤≤-1??P []εθεθ+-?,?称作置信区间。α-1称作置信度,可信度,或置信水平。α称置信水平。在样本容量一定的情况下,置信区间和置信度是相互制约的。置 信度愈大,则相应的置信区间也域宽。当把区间估计得小一些,估计的精确程度提高了,但换取的代价将是估错的可能性增加了,也就是可靠性或置信度 α-1下降了。(P201) 7、正态分布曲线的特征: (1)一个高峰:曲线是单峰,有一个最高点。 (2)一个对称轴。曲线的高峰处有一个对称轴,在轴的左右两边是对称的。

黄良文《统计学》(第2版)笔记和课后习题(含考研真题)详解 第1章 导 论【圣才出品】

第1章导论 1.1复习笔记 一、统计学的对象和方法 1.统计和统计学 (1)统计工作的产生和发展 统计工作就是通过社会调查或科学实验,搜集客观现象的现实数据,用来描述和分析自然、社会、经济、政治、文化现象的变化情况。其产生和发展过程包括: ①适应市场经济的发展以及国家对外扩张的需要,大大拓展了统计的活动范围。 ②设立统计专业机构,促成统计活动专业化、独立化。 ③统计方法的完善,大大提高了统计的认识能力。 ④电子计算技术为统计活动的现代化进程提供了手段。 (2)统计学的产生和发展 最初的统计学是作为国家重大事项的记述。这一学派称为国势学派或记述学派,其创始人是17、18世纪德国的海尔曼·康令(H.Conring,1606—1681)和高特弗洛里特·阿亨瓦尔(G.Achenwall,1719—1772)。 经历18世纪到19世纪中叶,把概率论引入统计学,使统计方法发生了重大的飞跃。其代表人物有法国的拉普拉斯(https://www.doczj.com/doc/b82619858.html,place,1749—1827)和比利时统计学家阿道夫·凯特勒(A.Quetelet,1796—1874)。政治算术派是以总体数量比较的方法对社会经济问题进行分析,代表人物有威廉·配第(W.Petty,1623—1687)和约翰·格朗特(J.Graunt,1620—1674)。 此后,应用概率论研究随机现象数量规律的数理统计方法及其在各个领域的应用迅速得

到发展。描述统计学以卡尔·皮尔逊(K.Pearson,1857—1936)为代表,到了20世纪20年代的推断统计学以费歇尔(R.A.Fisher,1880一1962)为创始人。 2.统计学的研究对象 统计学的研究对象是指统计研究所要认识的事物客体。统计对象的特点包括数量性、总体性、单位的变异性的特点。而社会经济统计学的研究对象除了具有上述的数量性、总体性、变异性外还具有社会性。 3.统计学的研究方法 (1)统计的组织系统 ①统计的社会系统 统计活动系统包括统计主体、统计客体和统计宿体三个组成部分。其统计流程图,如图1-1所示。 图1-1统计流程图 ②统计工作系统 统计主体的认识活动,有一个严密的工作系统。这个系统具有明显的层次性和阶段性。 统计工作过程一般分为统计设计、统计资料搜集、统计资料整理、统计资料分析、统计资料提供和管理等阶段。 2.统计研究的方法 (1)大量观察法 大量观察法:统计研究客观现象和过程的规律,是从现象总体上加以考察,就总体中的

社会经济统计学原理试题及答案

社会经济统计学原理试题及答案 统计学原理试题( A ) 一、填空题 ( 每小题 1 分,共 10 分 ) 1. 标志按其特征的不同,可以分为品质标志与 ________ 。 2. 统计指标由指标名称和 ________ 。 3. 统计分组的关键在于选择分组标志和划分 ________ 。 4. 总量指标按其反映的内容不同,可进一步细分为标志总量和 ________ 。 5. 平均指标反映了总体分布的 ________ 。 6. 测定循环变动的常用方法称为 ________ 。 7. 如果用的是各年份季度资料,应采取 ________ 移动平均。 8. 三个或三个以上在经济上有联系,数量上保持一定对等关系的指数形成的一个整体,称为 ________ 。 9. 就方法来说,参数估计的基础是概率论中的大数法则和 ________ 。 10. 估计标准误差愈小,根据回归直线方程式计算的估计值就 ________ 。 二、单项选择题 ( 每小题 1 分,共 15 分 )在每小题列出的四个选项中只有一个选项是符合题目要求的,请将正确选项前的字母填在题后的括号内。 11. 社会经济统计学属于社会科学的 ( )

A. 实验论和理论性的学科 B. 方法论和应用性的学科 C. 系统论和全面性的学科 D. 信息论和社会性的学科 12. 下列属于数量标志的是 ( ) A. 职工的工龄 B. 职工的性别 C. 职工的政治面貌 D. 职工的籍贯 13. 某人的民族是汉族,则汉族是 ( ) A. 数量标志 B. 品质标志 C. 统计总体 D. 总体单位 14. 统计设计的中心内容是 ( ) A. 确定统计指标和指标体系 B确定统计分析的方法 C.确定统计分析的内容 D明确统计研究的目的 15. 调查项目的承担者是 ( ) A. 调查对象 B. 调查项目 C. 调查单位 D. 填报单位 16. 对连续型组距数列,凡是某单位的标志值刚好等于相邻两组上下限数值时,一般是 ( ) A将此值归入上限所在组 B将此值归入下限所在组 C将此值归入上限所在组或下限所在组 D. 另立一组 17. 某校 2001 年在校学生人数 6000 人,毕业生人数 1400 人,上述两个指标是 ( ) A. 均为时期指标 B. 均为时点指标 C. 前者为时期指标,后者为时点指标 D. 前者为时点指标,后者为时期指标 18. 第一组工人的平均工龄为 6 年,第二组为 8 年,第三组为 10 年,第一组工人数占总数的 30% ,第二组占 50% ,则三组工人的平均工龄为 ( ) A.8 年 B.7.55 年 C.32.5 年 D.7.8 年 19. 某企业有三个流水连续作业车间,某月份间产品合格率分别为 95% , 90% , 85 ,全厂平均合格

相关主题
文本预览
相关文档 最新文档