当前位置:文档之家› 标准误与标准差

标准误与标准差

标准误与标准差
标准误与标准差

sd Std Dev,Standard Deviation 标准偏差(Std Dev,Standard Deviation) 一种量度数据分布的分散程度之标准,用以衡量数据值偏离算术平均值的程度。标准偏差越小,这些值偏离平均值就越少,反之亦然。标准偏差的大小可通过标准偏差与平均值的倍率关系来衡量。标准偏差公式:S = Sqr(∑(xn-x拨)^2 /(n-1)) 公式中∑代表总和,x拨代表x的算术平均值,^2代表二次方,Sqr代表平方根。例子:有一组数字分别是200、50、100、200,求它们的标准偏差。

Java代码

1.x拨 = (200+50+100+200)/4 = 550/4 = 137.5

2.S^2 = [(200-137.5)^2+(50-137.5)^2+(100-137.5)^2+(200-137.5)^2]/

(4-1) =[62.5^2+(-87.5)^2+(-37.5)^2+62.5^2]/3 =[3906.25+7656.25+

1406.25+3906.25]/3 = 16875/3 = 5625

3.标准偏差 S = Sqr(5625) = 75

cv 变异系数(coefficient of variation),亦称离散系数(coefficient of dispersion)或相对偏差(rsd),是标准偏差与平均值之比,用百分数表示,计算公式为:

cv = sd/mean ×100%

200、50、100、200的cv=55%

在我用于本科毕业论文答辩的ppt里的某页赫然写着这么一行:“标准误:标准差除以样本量的平方根”。这是我对“数据处理”部分特地作出的一条说明。前些天打开看到的时候,我不禁有些囧。当年我们的《生物统计学》是一门选修课,授课的是生科院生物信息学方向的一个牛人,长得像藏人,不过一听口音就知道

他家和我家肯定离不太远。

不论生物还是药学,这门课历来就是门选修课。而且学的内容很浅,考试是开卷。我学得不咋地,学完的时候感觉,统计学说来就一句话:“有没有显著性差异”。你说这话啥意思,我也不太懂,能套公式把结果算出来就成。要说起来,有关统计学的基本知识,早在大一上分析化学的时候就专门讲过,很多实验报告也都要算平均数和标准差。

等到做完毕设写论文要处理数据的时候,我突然就发现了一个问题,为什么我看的那么多paper里面,在算样本平均数的时候,有的附的是标准差,有的

附的是标准误呢?而且国外的paper都是用的标准误。我又不懂,但是搜到有篇专门讲两者区别的文章说要用标准误,我也就用了。两者啥区别呢?标准差除

以样本量的平方根就等于标准误。可这数学关系反映了什么实质?我还是不懂。只是记得上生物统计学的课的时候,老师特别强调说国内生命科学和医学方面

的大部分paper都存在统计学错误。我就生怕我这么“正确地”使用标准误反而显得“错误”了,于是有了ppt上多此一举的那句话。

其实统计学是很多学科都需要用到的,而且重要性不言而喻。可就我所了解的,如我们这些生、化、医、药专业出身的学生有多少真的理解了统计学呢?

大部分都是停留在机械用软件、套公式、填结果的层面吧。当然了,这里存在一个学科差异的问题,也不是谁刻意地不想去理解统计学。比方说,去年国家就

三聚氰胺出台了一个最低检测限的标准的时候,很多没有科学素养的记者就开始疯狂质疑了。其实对“检测限”这个概念我们就很理解,我想心理学专业的学生倒不见得认同,而“检测限”的本质同属统计学中的“概率”和“误差”的范畴。不过总的说来,我们的统计学训练比起心理学实在差得太多。

终于进入正题了,因为统计学是心理学的基本功,所以我正儿八经地看起了考纲版的那本国内最经典的《现代心理与教育统计学》,等把第八章假设检验看完之后,我暂停了。我的基本感受是,一路看下来,条理是清晰的,逻辑是明白的,我也是理解的。如果说单纯应试的话,看到这样没问题。可这门课程当然

不止是应试之用的,那么,我在想,我看了这么多,它讲的这些东西到底是在干嘛呢?对,我的意思很明白。这本书是在讲鱼不是在讲渔。我纵使把计算标准

误的公式及其意义理解得化成灰也认识,可它到底是干嘛的呢?

我暂停是为了找些paper来自己体会统计学的用处,这时发现了手头正读着的《行为科学统计》,如获至宝地读完第一章我就恨不得骂脏话了,差距怎么能

这么大?!为什么一本国内最经典的心理统计学教材和美国的一本也许还不是最经典的心理统计学教材差了这么远?所以等读完第一部分的时候,我想哭了(呃,当作形容词看待吧,不是真的要哭)。昨晚读完第二部分的时候,我又想哭。因为,我终于理解了“标准误”到底是用来干嘛的!明白了当paper中出现它的时候是说明了什么实质问题!

索性抓几个点来比较这两本教材。

1、《现代》在讲中数的时候就讲到了内插法,讲百分位数的时候又讲了。可是它这两处都没有提“内插法”仨字儿,到后来好几个章节计算概率的时候却冒出来“内插法”仨字儿让人不知所云。这也就罢了,关键是,同样讲内插法,原理和方法都是一样的,《现代》用了个形式巨复杂的公式来套用,看着就不敢用了。《行为》没用公式,直接画个小表就可以口算了。

2、类似于上面的情况,在针对很多不同类型的概念和方法时,《现代》的很多习题我在做的时候都不得不翻到正文中按例题的步骤来套用,《行为》的习题基本上都是口算,也不用回顾前面的例题。

我忍不住举一个实例对比:

《现代》版某例题:

有10道正误题,问答题者答对几题才能认为他是真会,或者说答对几题,才能认为不是出于猜测因素?

《行为》版某例题:

假设你正在用请人预测从整副牌中抽出的牌的花色来测试人的特异功能。在48次实验中,一个人能正确预测多于20次的概率是多少?

这两道题的解法是一致的,考察的点也差不多。可是,前面那题纠结的提问方式我每次读到都抽搐,恨不得转换几次才能理解题意。《现代》中类似的绕心令比比皆是。难道把话说明白些就这么困难吗?更不用说《现代》版在讲解题步骤时的死板了,逼得我只能依葫芦画瓢呀。

3、《现代》版太瞧得起我们学生了,很多概念突然就冒出来了,也不告诉你怎么回事,比如“自由度”;有些概念稍微讲解了几句也没讲明白,比如“有偏统计量”它怎么就有偏了呢?再有就是我前面说的,讲了那么多讲到最后,我也搞不清楚它到底是可以用到心理学什么地方去(书中举例清一色的是学生测验之类的)。而《行为》对于很多概念都是用基本属于“一加一等于二”的方式一板一眼告诉你它的含义。还真别说它的讲法像是对待傻子,在一门新学问面前,我们不就和幼儿园接触到“一加一等于二”之前一样无知么?受的教育再高也不保证您就触类旁通呀。同时,它的举例涉及心理学各分支,这才是学以致用呀。

4、再从章节设置的顺序上,我不否认《现代》版有它的内在逻辑,但那种逻辑基本上是站在一个已经掌握了统计学的人的角度展开的。对于初学者,越往后越觉得章节之间的关系诡异。而《行为》则是完全从学习者的视角设置章节,完全让人能够体会到循序渐进的快乐。比如,全书四部分,第一部分讲描述统计,第二部分讲推论统计基础,而实际上,这部分的三章共就讲了三个概念:z分数、概率和标准误。放到《现代》里才三节的篇幅。可人家就是咬文嚼字地把这三个对于推论统计超级无敌关键的概念给讲通透了,我现在一点疑问都没有了!

5、《现代》我看完一章脑细胞就基本上耗尽了,因为时不时就要停下来揣摩。而《行为》一口气看三章也没问题,就像在读小说。掌握同样多的知识,后者用的时间大概还短一些。毕竟统计学在心理学里是拿来实用的,不是要我费劲去培养数学的逻辑思维能力的吧!

6、另外,我不太清楚原版《行为》会有多少排版错误,但至少,《行为》译本的排版错误比《现代》要少得多。另外的另外,《行为》每章的SPSS讲解比《现代》清楚太多。另外的另外的另外,《行为》的每节小测验都附有答案,每章习题的奇数题都附有答案。

说到最后,我想引申一下。

《现代》代表了国内某类优秀教材的风格,学术至上,用语严谨,条理分明,言简意赅,同时也严肃、枯燥和死板;

《行为》代表了国外某类优秀教材的风格,学生至上,用语亲切,行文流畅,点到方止,同时也失去少许严密性、简明性和学术性。

实际上国外还有一类优秀教材,或者我更愿意称其为优秀读物。拿统计学来说有大名鼎鼎的《统计学的世界》,这类教材之所以优秀,是因为能被学院之外的大众所接受,也正是为了吸引更广泛的读者,它放开了学术门槛。我这么说并不是存在某种“歧视”,而是当其学术品质泛化后,对于专业领域的学习者而言就相当程度的失去了教材的功能,看看好玩儿罢了,既对付不了考试,更应付不了研究。

而我无疑是相当认可《行为》这类既保证了学术水准又满足“教”“材”功用的教材的。

以上仅代表个人口味,就如同文言文和白话文和网络语各有所爱。

最后的最后,热情地向所有需要在今后的学术研究中运用或理解统计学知识的各专业同学推荐此教材。

第六章标准误与可信区间--第一节抽样误差与标准误

第六章标准误与可信区间

第一节抽样误差与标准误

一、抽样误差的意义

在第一章第二节曾提到过样本与总体以及抽样误差的概念,那里谈到,由于存在人与人之间的个体差异,即使从同一总体用同样方法随机抽取例数相同的一些样本,各样本算得的某种指标,如平均数(或率),通常也参差不齐存在一定的差异。样本指标与相应的总体指标之间有或多或少的相差,这一点是不难理解的。如某医生从某地抽了120名12岁男孩,测量其身高,计算出均数为143.10cm,若再从该地抽120名12岁男孩,其平均身高未必仍等于143.10cm,也不一定恰好等于某市12岁男孩身高的总体均数,这种差异,即由于抽样而带来的样本与总体间的误差,统计上叫抽样波动或抽样误差。

抽样误差和系统误差不一样,关系系统误差,当人们一旦发现它之后,是可能找到产生原因而采取一定措施加以纠正的,抽样误差则无法避免。因为客观上既然存在个体差异,那么刚巧这一样本中多抽到几例数值大些的,所求样本均数就会稍大,另一样本多抽到几例数值小些,该样本均数就会稍小,这是不言而喻的。

抽样误差既是样本指标与总体指标之间的误差,那么抽样误差小就表示从样本算得的平均数或率与总体的较接近,有样本代表总体说明其特征的可靠性亦大。但是,通常总体均数或总体率我们并不知道,所以抽样误差的数量大小,不能直观地加以说明,只能通过抽样实验来了解抽样误差的规律性。

二、标准误及其计算

为了表示个体差异的大小,或者说表示某一变量变异程度的大小,可计算标准差等变异指标来说明,现在我们要表示抽样误差的大小,如要问,从同一总体抽取类似的许多样本,各样本均数(或各率)之间的变异程度如何?也可用变异指标来说明。这种指标是:

(一)均数的标准误为了表示均数的抽样误差大小如何,用的一种指标称为均数的标准误。我们以样本均数为变量,求出它们的标准差即可表示其变异程度,所以将样本均数这“标准差”定名为均数的标准误,简称标准误,以区别于通常所说的标准差。标准差表示个体值的散布情形,而标准误则说明样本均数的参差情况,两者不能混淆。下面用抽样实验进一步说明之。

将100名正常人的红细胞数(万/mm3)写在100颗大小均匀的豌豆上。这些红细胞数见表6.1,其均数为500,标准差为43。把这些豌豆放在一个口袋里,彻底混匀后取出一颗,记下红细胞数,放回袋内,混匀后再取出一颗,记下数字后再放回去,如此继续下去,这是一个取不完的总体,这样每取10个数字作为一个样本,共抽取了一百个样本,并计算每一样本的均数与标准差,例见表6.2。

表6.1红细胞数抽样实验用的正态总体

μ=500 σ=43(单位:万/立方厘米)

表6.2红细胞数抽样实验中的样本举例

第一号样本均数与标准差的计算:

X=4.886/10=488.6

将一百个样本均数加总,得到的数值为50,096.7,又这一百个样本均数平方之和为25,114,830.91,于是代入标准差的计算公式,求得一百个样本均数的标准差又称标准误为

当总体标准差已知时,可计算理论的标准误σχ,公式是

(6.1)

表6.1抽样实验用的总体标准差是43,每个样本的例数是10,代入公式得

可见由一百个样本均数求得的标准误13.50与理论的标准误13.60比较接近。

在实际工作中,总体标准差往往并不知道,也不象抽样实验那样从同一总体随机抽取n相等的许多样本,而是只有手头一个样本。在此情况下,只能以样本标准差S作为总体标准差σ的估计值。这样,公式6.1中的σ就要用S代替,σχ改为Sχ,以资区别。

(6.2)

将第1号样本的标准差及例数代入式6.2,得

再若将第2号样本的数字代入,Sχ将成为10.74,余类推。由于不同样本的标准差并不相等,可见Sχ也有抽样波动,这一点是值得注意的,但它仍不失为σχ的较好估计值。

以上介绍了求标准误的三种方法,其实我们平常用的只是式6.2,而通过前两种方法的对比则可使我们明瞭标准误的含义。标准误是描述样本均数变异情况的一个指标,它的大小与总体标准差σ(一般只能用S估计)成正比,而与样本含量n的平方根成反比,因此若标准差小或样本含量大时,求出的标准误就小(标准误小表示样本均数与总体均数较接近),X代表μ较可靠,所以假若手头资料中观察值的变异程度较大(S大)时,为了保

证样本代表总体比较可靠,就得适当增大样本含量(n)。

(二)率的标准误若总体包括某事件的发生数与未发生数两类,所化成的比例或成数即为总体发生率(符号π)与未发生率(1-π)。从总体中随机抽取许多样本(n相等),算出各个样本率(用P表示),会是或大或小有波动的。为了表示样本率之间或样本率与总体率之间的差异程度,当总体率π已知时,可计算理论的标误σp,其公式是

(6.3)

实际工作中往往不知道总体率π这时只能以样本率P作为总体率π的估计值,求得率的标准误,并用S P表示,计算公式为

(6.4)

现举例说明其求法。

例6.1某医生检测了110名成年健康人的尿紫质,发现阳性者11人,阴性者99人,于是算得阳性率P及率的标准误S P如下:

P=11/110×100%=10%(用小数表示为0.10)

若要进一步增强样本率估计总体率的可靠性,可加大样本含量。

三、样本均数的分布

从同一总体里随机抽取n相同的许多样本,这些样本均数吴正态分布。如前面所述正常人红细胞数的抽样实验中已求得100个样本均数,其中多数与总体均数μ比较接近而集中分布在其周围,且左右基本对称,见表6.3(此表由表6.4中的100个均数划记归组而得)。

表6.3红细胞抽样实验中100个样本均数的分布

表6.4一百个样本的均数、标准差、95%可信区间

已知按正态分布,理论上有95%的变量值分布在均数加、减1.96倍标准差(样本均数的标准差称标准误)的范围内,这里也即100个样本均数中有95个分布在500-1.96(13.60)=473.34至500+1.96(13.60)=526.66的范围内。现看表6.4,在100个样本均数中,第6号(546.7)、第72号(465.3)、第97号(530.1)在上述范围之外,第42号(526.4)及第75号(526.6)就在临界值附近,其余95个(若将第42及75号计算在内则为97个)样本均数在此范围之内,将实际分布与理论分布相对照见下表6.5。100个样本均数的实际分布与正态分布的理论基本符合。

认识标准差和标准误

计算方法 怎么计算它的大小呢?由标准差的概念可知,标准差反映离散程度的大小,那么多次抽取样本,把这些样本的均值集中起来作为一个新样本,计算它们的标准差,就可以反映它们的离散程度,离散程度大,说明这些均值偏离总体均值“5”越远,也就是抽样误差越大,这就是标准误—standard error。这里的error就是“误差”的英文,所以标准误其实应叫做“标准误差”,我们可以理解为由“标准差”计算得出的“误差”。

到这里可能有的人会说,我实际中怎么可能这么多次抽样呢,书上的公式也不是这样算的啊。没错,实际中我们一般只会抽样一次,而教科书上给出的公式就是通过一次样本的数据来计算标准误,即用样本标准差除以样本量的平方根。至于为什么公式是这样,这个公式准不准,已有统计学家的前辈们研究过了,我们只要去用就行了。如果想了解其原理,可以去更做深一步的研究。 举例 标准误在统计学中的应用十分广泛,以最简单的t检验为例,虽然t检验是应用最广泛的统计学方法之一,但很少有人思考过t值的意义。以单样本t检验为例,我们发现t值公式的分母就是标准误,代表抽样误差,而分子是两均数的差值,也就是实际差异。 所以t值就是实际差异与抽样误差的比值,如果实际差异大,t值就大,抽样误差大,t值就小。当t值大于某个临界值(可查表得出)时,我们更相信两组数据真的有差异,而不是抽样误差,结果就比较可靠,比如我们论文中常用的P<0.05,反之亦然。 需要注意的一点是,虽然我们用t检验来举例,教科书也把标准误放在t检验的章节,但不代表标准误是均数独有的,也可以是率或其他统计量,因此说标准误是“均数的标准差”是片面的,更合理的说法是“统计量的标准差”。 so,关于“标准差”和“标准误”的区别,你get了吗? 扫码关注我们

标准误与标准差

sd Std Dev,Standard Deviation 标准偏差(Std Dev,Standard Deviation) 一种量度数据分布的分散程度之标准,用以衡量数据值偏离算术平均值的程度。标准偏差越小,这些值偏离平均值就越少,反之亦然。标准偏差的大小可通过标准偏差与平均值的倍率关系来衡量。标准偏差公式:S = Sqr(∑(xn-x拨)^2 /(n-1)) 公式中∑代表总和,x拨代表x的算术平均值,^2代表二次方,Sqr代表平方根。例子:有一组数字分别是200、50、100、200,求它们的标准偏差。 Java代码 1.x拨 = (200+50+100+200)/4 = 550/4 = 137.5 2.S^2 = [(200-137.5)^2+(50-137.5)^2+(100-137.5)^2+(200-137.5)^2]/ (4-1) =[62.5^2+(-87.5)^2+(-37.5)^2+62.5^2]/3 =[3906.25+7656.25+ 1406.25+3906.25]/3 = 16875/3 = 5625 3.标准偏差 S = Sqr(5625) = 75 cv 变异系数(coefficient of variation),亦称离散系数(coefficient of dispersion)或相对偏差(rsd),是标准偏差与平均值之比,用百分数表示,计算公式为: cv = sd/mean ×100% 200、50、100、200的cv=55% 在我用于本科毕业论文答辩的ppt里的某页赫然写着这么一行:“标准误:标准差除以样本量的平方根”。这是我对“数据处理”部分特地作出的一条说明。前些天打开看到的时候,我不禁有些囧。当年我们的《生物统计学》是一门选修课,授课的是生科院生物信息学方向的一个牛人,长得像藏人,不过一听口音就知道 他家和我家肯定离不太远。 不论生物还是药学,这门课历来就是门选修课。而且学的内容很浅,考试是开卷。我学得不咋地,学完的时候感觉,统计学说来就一句话:“有没有显著性差异”。你说这话啥意思,我也不太懂,能套公式把结果算出来就成。要说起来,有关统计学的基本知识,早在大一上分析化学的时候就专门讲过,很多实验报告也都要算平均数和标准差。 等到做完毕设写论文要处理数据的时候,我突然就发现了一个问题,为什么我看的那么多paper里面,在算样本平均数的时候,有的附的是标准差,有的 附的是标准误呢?而且国外的paper都是用的标准误。我又不懂,但是搜到有篇专门讲两者区别的文章说要用标准误,我也就用了。两者啥区别呢?标准差除 以样本量的平方根就等于标准误。可这数学关系反映了什么实质?我还是不懂。只是记得上生物统计学的课的时候,老师特别强调说国内生命科学和医学方面 的大部分paper都存在统计学错误。我就生怕我这么“正确地”使用标准误反而显得“错误”了,于是有了ppt上多此一举的那句话。 其实统计学是很多学科都需要用到的,而且重要性不言而喻。可就我所了解的,如我们这些生、化、医、药专业出身的学生有多少真的理解了统计学呢? 大部分都是停留在机械用软件、套公式、填结果的层面吧。当然了,这里存在一个学科差异的问题,也不是谁刻意地不想去理解统计学。比方说,去年国家就 三聚氰胺出台了一个最低检测限的标准的时候,很多没有科学素养的记者就开始疯狂质疑了。其实对“检测限”这个概念我们就很理解,我想心理学专业的学生倒不见得认同,而“检测限”的本质同属统计学中的“概率”和“误差”的范畴。不过总的说来,我们的统计学训练比起心理学实在差得太多。 终于进入正题了,因为统计学是心理学的基本功,所以我正儿八经地看起了考纲版的那本国内最经典的《现代心理与教育统计学》,等把第八章假设检验看完之后,我暂停了。我的基本感受是,一路看下来,条理是清晰的,逻辑是明白的,我也是理解的。如果说单纯应试的话,看到这样没问题。可这门课程当然 不止是应试之用的,那么,我在想,我看了这么多,它讲的这些东西到底是在干嘛呢?对,我的意思很明白。这本书是在讲鱼不是在讲渔。我纵使把计算标准 误的公式及其意义理解得化成灰也认识,可它到底是干嘛的呢? 我暂停是为了找些paper来自己体会统计学的用处,这时发现了手头正读着的《行为科学统计》,如获至宝地读完第一章我就恨不得骂脏话了,差距怎么能

用标准差还是标准误

大家在写文章用统计分析时,用标准差还是标准误,这个我研究好久了,还准备发表一篇文章;希望大家讨论。 2.1 标准差的正确使用 一、标准差的主要作用是估计正常值的范围 实际应用中,估计观察值正常值范围应该用标准差(s),表示为“Mean ±SD”。此写法综合表达一组观察值的集中和离散特征的变异情况,说明样本平均数对观察值的代表性。s 的大或小说明数据取值的分散或集中。s与样本均数合用, 主要是在大样本调查研究中, 对正态或近似正态分布的总体正常值范围进行估计。如果不是为了正常值范围估计, 一般不用。当数据与正态分布相差很大,或者虽为正态分布, 但样本容量太小(小于30 或100),也不宜用估计正常值范围。 二、标准差还可用来计算变异系数(CV) 当两组观察值单位不同, 或两均数相差较大时, 不能直接用标准差比较其变异程度的大小, 须用变异系数系数来做比较。: 2.2 标准误的正确使用 一、标准误用来衡量抽样误差的大小和了解用样本平均数来推论总体平均数的可靠程度。 在抽样调查中,往往通过样本平均数来推论总体平均数,样本标准误适用于正态或近似正态分布的数据, 是主要描述小样本试验中,样本容量相同的同质的多个样本平均均数间的变异程度的统计量。即如果多次重复同一个试验, 它们之间的变异程度用。显然它越小,样本平均数变异越小,越稳定,用样本平均数估计总体均数越可靠。因此,为说明它的稳定性、可靠性或通过几个对几组数据进行比较(这是科研论文中最常见的),应当用描述数据。实际应用中应该写成“平均数±标准误”或而英文表示为“Mean ±SE”的形式。 二、标准误还可以进行总体平均数的区间估计与点估计(置信区间)。 根据正态分布原理,与合用还可以给出正态总体平均数的可信区间估计即推论总体平均数的可靠区间,例如常用(其中t0.05 (n-1) 为样本容量是n的t界值)表示总体均值的95%可信区间, 意指总体平均数有95%的把握在所给范围内。 三、标准误还可用来进行平均数间的显著性检验,从而判断平均数间的差别是否是由抽样误差引起的。 例如:某当地小麦良种的千粒重=34克,现在从外地引入一新品种,通过多小区的田间试验得到千粒重的平均数=35.2克,问新引进品种千粒重与当地良种有无显著差异? 新引进品种千粒重与当地良种有无显著差异实质是判断与的差别是否是有田间试验是抽样误差引起,所以要进行显著性检验,这里用t测验进行检验, 而,由于,故,所以认为新引进品种千粒重与当地良种千粒重的不同是由于田间试验是抽样误差引起,因此他们之间无显著差异。所以在进行平均数间的显著性检验是必须用到。 总之,标准差和标准误最常用的统计量,二者都是衡量样本变量(观察值) 随机性的指标,只是从不同角度来反映误差,二者在统计推断和误差分析中都有重要的应用。如果没有标准差,人们就无法看出一组观察值间变异程度有多大,这些数字到底有无代表性,如果没有标准误又很难看出我们的样本平均数是否可以代表总体平均数。所以二者都非常重要。

《标准差与标准误》word版

标准差 标准差(Standard Deviation),也称均方差(mean square error),是各数据偏离平均数的距离的平均数,它是离均差平方和平均后的方根,用σ表示。标准差是方差的算术平方根。标准差能反映一个数据集的离散程度。平均数相同的,标准差未必相同。 标准差(Standard Deviation),在概率统计中最常使用作为统计分布程度(statistical dispersion)上的测量。标准差定义为方差的算术平方根,反映组内个体间的离散程度。测量到分布程度的结果,原则上具有两种性质: 为非负数值,与测量资料具有相同单位。一个总量的标准差或一个随机变量的标准差,及一个子集合样品数的标准差之间,有所差别。 标准计算公式 假设有一组数值X1,X2,X3,......Xn(皆为实数),其平均值为μ,公式如图1. 图1 标准差也被称为标准偏差,或者实验标准差,公式如图2。 图2 简单来说,标准差是一组数据平均值分散程度的一种度量。一个较大的标准差,代表大部分数值和其平均值之间差异较大;一个较小的标准差,代表这些数值较接近平均值。 例如,两组数的集合 {0, 5, 9, 14} 和 {5, 6, 8, 9} 其平均值都是7,但第二个集合具有较小的标准差。 标准差可以当作不确定性的一种测量。例如在物理科学中,做重复性测量时,测量数值集合的标准差代表这些测量的精确度。当要决定测量值是否符合预测值,测量值的标准差占有决定性重要角色:如果测量平均值与预测值相差太远(同时与标准差数值做比较),则认为测量值与预测值互相矛盾。这很容易理解,因为如果测量值都落在一定数值范围之外,可以合理推论预测值是否正确。

标准差和标准误的选择 (SD) 和 (SEM)

标准差和标准误的选择 (SD) 和 (SEM) Which error bar should you choose? It is easy to be confused about the difference between the standard deviation (SD) and standard error of the mean (SEM). The SD quantifies scatter - how much the values vary from one another. The SEM quantifies how accurately you know the true mean of the population. The SEM gets smaller as your samples get larger. This makes sense, because the mean of a large sample is likely to be closer to the true population mean than is the mean of a small sample. The SD does not change predictably as you acquire more data. The SD quantifies the scatter of the data, and increasing the size of the sample does not increase the scatter. The SD might go up or it might go down. You can't predict. On average, the SD will stay the same as sample size gets larger. If the scatter is caused by biological variability, your probably will want to show the variation. In this case, graph the SD rather than the SEM. You could also instruct Prism to graph the range, with error bars extending from the smallest to largest value. Also consider graphing every value, rather than using error bars. If you are using an in vitro system with no biological variability, the scatter can only result from experimental imprecision. In this case, you may not want to show the scatter, but instead show how well you have assessed the mean. Graph the mean and SEM or the mean with 95% confidence intervals. Ideally, the choice of which error bar to show depends on the source of the variability and the point of the experiment. In fact, many scientists always show the mean and SEM, to make the error bars as small as possible.

误差棒 标准差 标准误差

标准差(Standard Deviation) 和标准误差(Standard Error)本文摘自 Streiner DL.Maintaining standards: differences between the standard deviation and standarderror, and when to use each. Can J Psychiatry 1996; 41: 498–502. 标准差(Standard Deviation) 标准差,缩写为S.D., SD, 或者 s (就是为了把人给弄晕?),是描述数据点在均值(mean)周围聚集程度的指标。 如果把单个数据点称为“X i,” 因此“X1” 是第一个值,“X2” 是第二个值,以此类推。均值称为“M”。初看上去Σ(X i-M)就可以作为描述数据点散布情况的指标,也就是把每个X i与M的偏差求和。换句话讲,是(单个数据点—数据点的平均)的总和。 看上去挺有逻辑性的,但是它有两个缺点。 第一个困难是:上述定义的结果永远是0。根据定义,高出均值的和永远等于低于均值的和,因此它们相互抵消。可以取差值的绝对值来解决(也就是说,忽略负值的符号),但是由于各种神秘兮兮的原因,统计学家不喜欢绝对值。另外一个剔除负号的方法是取平方,因为任何数的平方肯定是正的。所以,我们就有Σ(X i-M)2。 另外一个问题是当我们增加数据点后此等式的结果会随之增大。比如我们手头有25个值的样本,根据前面公式计算出SD是10。如果再加25个一模一样的样本,直觉上50个大样本的数据点分布情况应该不变。但是我们的公式会产生更大的SD值。好在我们可以通过除以数据点数量N来弥补这个漏洞。所以等式就变成Σ(X i-M)2/N. 根据墨菲定律,我们解决了两个问题,就会随之产生两个新问题。 第一个问题(或者我们应该称为第三个问题,这样能与前面的相衔接)是用平方表达偏差。假设我们测量自闭症儿童的IQ。也许会发现IQ均值是75, 散布程度是100 个IQ点平方。这IQ点平方又是什么东西?不过这容易处理:用结果的平方根替代,这样结果就与原来的测量单位一致。所以上面的例子中的散布程度就是10个IQ点,变得更加容易理解。 最后一个问题是目前的公式是一个有偏估计,也就是说,结果总是高于或者低于真实的值。解释稍微有点复杂,先要绕个弯。在多数情况下,我们做研究的时候,更感兴趣样本来自的总体(population)。比如,我们探查有年轻男性精神分裂症患者的家庭中的外现情绪(expressed emotion,EE)水平时,我们的兴趣点是所有满足此条件的家庭(总体),而不单单是哪些受研究的家庭。我们的工作便是从样本中估计出总体的均值(mean)和SD。因为研究使用的只是样本,所以

标准差与标准误的区别

标准差与标准误的区别 在日常的统计分析中,标准差和标准误是一对十分重要的统计量,两者有区别也有联系。但是很多人却没有弄清其中的差异,经常性地进行一些错误的使用。对于标准差与标准误的区别,很多书上这样表达:标准差表示数据的离散程度,标准误表示抽样误差的大小。这样的解释可能对于许多人来说等于没有解释。 其实这两者的区别可以采用数据分布表达方式描述如下:如果样本服从均值为μ,标准差为δ的正态分布,即X~N(μ, δ2),那么样本均值服从均值为0,标准差为δ2/n的正态分布,即~ N(μ,δ2/n)。这里δ为标准差,δ/n1/2为标准误。明白了吧,用统计学的方法解释起来就是这么简单。 可是,实际使用中总体参数往往未知,多数情况下用样本统计量来表示。那么,关于这两者的区别可以这样表述:标准差是样本数据方差的平方根,它衡量的是样本数据的离散程度;标准误是样本均值的标准差,衡量的是样本均值的离散程度。而在实际的抽样中,习惯用样本均值来推断总体均值,那么样本均值的离散程度(标准误)越大,抽样误差就越大。所以用 标准误来衡量抽样误差的大小。 在此举一个例子。比如,某学校共有500名学生,现在要通过抽取样本量为30的一个样本,来推断学生的数学成绩。这时可以依据抽取的样本信息,计算出样本的均值与标准差。如果我们抽取的不是一个样本,而是10个样本,每个样本30人,那么每个样本都可以计算出均值,这样就会有10个均值。也就是形成了一个10个数字的数列,然后计算这10个数字的标准差,此时的标准差就是标准误。但是,在实际抽样中我们不可能抽取10个样本。所以,标准误就由样本标准差除以样本量来表示。当然,这样的结论也不是随心所欲,而是经过了统计学家的严密证明的。 在实际的应用中,标准差主要有两点作用,一是用来对样本进行标准化处理,即样本观察值减去样本均值,然后除以标准差,这样就变成了标准正态分布;而是通过标准差来确定异常值,常用的方法就是样本均值加减n倍的标准差。标准误的作用主要是用来做区间估计,常用的估计区间是均值加减n倍的标准误。

标准差和标准误区别及Excel中标准差公式的区别

标准差和标准误:两个容易混淆的概念 标准误其实就是标准差的一种,不过二者的含义有所区别: 标准差计算的是一组数据偏离其均值的波动幅度,不管这组数是总体数据还是样本数据。你看standard deviation,说的就是“偏离”,只是在翻译为中文时,失去了其英文涵义。 而标准误(/ σ),衡量的是我们在用样本统计量去推断相应的总体参数(常见如均值、方差等)的时候,一种估计的精度。样本统计量本身就是随机变量,每一次抽样,都可以根据抽出的样本情况计算出一个不同的样本统计量值。理论上来讲,从既定的总体中按照既定的样本规模n,穷尽所有可能抽出的样本(不妨假设为NN),根据这些样本可以计算出NN个样本统计量值,把这些统计量值分组绘成直方图(X轴为分组的统计量数值,Y轴为落在某一分组区间内的频率),则这个直方图就反应了样本统计量的分布情况(即抽样分布)。既然是分布,当然就有均值和方差。如果所有可能的样本统计量值的平均值就是总体均值,这就是无偏估计。如果所有可能的样本统计量值的方差在所有用于估计总体参数的统计量里最小,这就是有效估计。因此,抽样分布的标准差(也就是标准误)越小,则用样本统计量去估计总体参数时,精度就越高。所以,你明白为什么叫标准误(standard error)了。一般意义上讲,standard error反映的是用样本统计量去估计总体参数的时候,可能发生的平均“差错”。 不妨这么理解吧,如果总体平均值是160,抽样误差是5,就是说用抽得的样本平均数去推断总体平均数时,平均差错可能在5左右;如果抽样误差是3,精度当然就比5要高啦。不同的总体、不同的样本规模,这个精度当然是不同的。如果总体的变异本身很小(也就是总体标准差小),样本规模越大,这种情况下精度当然就高啦。另外,根据大数定律,当样本规模大到一定程度的时候,不管总体是什么分布,样本平均数都会近似服从正态分布,这就为计算抽样误差(标准误)提供了理论依据。

计量资料的标准差和标准误有何区别与联系1

1、计量资料的标准差和标准误有何区别与联系 标准差和标准误都是变异指标,但它们之间有区别,也有联系。区别: ①概念不 同;标准差是描述观察值(个体值)之间的变异程度;标准误是描述样本均数的抽 样误差;②用途不同;标准差与均数结合估计参考值范围,计算变异系数,计算 标准误等。标准误用于估计参数的可信区间,进行假设检验等。③它们与样本含 量的关系不同: 当样本含量n 足够大时,标准差趋向稳定;而标准误随n的增大 而减小,甚至趋于0 。联系: 标准差,标准误均为变异指标,当样本含量不变时, 标准误与标准差成正比。 2、二项分布、Poission分布的应用条件 二项分布的应用条件:医学领域有许多二分类记数资料都符合二项分布(传染病和遗传 病除外),但应用时仍应注意考察是否满足以下应用条件:(1) 每次实验只有两类对立 的结果;(2) n次事件相互独立;(3) 每次实验某类结果的发生的概率是一个常数。 Poisson分布的应用条件:医学领域中有很多稀有疾病(如肿瘤,交通事故等)资料都符合Poisson分布,但应用中仍应注意要满足以下条件:(1) 两类结果要相互对立;(2) n次试验相互独立;(3) n应很大, P应很小。 3、极差、四分位数间距、标准差、变异系数的适用范围有何异同? 答:这四个指标的相同点在于均用于描述计量资料的离散程度。其不同点为: 极差可用于各种分布的资料,一般常用于描述单峰对称分布小样本资料的变异程度,或用于初步了解资料的变异程度。若样本含量相差较大,不宜用极差来比较资料的离散程度。 四分位数间距适用于描述偏态分布资料、两端无确切值或分布不明确资料的离散程度。 标准差常用于描述对称分布,特别是正态分布或近似正态分布资料的离散程度。 变异系数适用于比较计量单位不同或均数相差悬殊的几组资料的离散程度。 4.中位数、均数、几何均数的适用条件有何异同。 (1)均数适用于描述对称分布,特别是正态分布的数值变量资料的平均水平;(2)几何均数适用于描述原始数据呈偏态分布,但经过对数变换后呈正态分布或近似正态分布的数值变量资料的平均水平;(3)中位数适用于描述呈明显偏态分布(正偏态或负偏态),或分布情况不明,或分布的末端有不确切数值的数值变量资料的平均水平。 5.第一类错误与第二类错误的区别与联系。

标准差与标准误关系与区别

标准差与标准误关系与区别在日常的统计分析中,标准差和标准误是一对十分重要的统计量,两者有区别也有联系。但是很多人却没有弄清其中的差异,经常性地进行一些错误的使用。对于标准差与标准误的区别,很多书上这样表达:标准差表示数据的离散程度,标准误表示抽样误差的大小。这样的解释可能对于许多人来说等于没有解释。 其实这两者的区别可以采用数据分布表达方式描述如下:如果样本服从均值为μ,标准差为δ的正态分布,即X~N(μ, δ2),那么样本均值服从均值为0,标准差为δ2/n的正态分布,即~ N(μ,δ2/n)。这里δ为标准差,δ/n1/2为标准误。明白了吧,用统计学的方法解释起来就是这么简单。 可是,实际使用中总体参数往往未知,多数情况下用样本统计量来表示。那么,关于这两者的区别可以这样表述:标准差是样本数据方差的平方根,它衡量的是样本数据的离散程度;标准误是样本均值的标准差,衡量的是样本均值的离散程度。而在实际的抽样中,习惯用样本均值来推断总体均值,那么样本均值的离散程度(标准误)越大,抽样误差就越大。所以用标准误来衡量抽样误差的大小。 在此举一个例子。比如,某学校共有500名学生,现在要通过抽取样本量为30的一个样本,来推断学生的数学成绩。这时可以依据抽取的样本信息,计算出样本的均值与标准差。如果我们抽取的不是一个样本,而是10个样本,每个样本30人,那么每个样本都可以计算出均值,这样就会有10个均值。也就是形成了一个10个数字的数列,然后计算这10个数字的标准差,此时的标准差就是标准误。但是,在实际抽样中我们不可能抽取10个样本。所以,标准误就由样本标准差除以样本量来表示。当然,这样的结论也不是随心所欲,而是经过了统计学家的严密证明的。 在实际的应用中,标准差主要有两点作用,一是用来对样本进行标准化处理,即样本观察值减去样本均值,然后除以标准差,这样就变成了标准正态分布;而是通过标准差来确定异常值,常用的方法就是样本均值加减n倍的标准差。标准误的作用主要是用来做区间估计,常用的估计区间是均值加减n倍的标准误。

标准差和标准误的区别与联系

标准差和标准误的区别与联系 在日常的统计分析中,标准差和标准误是一对十分重要的统计量,两者有区别也有联系。但是很多人却没有弄清其中的差异,经常性地进行一些错误的使用。对于标准差与标 准误的区别,很多书上这样表达:标准差表示数据的离散程度,标准误表示抽样误差的大小。这样的解释可能对于许多人来说等于没有解释。其实这两者的区别可以采用数据分 布表达方式描述如下:如果样本服从均值为μ,标准差为δ的正态分布,即X~Nμ, δ2,那么样本均值服从均值为0,标准差为δ2/n的正态分布,即?~Nμ,δ2/n。这里 δ为标准差,δ/n1/2为标准误。明白了吧,用统计学的方法解释起来就是这么简单。 可是,实际使用中总体参数往往未知,多数情况下用样本统计量来表示。那么,关于 这两者的区别可以这样表述:标准差是样本数据方差的平方根,它衡量的是样本数据的离 散程度;标准误是样本均值的标准差,衡量的是样本均值的离散程度。而在实际的抽样中,习惯用样本均值来推断总体均值,那么样本均值的离散程度标准误越大,抽样误差就越大。所以用标准误来衡量抽样误差的大小。 在此举一个例子。比如,某学校共有500名学生,现在要通过抽取样本量为30的一 个样本,来推断学生的数学成绩。这时可以依据抽取的样本信息,计算出样本的均值与标 准差。如果我们抽取的不是一个样本,而是10个样本,每个样本30人,那么每个样本都 可以计算出均值,这样就会有10个均值。也就是形成了一个10个数字的数列,然后计算 这10个数字的标准差,此时的标准差就是标准误。但是,在实际抽样中我们不可能抽取 10个样本。所以,标准误就由样本标准差除以样本量来表示。当然,这样的结论也不是随心所欲,而是经过了统计学家的严密证明的。 在实际的应用中,标准差主要有两点作用,一是用来对样本进行标准化处理,即样本 观察值减去样本均值,然后除以标准差,这样就变成了标准正态分布;而是通过标准差来 确定异常值,常用的方法就是样本均值加减n倍的标准差。标准误的作用主要是用来做区 间估计,常用的估计区间是均值加减n倍的标准误。 标准偏差反映的是个体观察值的变异,标准误反映的是样本均数之间的变异即样本均 数的标准差,是描述均数抽样分布的离散程度及衡量均数抽样误差大小的尺度,标准误不 是标准差,是样本平均数的标准差。标准误用来衡量抽样误差。标准误越小,表明样本 统计量与总体参数的值越接近,样本对总体越有代表性,用样本统计量推断总体参数的可 靠度越大。因此,标准误是统计推断可靠性的指标。 在相同测量条件下进行的测量称为等精度测量,例如在同样的条件下,用同一个游标 卡尺测量铜棒的直径若干次,这就是等精度测量。对于等精度测量来说,还有一种更好的 表示误差的方法,就是标准误差。 标准误差定义为各测量值误差的平方和的平均值的平方根,故又称为均方误差。 设n个测量值的误差为ε1、ε2……εn,则这组测量值的标准误差ζ等于:

标准差与标准误的区别

标准差与标准误的区别 一、标准差(standard deviation,缩写 SD或者S) 在国家计量技术规范中,标准差的正式称是标准偏差,简称标准差,用符号σ表示。标准差的名称有10 余种,如总体标准差、母体标准差、均方根误差、均方根偏差、均方误差、均方差、单次测量标准差和理论标准差等。 标准差的定义式为: 如果用样本标准差s 的值作为总体标准差σ的估计值。 样本标准差的计算公式为: 二、标准误(标准误差,standard error,缩写Sx 或S E ) ) 在抽样试验(或重复的等精度测量) 中, 常用到样本平均数的标准差,亦称样本平均数的标准误或简称标准误( standard error of mean) 。因为样本标准差s 不能直接反映样本平均数 x 与总体平均数μ究竟误差多少, 所以, 平均数的误差实质上是样本平均数与总体平均数之间的相对误。可推出样本平均数的标准误为,其估计值为,它反映了样本平均数的离散程度。标准误越小, 说明样本平均数与总体平均数越接近,否则,表明样本平均数比较离散。 标准误,衡量的是我们在用样本统计量去推断相应的总体参数(常见如均值、方差等)的时候,一种估计的精度。样本统计量本身就是随机变量,每一次抽样,都可以根据抽出的样本情况计算出一个不同的样本统计量值。理论上来讲,从既定的总体中按照既定的样本规模n,穷尽所有可能抽出的样本(不妨假设为NN),根据这些样本可以计算出NN个样本统计量值,把这些统计量值分组绘成直方图(X轴为分组的统计量数值,Y轴为落在某一分组区间内的频率),则这个直方图就反应了样本统计量的分布情况(即抽样分布)。既然是分布,当然就有均值和方差。如果所有可能的样本统计量值的平均值就是总体均值,这就是无偏估计。如果所有可能的样本统计量值的方差在所有用于估计总体参数的统计量里最小,这就是有效估计。因此,抽样分布的标准差(也就是标准误)越小,则用样本统计量去估计总体参数时,精度就越高。所以,你明白为什么叫标准误(standard error)了。一般意义上讲,standard error反映的是用样本统计量去估计总体参数的时候,可能发生的平均“差错”。 需要注意的是,标准误差不是测量值的实际误差,也不是误差范围,它只是对一组测量数据可靠

标准差与标准误的区别

1 标准差 标准差(S 或SD) ,是用来反映变异程度,当两组观察值在单位相同、均数相近的情况下,标准差越大,说明观察值间的变异程度越大。即观察值围绕均数的分布较离散,均数的代表性较差。反之,标准差越小,表明观察值间的变异较小,观察值围绕均数的分布较密集,均数的代表性较好。在医学研究中,对于标准差的大小,原则上应该控制在均值的12 %以内,如果标准差过大,将直接影响研究的准确性。数理统计表明,在标准正态分布曲线下的面积是有规律性的,根据这一规律,人们经常用均数加减标准差来计算样本观察值数量的理论分布,并以此来鉴定样本的代表性。即: x ±1.0 s 表示68.27 %的观察值在此范围之内; x ±1.96 s 表示95 %的观察值在此范围内; x ±2.58 s 表示99 %的观察值在此范围内。 如果取得的样本资料的实际分布与理论分布非常接近,证明该样本具有代表性。反之,则需要重新修正抽样方法或样本含量。x ±1.96 s 是确定正常值的方法,经常在工作中被采用,也称为95 %正常值范围。 2 标准误 标准误( Sx 或S E ) ,是样本均数的抽样误差。在实际工作中,我们无法直接了解研究对象的总体情况,经常采用随机抽样的方法,取得所需要的指标,即样本指标。样本指标与总体指标之间存在的差别,称为抽样误差,其大小通常用均数的标准误来表示。 数理统计证明,标准误的大小与标准差成正比,而与样本含量( n ) 的平分根成反比,即: Sx = S/ n 这就是标准误的计算方法。 抽样研究的目的之一,是用样本指标来估计总体指标。例如:用样本均数来估计总体均数。由于两者间存在抽样误差,且不同的样本可能得到不同的估计值,因此,常用“区间估计”的方法,来估计总体均数的范围。即: X ±1.96 Sx 表示总体均数的95 %可信区间; X ±2.58 Sx 表示总体均数的99 %可信区间。95 %可信区间指的是:在X ±1.96 Sx 范围中,包括总体均数的可能性为95 % ,也就是说,在100 次抽样估计中,可能有95 次正确(包括总体均数) ,有5 次错误(不包括总体均数) 。99 %可信区间也是这个道理,只是包括的范围更大。在实际工作中,由于抽取的样本较小,不呈标准正态分布( u 分布) ,而遵从t 分布,所以常用t 值代替1.96 或2.58。 可在t 值表上查出不同自由度( n ′) 下、不同界值时的t 值。可见到自由度越小, t 值越大,当自由度逐渐增大时, t 值也逐渐接近1196 或2158 ,当n ′= ∞时, t 值就完全被其代替了。所以,我们常用X ±t 0.05 Sx 表示总体均数的95 %可信区间,用x ±t 0.01 Sx 表示总体均数的99 %可信区间。 综上所述,标准差与标准误尽管都是反映变异程度的指标,但这是两个不同的统计学概念。标准差描述的是样本中各观察值间的变异程度,而标准误表示每个样本均数间的变异程度,描述样本均数的抽样误差,即样本均数与总体均数的接近程度,也可以称为样本均数的标准差。二者不可混淆。

生物统计学-标准差和标准误有何区别

标准差与标准误郝拉娣1于化东21大连水产学院学报编辑部1160232数学研究与评论杂志编辑部116024:辽宁大连摘要对容易引起混淆的统计量“标准差”和“标准误”从意义、特征、计算公式、符号表示等方面作了准确描述与区分并对统计学结果表示中“平均数±标准差”“平均数±标准误”的符号表示进行了统计分析指出了存在问题。通过原因分析提出了避免二者混淆和不规范的符号表示的一些应对措施。关键词科技论文算术平均数标准差标准误中图分类号G237.5Standarddeviationandstandarderrorofarithmeticmean‖HaoLadiYuHuadongAbstract The“standarddeviation”and “standarderrorofarithmeticmean”thatbeingeasytocauseconfusionareaccuratelydescribedanddistinguishedfromthemeanin gcharacteristicformulaofcalculationandsymbolizationetc.Thesymbolizationof“mean ±standarddeviation”and“mean±standarderrorofmean”intheexpressionofstatisticsresultareanalyzed.Thensomecountermeasurestopreventthet wocasesfrombeingobscureandbeingexpressedwithabnormalsymbolsareputforward.Ke ywords sci2techpaperarithmeticmeanstandarddeviationstandarderrorofmeanFirst2author’saddress EditorialOfficeofJournalofDalianFisheriesCollege116023DalianChina在科学实验和工程实践中常遇到实验结果中包含的随机误差一般都需要在假定系统误差得到消除的情况下计算出实验结果可能达到的准确范围因此在科技论文中常有“平均数±标准差”与“平均数±标准误”本文中“平均数”均指“算术平均数”的统计学结果表达。虽然“标准差”与“标准误”均用来反映随机误差但一字之差如果分不清它们的实质含义很容易混淆这2种表达。1标准差与标准误1.1总体标准差与样本标准差标准差standarddeviation作为随机误差或真差的代表是随机误差绝对值的统计均值。在国家计量技术规范中标准差的正式名称是标准偏差简称标准差1用符号σ表示。标准差的名称有10余种如总体标准差、母体标准差、均方根误差、均方根偏差、均方误差、均方差、单次测量标准差和理论标准差等2。标准差的定义式为σ1N∑Ni1xi-μ21式中xi 为一组样本变量从总体中抽取的一部分个体的集合。由于式1中含有的参数———总体算术平均数μ亦称数学期望或称真值和总体数N是不能进行实际计算的

标准误和标准差

标准误和标准差的区别 严洁 ●标准误是样本统计量的标准差。 ●样本统计量有多种:例如,样本均值,样本和、样本中位值、两个样本均值的差,两个样本 方差的比,回归系数等等。 ●简单地说,标准差是表示观察数据的离散程度的;标准误是表示样本统计量的离散程度的。还是课堂上的例子(这个最简单):从3个球里面抽2个球。这3个球的重量分别是2,4,6克。 (1号样本)2克,2克(意味着抽了两次,两次都抽了同一个球,对吧) 那么,2号样本的标准差就是用里面的两个球的观察值,计算而得,[(2-3)2+(4-3)2]/(2-1),得到样本方差为2 标准差就是2的平方根。 标准误呢,有很多种,有样本均值的标准误,样本中位值的标准误等,就拿样本均值标准误来说,1号样本的均值是2, 2号样本的均值是3, 3号样本的均值是4, 4号样本的均值是3,…… 这些均值可以组成新的一组数据(表格中高亮部分),这些数据也可以算出来均值和标准差,那么这些数据算出来的标准差就叫做“均值标准误”。 ●均值标准误怎么算呢? (1)先求方差 [(2-4)2+(3-4)2+(4-4)2+(3-4)2+(4-4)2+(5-4)2+(4-4)2+(5-4)2+(6-4)2] / 9=1.33 注意,这里的分母是9,因为我们把所有可能的样本都穷尽了。但是如果我们总共抽取了6次,没有穷尽,那么分母就要用(6-1)了。 (2)然后1.33的正平方根等于1.1547,它就是均值标准误。

现实生活中,我们只抽一次样本,就用这个公式来估计“均值标准误” 假如我们抽到了2号样本,2号样本的s=1.414, n=2,那么均值标准误就约等于1 如果抽中的是7号样本,s=2.828, n=2,那么均值标准误就约等于2 如果抽中的是9号样本,s=0, n=2,那么均值标准误就约等于0 虽然都不等于1.1547,但是都是比较接近的。 如果样本量很大的话,或者把可能抽到的样本都抽出来的话,那么 就会更加接近于 均值标准误的准确值。 另外: “样本标准差的均值”和“样本均值的标准差”是不同的两个概念。表格中计算的样本标准差的均值等于1.257 n e s s ..=n e s s ..=

标准差_s_与标准误_sx_的正确使用

095中 国 兽 医 学 报1996年 M em b rane2bound enzym e activity and resp irato ry functi on of m itochondria w ere also m easu red.It w as show n that cadm ium p rom inen tly increased the fluo rescence po lariza2 ti on(P)and m icrovisco sity(Γ)of m itochondrial m em b rane and sign ifican tly decreased RCR and AD P O of m itochondria w ith the activity of m em b rane2bound A T Pase and SDH being sign ifican tly inh ib ited.T he resu lts suggested that selen ium m igh t an tagon ize afo rem en ti oned changes induced by cadm ium. Key words selen ium;cadm ium;m em b rane flu idity;m itochondria;m em b rane2 bound enzym e 标准差(s)与标准误(s xθ)的正确使用 样本标准差(s)是描述正态或近似正态分布数据变异程度的统计量,s的大或小说明数据取值的分散或集中。s与样本均数(xθ)合用,主要是在大样本调查研究中,对正态或近似正态分布的总体正常值范围进行估计。常用xθ±1196s表示双侧95%正常值范围,xθ±s表示双侧68%正常值范围,xθ+1165s或xθ-1165s表示单侧95%正常值范围等。如果不是为了正常值范围估计,一般不用xθ±s。当数据与正态分布相差很大,或者虽为正态分布,但样本容量太小(小于30或100),也不宜用xθ±s估计正常值范围。 样本标准误(s xθ)适用于正态或近似正态分布的数据,是主要描述小样本试验中,样本容量相同的同质的多个样本均数(xθ)间的变异程度的统计量。即如果多次重复同一个试验,可获多个xθ,它们之间的变异程度用s xθ表示。显然,s xθ越小,xθ变异越小,越稳定,用θ估计总体均数越可靠。因此,为说明xθ的稳定性、可靠性或通过几个xθ对几组数据进行x 比较(这是科研论文中最常见的),应当用xθ±s xθ描述数据。s xθ与xθ合用还可以给出正态总体均值的可信区间估计,常用xθ±t0105(n-1)s xθ〔其中t0105(n-1)为样本容量是n的t界值〕表示总体均值的95%可信区间,意指总体均值有95%的把握在所给范围内。 由上可见,除正常值范围估计外的大多数情况,都应当用xθ±s xθ来表示数据。 在科研论文中不恰当地使用xθ±s的情况常能见到。如在“国人不同年龄正常男性……受体测定”一文中,数据表示如下: 年 龄n xθ±s 21~40131010±210 41~6091015±118 两组比较P>0105 从文章标题看,似有估计正常值范围之意,但因样本容量太小,估计不会准确;文中又对两个年龄组进行了均数间的比较,此时用xθ±s又不恰当,而应改用xθ±s xθ。 由s计算s xθ很方便。s xθ=s n(n为样本容量)。

相关主题
文本预览
相关文档 最新文档