当前位置:文档之家› 实验大数据误差分析报告和大数据处理

实验大数据误差分析报告和大数据处理

实验大数据误差分析报告和大数据处理
实验大数据误差分析报告和大数据处理

第二章 实验数据误差分析和数据处理

第一节 实验数据的误差分析

由于实验方法和实验设备的不完善,周围环境的影响,以及人的观察力,测量程序等限制,实验观测值和真值之间,总是存在一定的差异。人们常用绝对误差、相对误差或有效数字来说明一个近似值的准确程度。为了评定实验数据的精确性或误差,认清误差的来源及其影响,需要对实验的误差进行分析和讨论。由此可以判定哪些因素是影响实验精确度的主要方面,从而在以后实验中,进一步改进实验方案,缩小实验观测值和真值之间的差值,提高实验的精确性。

一、误差的基本概念

测量是人类认识事物本质所不可缺少的手段。通过测量和实验能使人们对事物获得定量的概念和发现事物的规律性。科学上很多新的发现和突破都是以实验测量为基础的。测量就是用实验的方法,将被测物理量与所选用作为标准的同类量进行比较,从而确定它的大小。

1.真值与平均值

真值是待测物理量客观存在的确定值,也称理论值或定义值。通常真值是无法测得的。若在实验中,测量的次数无限多时,根据误差的分布定律,正负误差的出现几率相等。再经过细致地消除系统误差,将测量值加以平均,可以获得非常接近于真值的数值。但是实际上实验测量的次数总是有限的。用有限测量值求得的平均值只能是近似真值,常用的平均值有下列几种:

(1) 算术平均值 算术平均值是最常见的一种平均值。

设1x 、2x 、……、n x 为各次测量值,n 代表测量次数,则算术平均值为

n

x n x x x x n

i i

n ∑==+???++=121 (2-1)

(2) 几何平均值 几何平均值是将一组n 个测量值连乘并开n 次方求得的平均值。即

n n x x x x ????=21几 (2-2)

(3)均方根平均值

n

x

n x

x x x n

i i

n

∑==+???++=

1

222221均 (2-3) (4) 对数平均值 在化学反应、热量和质量传递中,其分布曲线多具有对数的特性,在这种情况下表征平均值常用对数平均值。

设两个量1x 、2x ,其对数平均值

2

1

21

2

121ln ln ln x x x x x x x x x -=--=

(2-4)

应指出,变量的对数平均值总小于算术平均值。当1x /2x ≤2时,可以用算术平均值代替对数平均值。

当1x /2x =2,对x =1.443, =x 1.50, (对x -x )/对x =4.2%, 即1x /2x ≤2,引起的误差不超过4.2%。

以上介绍各平均值的目的是要从一组测定值中找出最接近真值的那个值。在化工实验和科学研究中,数据的分布较多属于正态分布,所以通常采用算术平均值。

2.误差的分类

根据误差的性质和产生的原因,一般分为三类:

(1)系统误差 系统误差是指在测量和实验中未发觉或未确认的因素所引起的误差,而这些因素影响结果永远朝一个方向偏移,其大小及符号在同一组实验测定中完全相同,当实验条件一经确定,系统误差就获得一个客观上的恒定值。

当改变实验条件时,就能发现系统误差的变化规律。

系统误差产生的原因:测量仪器不良,如刻度不准,仪表零点未校正或标准表本身存在偏差等;周围环境的改变,如温度、压力、湿度等偏离校准值;实验人员的习惯和偏向,如读数偏高或偏低等引起的误差。针对仪器的缺点、外界条件变化影响的大小、个人的偏向,待分别加以校正后,系统误差是可以清除的。

(2)偶然误差 在已消除系统误差的一切量值的观测中,所测数据仍在末一位或末两位数字上有差别,而且它们的绝对值和符号的变化,时而大时而小,时正时负,没有确定的规律,这类误差称为偶然误差或随机误差。偶然误差产生的原因不明,因而无法控制和补偿。但是,倘若对某一量值作足够多次的等精度测量后,就会发现偶然误差完全服从统计规律,误差的大小或正负的出现完全由概率决定。因此,随着测量次数的增加,随机误差的算术平均值趋近于零,所以多次测量结果的算数平均值将更接近于真值。

(3)过失误差 过失误差是一种显然与事实不符的误差,它往往是由于实验人员粗心大意、过度疲劳和操作不正确等原因引起的。此类误差无规则可寻,只要加强责任感、多方警惕、细心操作,过失误差是可以避免的。

3、精密度、准确度和精确度

反映测量结果与真实值接近程度的量,称为精度(亦称精确度)。它与误差大小相对应,测量的精度越高,其测量误差就越小。“精度”应包括精密度和准确度两层含义。

(1)精密度:测量中所测得数值重现性的程度,称为精密度。它反映偶然误差的影响程度,精密度高就表示偶然误差小。

(2)准确度 测量值与真值的偏移程度,称为准确度。它反映系统误差的影响精度,准确度高就表示系统误差小。

(3)精确度(精度) 它反映测量中所有系统误差和偶然误差综合的影响程度。

在一组测量中,精密度高的准确度不一定高,准确度高的精密度也不一定高,但精确度高,则精密度和准确度都高。

为了说明精密度与准确度的区别,可用下述打靶子例子来说明。如图2-1所示。

图2-1(a)中表示精密度和准确度都很好,则精确度高;图2-1(b)表示精密度很好,但准确度却不高;图2-1(c)表示精密度与准确度都不好。在实际测量中没有像靶心那样明确的真值,而是设法去测定这个未知的真值。

学生在实验过程中,往往满足于实验数据的重现性,而忽略了数据测量值的准确程度。绝对真值是不可知的,人们只能订出一些国际标准作为测量仪表准确性的参考标准。随着人类认识运动的推移和发展,可以逐步逼近绝对真值。

(a ) (b ) (c )

图 2-1 精密度和准确度的关系

4、误差的表示方法

利用任何量具或仪器进行测量时,总存在误差,测量结果总不可能准确地等于被测量的真值,而只是它的近似值。测量的质量高低以测量精确度作指标,根据测量误差的大小来估计测量的精确度。测量结果的误差愈小,则认为测量就愈精确。

(1)绝对误差 测量值X 和真值0A 之差为绝对误差,通常称为误差。记为:

0A X D -= (2-5) 由于真值0A 一般无法求得,因而上式只有理论意义。常用高一级标准仪器的示值作为实际值A 以代替真值0A 。由于高一级标准仪器存在较小的误差,因而A 不等于0A ,但总比X 更接近于0A 。X 与A 之差称为仪器的示值绝对误差。记为

A X d -= (2-6)

与d 相反的数称为修正值,记为

X A d C -=-= (2-7)

通过检定,可以由高一级标准仪器给出被检仪器的修正值C 。利用修正值便可以求出该仪器的实际值A 。即

C X A += (2-8) (2)相对误差 衡量某一测量值的准确程度,一般用相对误差来表示。示值绝对误差d 与被测量的实际值A 的百分比值称为实际相对误差。记为

%100?=

A

d

A δ (2-9) 以仪器的示值X 代替实际值A 的相对误差称为示值相对误差。记为

%100?=

X

d

X δ (2-10) 一般来说,除了某些理论分析外,用示值相对误差较为适宜。

(3)引用误差 为了计算和划分仪表精确度等级,提出引用误差概念。其定义为仪表示值的绝对误差与量程范围之比。

%100%100?=?=

n

A X d

量程范围示值绝对误差δ (2-11)

d -- 示值绝对误差;

n X -- 标尺上限值-标尺下限值。

(4)算术平均误差 算术平均误差是各个测量点的误差的平均值。

n

d i ∑=平δ n i ,,2,1 = (2-12) n —测量次数;

i d —为第 i 次测量的误差。 (5)标准误差 标准误差亦称为均方根误差。其定义为

n

d

i

∑=

2σ (2-13)

上式使用于无限测量的场合。实际测量工作中,测量次数是有限的,则改用下式

1

2-=

∑n d

i

σ (2-14)

标准误差不是一个具体的误差,σ的大小只说明在一定条件下等精度测量集合所属的每一个观测值对其算术平均值的分散程度,如果σ的值愈小则说明每一次测量值对其算术平均值分散度就小,测量的精度就高,反之精度就低。

在化工原理实验中最常用的U 形管压差计、转子流量计、秒表、量筒、电压等仪表原则上均取其最小刻度值为最大误差,而取其最小刻度值的一半作为绝对误差计算值。

5、测量仪表精确度

测量仪表的精确等级是用最大引用误差(又称允许误差)来标明的。它等于仪表示值中的最大绝对误差与仪表的量程范围之比的百分数。

%

100%100max max ?=

?=

n

n X d 量程范围

最大示值绝对误差

δ (2-15) 式中:δ

max

——仪表的最大测量引用误差;

d max ——仪表示值的最大绝对误差; X n ——标尺上限值—标尺下限值。

通常情况下是用标准仪表校验较低级的仪表。所以,最大示值绝对误差就是被校表与标准表之间的最大绝对误差。

测量仪表的精度等级是国家统一规定的,把允许误差中的百分号去掉,剩下的数字就称为仪表的精度等级。仪表的精度等级常以圆圈内的数字标明在仪表的面板上。例如某台压力计的允许误差为1.5%,这台压力计电工仪表的精度等级就是1.5,通常简称1.5级仪表。

仪表的精度等级为a ,它表明仪表在正常工作条件下,其最大引用误差的绝对值δmax 不能超过的界限,即

%%100max max

a X d

n

n ≤?=δ (2-16)

由式(2-16)可知,在应用仪表进行测量时所能产生的最大绝对误差(简称误差限)为

n X a d ?≤%max (2-17) 而用仪表测量的最大值相对误差为

X

X

a X d n n n ?≤=

%max max δ (2-18)

由上式可以看出,用只是仪表测量某一被测量所能产生的最大示值相对误差,不会超过仪

表允许误差a% 乘以仪表测量上限X n 与测量值X 的比。在实际测量中为可靠起见,可用下式对仪表的测量误差进行估计,即

X

X a n m ?

=%δ (2-19) [例2-1] 用量限为5A ,精度为0.5级的电流表,分别测量两个电流,I 1 =5A,I 2 =2.5A,试求测量I 1和I 2的相对误差为多少?

%5.05

5

%5.0%1

1

=?=?=I I a n m δ

%0.15

.25%5.0%22=?=?

=I I a n m δ 由此可见,当仪表的精度等级选定时,所选仪表的测量上限越接近被测量的值,则测量的

误差的绝对值越小。

[例2-2] 欲测量约90V 的电压,实验室现有0.5级0-300V 和1.0级0-100V 的电压表。问选用哪一种电压表进行测量为好?

用0.5级0-300V 的电压表测量90V 的相对误差为

%7.190

300

%5.0%1

5

.0=?=?=U U a n m δ

用1.0级0-100V 的电压表测量90V 的相对误差为

%1.190

100

%0.1%2

.1=?=?=U U a n m δ

上例说明,如果选择得当,用量程范围适当的1.0级仪表进行测量,能得到比用量程范围

大的0.5级仪表更准确的结果。因此,在选用仪表时,应根据被测量值的大小,在满足被测量数值范围的前提下,尽可能选择量程小的仪表,并使测量值大于所选仪表满刻度的三分之二,即X >2X n /3 。这样就可以达到满足测量误差要求,又可以选择精度等级较低的测量仪表,从而降低仪表的成本。

二、有效数字及其运算规则

在科学与工程中,该用几位有效数字来表示测量或计算结果,总是以一定位数的数字来表示。不是说一个数值中小数点后面位数越多越准确。实验中从测量仪表上所读数值的位数是有限的,而取决于测量仪表的精度,其最后一位数字往往是仪表精度所决定的估计数字。即一般应读到测量仪表最小刻度的十分之一位。数值准确度大小由有效数字位数来决定。

1、 有效数字

一个数据,其中除了起定位作用的“0”外,其他数都是有效数字。如0.0037只有两位有效数字,而370.0则有四位有效数字。一般要求测试数据有效数字为4位。要注意有效数字不一定都是可靠数字。如测流体阻力所用的U 形管压差计,最小刻度是1mm ,但我们可以读到0.1mm ,如342.4mmHg 。又如二等标准温度计最小刻度为0.1℃,我们可以读到0.01℃,如15.16℃。此时有效数字为4位,而可靠数字只有三位,最后一位是不可靠的,称为可疑数字。记录测量数值时只保留一位可疑数字。

为了清楚地表示数值的精度,明确读出有效数字位数,常用指数的形式表示,即写成一个小数与相应10的整数幂的乘积。这种以10的整数幂来记数的方法称为科学记数法。

如 75200 有效数字为4位时,记为7.520*105

有效数字为3位时,记为7.52*105

有效数字为2位时,记为7.5*105

0.00478 有效数字为4位时,记为4.780*10-3

有效数字为3位时,记为4.78*10-3

有效数字为2位时,记为4.7*10-3

2、有效数字运算规则

(1)记录测量数值时,只保留一位可疑数字。

(2)当有效数字位数确定后,其余数字一律舍弃。舍弃办法是四舍六入,即末位有效数字后边第一位小于5,则舍弃不计;大于5则在前一位数上增1;等于5时,前一位为奇数,则进1为偶数,前一位为偶数,则舍弃不计。这种舍入原则可简述为:“小则舍,大则入,正好等于奇变偶”。如:保留4位有效数字 3.71729→3.717;

5.14285→5.143

7.62356→7.624

9.37656→9.376

(3)在加减计算中,各数所保留的位数,应与各数中小数点后位数最少的相同。例如将24.65 0.0082 1.632三个数字相加时,应写为 24.65 + 0.01 + 1.63 = 26.29。

(4)在乘除运算中,各数所保留的位数,以各数中有效数字位数最少的那个数为准;其结果的有效数字位数亦应与原来各数中有效数字最少的那个数相同。例如:

0.0121×25.64×1.05782应写成0.0121×25.64×1.06=0.328。上例说明,虽然这三个数的乘积为0.3281823,但只应取其积为0.328。

(5)在对数计算中,所取对数位数应与真数有效数字位数相同。

三、误差的基本性质

在化工原理实验中通常直接测量或间接测量得到有关的参数数据,这些参数数据的可靠程度如何?如何提高其可靠性?因此,必须研究在给定条件下误差的基本性质和变化规律。

1、误差的正态分布

如果测量数列中不包括系统误差和过失误差,从大量的实验中发现偶然误差的大小有如下几个特征:

(1)绝对值小的误差比绝对值大的误差出现的机会多,即误差的概率与误差的大小有关。这是误差的单峰性。

(2)绝对值相等的正误差或负误差出现的次数相当,即误差的概率相同。这是误差的对称性。

(3)极大的正误差或负误差出现的概率都非常小,即大的误差一般不会出现。这是误差的有界性。

(4)随着测量次数的增加,偶然误差的算术平均值趋近于零。这叫误差的低偿性。

根据上述的误差特征,可疑的出误差出现的概率分布图,如图2-2所示。图中横坐标表示偶然误差,纵坐标表示个误差出现的概率,图中曲线称为误差分布曲线,以)(x f y =表示。其数学表达式有高斯提出,具体形式为:

2

2221σσ

πx e

y -=

(2--20)

或 2

2x

h

e h

y -=

π

(2--21)

上式称为高斯误差分布定律亦称为误差方程。式中σ为标准误差,h 为精确度指数,σ和h 的关系为 σ

21=y (2--22)

若误差按函数关系分布,则称为正态分布。

σ越小,测量精度越高,分布曲线的峰越高切窄;σ越大,分布曲线越平坦且越宽,如图1-3所示。由此可知,σ越小,小误差占的比重越大,测量精度越高。反之,则大误差占的比重越大,测量精度越低。

2、测量集合的最佳值

在测量精度相同的情况下,测量一系列观测

值1M ,2M ,3M ,……,n M 所组成的测量集合,假设 图 2-2 误差分布 其平均值为m M ,则各次测量误差为

m i i M M x -=, i=1、2…n ,

当采用不同的方法计算平均值时,所得到误差值不同,误差出现的概率亦不同。若选取适当的计算方法,使误差最小,而概率最大,由此计算的平均值为最佳值。根据高斯分布定律,只有各点误差平方和最小,才能实现概率最大。这就是最小乘法值。由此可见,对于一组精度相同的观测值,采用算术平均得到的值是该组观测值的

最佳值。 图2-3 不同σ的误差分布曲线

3、 有限测量次数中标准误差σ的计算

由误差基本概念知,误差是观测值和真值之差。在没有系统误差存在的情况下,以无限多次测量所得到的算术平均值为真值。当测量次数为有限时,所得到的算术平均值近似于真值,称最佳值。因此,观测值与真值之差不同于观测值与最佳值之差。

令真值为A ,计算平均值为a ,观测值为M ,并令d=M-a ,D=M-A ,则 ,11a M d -= A M D -=11 ,22a M d -= A M D -=22

…………… …………… ,a M d n n -= A M D n n -=

na M d i i -=∑∑ nA M D i i -=∑∑ 因为 0=-∑na M i na M i =∑ 代入nA M D i i -=∑∑中,即得 n

D A a i ∑+=

(2—23)

将式(2—23)式代入d i =M i -a 中得

n

D D n

D A M d i i i i i ∑∑-=--=)( (2—24)

将式(2—24)两边各平方得 21221)(2n

D n

D D D d i i i ∑∑+-=

222222)(2n

D n

D D D d i i ∑∑+-=

…………… …………… 222)(2n

D n

D D D d i i n n n ∑∑+-=

对i 求和

2

2

22)(

)(2

n

D n n

D D d i i i i ∑∑∑∑+-=

因在测量中正负误差出现的机会相等,故将(ΣD i )2展开后,D 1﹒D 2、D 1 ﹒D 3…,为正为负的数目相等,彼此相消,故得 2

2

2

222

n D n

n

D D

d

i

i

i

i

∑∑∑∑+-=

∑∑-=

221

i i

D n

n d

从上式可以看出,在有限测量次数中,自算数平均值计算的误差平方和永远小于自真值计

算的误差平方和。根据标准误差的定义

n

D

i

∑=

式中ΣD i

2代表观测次数为无限多时误差的平方和,故当观测次数有限时, 1

2-=

∑n d

i

σ (2—25)

4.可疑观测值的舍弃

由概率积分知,随机误差正态分布曲线下的全部积分,相当于全部误差同时出现的概率, 即 121

2

22==

?∞

--

dx e

p x σσ

π (2—26)

若误差x 以标准误差σ的倍数表示,即x=t σ,则在±t σ范围内出现的概率为2Φ(t ),超

出这个范围的概率为1-2Φ(t)。Φ(t)称为概率函数,表示为 ?-

=

Φt t dt e

t 0

2

221)(π

(2—27)

2Φ(t)与t 的对应值在数学手册或专著中均附有此类积分表,读者需要时可自行查取。在使用积分表时,需已知t 值。由表2-1和图(2-4)给出几个典型及其相应的超出或不超出|x|的概率。

由表2-1知,当t=3, |x|=3σ时,在370次观测中只有一次测量的误差超过3σ范围。在有限次的观测中,一般测量次数不超过十次,可以认为误差大于3σ,可能是由于过失误差或实验条件变化未被发觉等原因引起的。因此,凡是误差大于3σ的数据点予以舍弃。这种判断可疑实验数据的原则称为3σ准则。

5.函数误差

上述讨论主要是直接测量的误差计算问题,但在许多场合下,往往涉及间接测量的变量,所谓间接测量是通过直接测量的量之间有一定的函数关系,并根据函数被测的量,如传热问题中的传热速率。因此,间接测量值就是直接测量得到的各个测量值的函数。其测量误差是各个测量值误差的函数。

图 2-4 误差分布曲线的积分

表2-1 误差概率和出现次数

(1) 函数误差的一般形式 在间接测量中,一般为多元函数,而多元函数可用下式表示:

y= f (x 1,x 2,…,x n ) (2—28) 式中 y —间接测量值; x i —直接测量值。

由台劳级数展开得

n

n

x x f x x f x x f y ???++???+???=? 2211

(2—29)

或 i n

i i

x x f y ???=?∑=1

它的最大绝对误差为i

n

i i

x

x f

y ???=

?∑=1

(2—30)

式中 i

x f ?? —误差传递系数;

Δx i —直接测量值的误差;

Δy — 间接测量值的最大绝对误差。

函数的相对误差δ为

(2—31)

(2)某些函数误差的计算

① 函数y=x ±z 绝对误差和相对误差

由于误差传递系数1,1±=??=??z

f x

f ,则函数最大绝对误差

Δy=±(|Δx|+|Δz|) (2—32)

相对误差 z x z

x y y r +?+?±=?=δ (2—33)

②函数形式为w

xz K y =,x 、z 、w 为变量 误差传递系数为: w Kz x y =??

w

Kx z y =?? 2

w Kxz w y -=??

函数的最大绝对误差为

w w Kxz z w Kx x w Kz y ?+?+?=?2 (2—34)

函数的最大相对误差为

w

w z z x x y y r ?+?+?=?=δ (2—35)

现将某些常用函数的最大绝对误差和相对误差列于表2—2中。 [例2-3] 用量热器测定固体比热容时采用的公式 O pH p C t t m t t M C 2)

()

(2102--=

式中 M —量热器内水的质量

m —被测物体的质量 t 0— 测量前水的温度

n

n

n

n x f x f x f y

x x f y

x x f y

x x f y

y δδδδ??++??+??=???+

+???+???=?= 22112211

t 1— 放入量热器前物体的温度 t 2— 测量时水的温度

C pH2O —水的热容,4.187Kj/(kg.·K)

测量结果如下:

M=250±0.2g m=62.31±0.02g t 0=13.52±0.01℃ t 1=99.32±0.04℃ t 2=17.79±0.01℃

试求测量物的比热容之真值,并确定能否提高测量精度。

解:根据题意,计算函数之真值,需计算各变量的绝对误差和误差传递系数。为了简化计算,令θ0=t 2--t 0=4.27℃, θ1=t 1—t 2=81.53℃,.

方程改写为 O pH p C m M C 21

θθ=

表2-2 某些函数的误差传递公式

各变量的绝对误差为

g M 2.0=? 02.001.001.0020=+=?+?=?t t θ g m 02.0=? 05.001.004.0120=+=?+?=?t t θ

各变量的误差传递系数为

3101052.353

.8131.62187

.427.42-?=??==??θθm C M C O H p p

22

1

201041.153

.8131.62187

.427.42

-?-=??-

=-

=??θθm C M m

C O

H p p 206.053.8131.62187

.42501

02

=??=

=

??θθm MC C O

H p p

22

2

1

01

1008.153

.8131.62187

.427.42502

-?-=???-

=-

=??θθθm C M C O

H p p 函数的绝对误差

1

1

00θθθθ???+???+???+???=?p p p p p C C m m C M M C C

=3.52×10-3×0.2—1.41×10-2×0.02+0.206×0.02—1.08×10-2×0.05

=0.704×10-3—0.282×10-3 + 4.12×10-3--0.54×10-3

=4.00×10-3 J/(g ·K) 880.0187.453

.8131.6227.4250=???=p C J/(g ·K)

故真值 C p =0.8798±0.0003 J/(g ·K)

由有效数字位数考虑以上的测量结果清度已满足要求。若不仅考虑有效数字位数,尚需从比较各变量的测量精度,确定是否有可能提高测量精度。则本例可从分析比较各变量的相对误差着手。

各变量的相对误差分别为 %08.0108250

2.04=?==?=-M M E M

%032.01021.331

.6202.04=?==?=-m m E m

%468.01068.427

.402.0300

=?==?=-θθθE

%0613.01013.653

.8105.0411

=?==?=-θθθE

其中以θ0的相对误差为0.468%,误差最大,是M 的5.85倍,是m 的14.63倍。为了提高C p 的测量精度,可改善θ0的测量仪表的精度,即提高测量水温的温度计精度,如采用贝克曼温度计,分度值可达0.002,精度为0.001。则其相对误差为 0040468.01068.427

.4002.00

=?==-θE

由此可见,变量的精度基本相当。提高θ0精度后C p 的绝对误差为

ΔC p =3.52×10-3×0.2—1.41×10-2×0.02+0.206×0.002—1.08×10-2×0.05 =0.704×10-3—0.282×10-3 + 0.412×10-3--0.54×10-3

=2.94×10-4J/(g ·K)

系统提高精度后,C p 的真值为 C p =0.8798±0.0003 J/(g ·K)

数据分析实验报告

《数据分析》实验报告 班级: 07信计0班 学号: 姓名: 实验日期 2010-3-11 实验地点: 实 验楼505 实验名称: 样本数据的特征分析 使用软件名称:MATLAB 1. 熟练掌握利用Matlab 软件计算均值、方差、协方差、相关系数、标准差 与变异系数、偏度与峰度,中位数、分位数、三均值、四分位极差与极差; 2. 熟练掌握jbtest 与lillietest 关于一元数据的正态性检验; 3. 掌握统计作图方法; 4. 掌握多元数据的数字特征与相关矩阵的处理方法; 安徽省1990-2004年万元工业GDP 废气排放量、废水排放量、固体废物排放 量以及用于污染治理的投入经费比重见表 6.1.1,解决以下问题: 表6.1.1 实 验 目 的

1. 计算各指标的均值、方差、标准差、变异系数以及相关系数矩阵; 2. 计算各指标的偏度、峰度、三均值以及极差; 3?做出各指标数据直方图并检验该数据是否服从正态分布?若不服从正态分布,利用boxcox变换以后给出该数据的密度函数; 4.上网查找1990-2004江苏省万元工业GDR废气排放量,安徽省与江苏省是否 服从同样的分布?

程序如下: clear;clc format ba nk %保留两位小数 %%%%%%%%%%%安徽省%数据%%%%%%%%%%%%%%%%%% A=[104254.40 519.48 441.65 0.18 94415.00 476.97 398.19 0.26 89317.41 119.45 332.14 0.23 63012.42 67.93 203.91 0.20 45435.04 7.86 128.20 0.17 46383.42 12.45 113.39 0.22 39874.19 13.24 87.12 0.15 38412.85 37.97 76.98 0.21 35270.79 45.36 59.68 0.11 35200.76 34.93 60.82 0.15 35848.97 1.82 57.35 0.19 40348.43 1.17 53.06 0.11 40392.96 0.16 50.96 0.12 37237.13 0.05 43.94 0.15 34176.27 0.06 36.90 0.13]; %计算各指标的均值、方差、标准差、变异系数、偏度、峰度以及极差 A1=[mea n(A);var(A);std(A);std(A)./mea n(A);skew ness(A,0);kurtosis(A,0)-3;ra nge( A)] %E均值 A2=[1/4 1/2 1/4]*prctile(A,[25 50 75]) % 十算各指标的相关系数矩阵 A3=corrcoef(A) %做岀各指标数据直方图 subplot(221),histfit(A(:,1),8) subplot(222),histfit(A(:,2),8) subplot(223),histfit(A(:,3),8) subplot(224),histfit(A(:,4),7) %检验该数据是否服从正态分布 for i=1:4 [h(i),p(i),lstat(i),cv(i)]=lillietest(A(:,i),0.05); end h,p %十算岀前二列不服从正态分布,利用boxcox变换以后给岀该数据的密度函数[t1,l1]=boxcox(A(:,1)) [t2,l2]=boxcox(A(:,2)) [t3,I3]=boxcox(A(:,3))

数据分析实验报告

数据分析实验报告 文稿归稿存档编号:[KKUY-KKIO69-OTM243-OLUI129-G00I-FDQS58-

第一次试验报告 习题1.3 1建立数据集,定义变量并输入数据并保存。 2数据的描述,包括求均值、方差、中位数等统计量。 分析—描述统计—频率,选择如下: 输出: 统计量 全国居民 农村居民 城镇居民 N 有效 22 22 22 缺失 均值 1116.82 747.86 2336.41 中值 727.50 530.50 1499.50 方差 1031026.918 399673.838 4536136.444 百分位数 25 304.25 239.75 596.25 50 727.50 530.50 1499.50 75 1893.50 1197.00 4136.75 3画直方图,茎叶图,QQ 图。(全国居民) 分析—描述统计—探索,选择如下: 输出: 全国居民 Stem-and-Leaf Plot Frequency Stem & Leaf 5.00 0 . 56788 数据分析实验报告 【最新资料,WORD 文档,可编辑修改】

2.00 1 . 03 1.00 1 . 7 1.00 2 . 3 3.00 2 . 689 1.00 3 . 1 Stem width: 1000 Each leaf: 1 case(s) 分析—描述统计—QQ图,选择如下: 输出: 习题1.1 4数据正态性的检验:K—S检验,W检验数据: 取显着性水平为0.05 分析—描述统计—探索,选择如下:(1)K—S检验

结果:p=0.735 大于0.05 接受原假设,即数据来自正太总体。 (2 )W 检验 结果:在Shapiro-Wilk 检验结果972.00 w ,p=0.174大于0.05 接受原假设,即数据来自正太总体。 习题1.5 5 多维正态数据的统计量 数据:

数据分析实验报告册

《数据分析》 实验报告册 20 15 - 20 16 学年第一学期 班级: 学号: 姓名: 授课教师:实验教师:

目录 实验一网上书店的数据库创建及其查询 实验1-1 “响当当”网上书店的数据库创建 实验1-2 “响当当”网上书店库存、图书和会员信息查询 实验1-3 “响当当”网上书店会员分布和图书销售查询 实验二企业销售数据的分类汇总分析 实验2-1 Northwind公司客户特征分析 实验2-2 “北风”贸易公司销售业绩观测板 实验三餐饮公司经营数据时间序列预测 实验3-1 “美食佳”公司半成品年销售量预测 实验3-2 “美食佳”公司月管理费预测 实验3-3 “美食佳”华东分公司销售额趋势预测 实验3-4 “美食佳”公司会员卡发行量趋势预测 实验3-5 “美食佳”火锅连锁店原料年度采购成本预测 实验四住房建筑许可证数量的回归分析 实验4-1 “家家有房”公司建筑许可证一元线性回归分析实验4-2 “家家有房”公司建筑许可证一元非线性回归分析实验4-3 “家家有房”公司建筑许可证多元线性回归分析实验4-4 “家家有房”公司建筑许可证多元非线性回归分析 实验五手机用户消费习惯聚类分析 实验六新产品价格敏感度测试模型分析

实验一网上书店的数据库创建及其查询实验1-1 “响当当”网上书店的数据库创建 实验类型:验证性实验学时:2 实验目的: ?理解数据库的概念; ?理解关系(二维表)的概念以及关系数据库中数据的组织方式; ?了解数据库创建方法。 实验步骤: 这个实验我们没有直接做,只是了解了一下数据库的概念。 实验1-2 “响当当”网上书店库存、图书和会员信息查询 实验目的 ?理解odbc的概念; ?掌握利用microsoft query进行数据查询的方法。 实验步骤: 1..建立odbc数据源:启动microsoft office query应用程序,在microsoft office query应用程序窗口中,执行“文件/新建”命令,出现“选择数据源”对话框,单击“确定”按钮,出现“创建新数据源”对话框,按照要求做相应的操作。 选择数据源对话框创建新数据源窗口 做图上所示的选择odbc microsoft access安装对话框

误差理论与数据处理 实验报告

《误差理论与数据处理》实验指导书 姓名 学号 机械工程学院 2016年05月

实验一误差的基本性质与处理 一、实验内容 1.对某一轴径等精度测量8次,得到下表数据,求测量结果。 Matlab程序: l=[24.674,24.675,24.673,24.676,24.671,24.678,24.672,24.674];%已知测量值 x1=mean(l);%用mean函数求算数平均值 disp(['1.算术平均值为:',num2str(x1)]); v=l-x1;%求解残余误差 disp(['2.残余误差为:',num2str(v)]); a=sum(v);%求残差和 ah=abs(a);%用abs函数求解残差和绝对值 bh=ah-(8/2)*0.001;%校核算术平均值及其残余误差,残差和绝对值小于n/2*A,bh<0,故以上计算正确 if bh<0 disp('3.经校核算术平均值及计算正确'); else disp('算术平均值及误差计算有误'); end xt=sum(v(1:4))-sum(v(5:8));%判断系统误差(算得差值较小,故不存在系统误差) if xt<0.1 disp(['4.用残余误差法校核,差值为:',num2str(x1),'较小,故不存在系统误差']); else disp('存在系统误差'); end bz=sqrt((sum(v.^2)/7));%单次测量的标准差 disp(['5.单次测量的标准差',num2str(bz)]);

p=sort(l);%用格罗布斯准则判断粗大误差,先将测量值按大小顺序重新排列 g0=2.03;%查表g(8,0.05)的值 g1=(x1-p(1))/bz; g8=(p(8)-x1)/bz;%将g1与g8与g0值比较,g1和g8都小于g0,故判断暂不存在粗大误差if g1

实验误差及数据处理习题

误差理论与数据处理 学号: ____________ 姓名: __________ 专业: _____________ 评分: _______ 上课时间: 第____周星期____上午[ ]下午[ ]晚上[ ] 请将1-24小题的答案对应地填在下表中 一、单选题(每小题3分,共36分)。 1.采用“四舍六入五单双”法,将下列各数据取为2位有效数字(修约间隔为0.1),其 结果正确的是: A. 2.750→2.7 B. 2.650→2.6 C. 2.65001→2.6 D. 2.6499→2.7 2.自然数6的有效数字位数为: A. 1位 B. 2位 C. 3位 D. 无穷位 3.L=0.1010m的有效数字位数为: A. 2位 B. 3位 C. 4位 D. 5位 4.V=2.90×103m/s的有效数字位数为: A. 3位 B. 5位 C. 6位 D. 7位 5.下列单位换算正确的是: A. 0.06m=60mm B. 1.38m=1380mm C. 4cm=40mm D. 5.0mm=0.50cm 6.用有效数字运算法则计算123.98-40.456+ 7.8,其结果正确的是: A. 91.324 B. 91.3 C. 91.32 D. 91 7.用有效数字运算法则计算271.3÷0.1和3.6×4.1,其结果正确的是: A. 3×103和14.8 B. 3×103和15 C. 2712和14.76 D. 2712和15 8.用有效数字运算法则计算 4.0345 +38.1 9.0121-9.011 ,其结果正确的是: A. 3705.827 B. 370.8273 C. 3705.8 D. 4×103

数据分析实验报告

《数据分析》实验报告 班级:07信计0班学号:姓名:实验日期2010-3-11 实验地点:实验楼505 实验名称:样本数据的特征分析使用软件名称:MATLAB 实验目的1.熟练掌握利用Matlab软件计算均值、方差、协方差、相关系数、标准差与变异系数、偏度与峰度,中位数、分位数、三均值、四分位极差与极差; 2.熟练掌握jbtest与lillietest关于一元数据的正态性检验; 3.掌握统计作图方法; 4.掌握多元数据的数字特征与相关矩阵的处理方法; 实验内容安徽省1990-2004年万元工业GDP废气排放量、废水排放量、固体废物排放量以及用于污染治理的投入经费比重见表6.1.1,解决以下问题:表6.1.1废气、废水、固体废物排放量及污染治理的投入经费占GDP比重 年份 万元工业GDP 废气排放量 万元工业GDP 固体物排放量 万元工业GDP废 水排放量 环境污染治理投 资占GDP比重 (立方米)(千克)(吨)(%)1990 104254.40 519.48 441.65 0.18 1991 94415.00 476.97 398.19 0.26 1992 89317.41 119.45 332.14 0.23 1993 63012.42 67.93 203.91 0.20 1994 45435.04 7.86 128.20 0.17 1995 46383.42 12.45 113.39 0.22 1996 39874.19 13.24 87.12 0.15 1997 38412.85 37.97 76.98 0.21 1998 35270.79 45.36 59.68 0.11 1999 35200.76 34.93 60.82 0.15 2000 35848.97 1.82 57.35 0.19 2001 40348.43 1.17 53.06 0.11 2002 40392.96 0.16 50.96 0.12 2003 37237.13 0.05 43.94 0.15 2004 34176.27 0.06 36.90 0.13 1.计算各指标的均值、方差、标准差、变异系数以及相关系数矩阵; 2.计算各指标的偏度、峰度、三均值以及极差; 3.做出各指标数据直方图并检验该数据是否服从正态分布?若不服从正态分布,利用boxcox变换以后给出该数据的密度函数; 4.上网查找1990-2004江苏省万元工业GDP废气排放量,安徽省与江苏省是 否服从同样的分布?

宏观经济实验报告

学生实验报告

注:1.指导教师和学生成绩一栏由指导教师填写,其它栏目内容均由学生填写。 2.“实验项目名称”要与该实验课程教学大纲中的“实验项目”相对应。

附一: 四、实验指南 (一)宏观经济分析的基本方法 1.总量分析法 总量分析法是对影响宏观经济的总量指标进行分析,如GDP,消费额、投资额、银行贷款总额、物价水平等。总量分析主要是一种动态分析,主要研究总量指标的变动规律 2.结构分析法 是指对经济系统中各组成部分及其对比关系变动规律的分析。比如分析第一产业、第二产业、第三产业之间的比例,分析消费与投资的比例关系。结构分析主要是一种静态分析,即对一定时间内经济系统中各组成部分变动规律的分析 3.宏观分析资料的搜集与处理 宏观分析所需的有效资料一般包括政府的重点经济政策与措施、一般生产统计资料、金融物价统计资料、贸易统计资料、每年国民收入统计与景气动向、突发性非经济因素等。 (二)宏观经济分析的主要内容 宏观经济分析主要包括宏观经运行的变动、宏观经济政策、国际金融环境以及对证券市场的

供求关系等几个方面。当然像人口因素、能源因素以及包括政治因素、战争因素、灾害因素都有可能对证券市场产生决定性的影响,但在一般情况下,上述因素的作用机制必须单独分析研究。宏观经济分析的内容重在对宏观经济形势与经济背景作出基本判断,以分析在新兴加转型背景下中国宏观经济对证券市场的的影响,把握证券市场总体变动趋势,掌握宏观经济政策对证券市场的影响力度与方向,判断整个证券市场的投资价值。 1.宏观经济变动对证券市场的影响 宏观经济分析最重要的参考依据要选取官方公开公布的数据,尤其是国家统计局的数据相对最可靠。可借助统计工具与手段,了解证券价格变化与经济运行形势的关联性。 宏观经济分析包含的内容有许多,在此可重点选取几个方面进行分析,比如可以以国民生产总值对证券价格的影响,看看经济持续增长与衰退对证券市场的影响;也可以选取就业状况的变动对证券市场影响分析,就业状况的好坏不仅反映了经济状况,而且对证券市场资金供给的增减变化有密切关系。通过具体因素的分析,掌握宏观经济形势对证券市场的影响方式与影响程度。宏观经济的运行形势对证券市场的影响可见表3-1、3-2、3-3。 表3-1 评价宏观经济形势的基本指标 表3-2 宏观经济运行对证券市场的影响

物理实验-误差分析与数据处理

目录 实验误差分析与数据处理 (2) 1 测量与误差 (2) 2 误差的处理 (6) 3 不确定度与测量结果的表示 (10) 4 实验中的错误与错误数据的剔除 (13) 5 有效数字及其运算规则 (15) 6 实验数据的处理方法 (17) 习题 (25)

实验误差分析与数据处理 1 测量与误差 1.1 测量及测量的分类 物理实验是以测量为基础的。在实验中,研究物理现象、物质特性、验证物理原理都需要进行测量。所谓测量,就是将待测的物理量与一个选来作为标准的同类量进行比较,得出..................................它们的倍数关系的过程.......... 。选来作为标准的同类量称之为单位,倍数称为测量数值。一个物理量的测量值等于测量数值与单位的乘积。 在人类的发展历史上,不同时期,不同的国家,乃至不同的地区,同一种物理量有着许多不同的计量单位。如长度单位就分别有码、英尺、市尺和米等。为了便于国际交流,国际计量大会于1990年确定了国际单位制(SI ),它规定了以米、千克、秒、安培、开尔文、摩尔、坎德拉作为基本单位,其他物理量(如力、能量、电压、磁感应强度等)均作为这些基本单位的导出单位。 1.直接测量与间接测量 测量可分为两类。一类是直接测量,是指直接将待测物理量与选定的同类物理量的标准单位相比较直接得到测量值的一种测量。它无须进行任何函数关系的辅助运算。如用尺测量长度、以秒表计时间、天平称质量、安培表测电流等。另一类是间接测量,是指被测量与直接测量的量之间需要通过一定的函数关系的辅助运算,才能得到被测量物理量的量值的测 量。如单摆测量重力加速度时,需先直接测量单摆长l 和单摆的周期T ,再应用公式224T l g π=,求得重力加速度g 。物理量的测量中,绝大部分是间接测量。但直接测量是一切测量的基础。不论是直接测量,还是间接测量,都需要满足一定的实验条件,按照严格的方法及正确地使用仪器,才能得出应有的结果。因此实验过程中,一定要充分了解实验目的,正确使用仪器,细心地进行操作读数和记录,才能达到巩固理论知识和加强实验技能训练的目的。 2.等精度测量与不等精度测量 同一个人,用同样的方法,使用同样的仪器,在相同的条件下对同一物理量进行多次测量,尽管各次测量并不完全相同,但我们没有任何充足的理由来判断某一次测量更为精确,只能认为它们测量的精确程度是完全相同的。我们把这种具有同样精确程度的测量称之为等精度测量。在所有的测量条件中,只要有一个发生变化,这时所进行的测量即为不等精度测量。在物理实验中,凡是要求多次测量均指等精度测量,应尽可能保持等精度测量的条件不变。严格地说,在实验过程中保持测量条件不变是很困难的。但当某一条件的变化对测量结果的影响不大时,乃可视为等精度测量。在本书中,除了特别指明外,都作为等精度测量。 1.2 误差及误差的表现形式 1.误差 物理量在客观上有着确定的数值,称为真值。测量的最终目的都是要获得物理量的真值。但由于测量仪器精度的局限性、测量方法或理论公式的不完善性和实验条件的不理想,测量

数据分析实验报告

数据分析实验报告 【最新资料,WORD文档,可编辑修改】 第一次试验报告 习题1.3 1建立数据集,定义变量并输入数据并保存。 2数据的描述,包括求均值、方差、中位数等统计量。 分析—描述统计—频率,选择如下: 输出:

方差1031026.918399673.8384536136.444百分位数25304.25239.75596.25 50727.50530.501499.50 751893.501197.004136.75 3画直方图,茎叶图,QQ图。(全国居民) 分析—描述统计—探索,选择如下: 输出: 全国居民Stem-and-Leaf Plot Frequency Stem & Leaf 9.00 0 . 122223344 5.00 0 . 56788 2.00 1 . 03 1.00 1 . 7 1.00 2 . 3 3.00 2 . 689

1.00 3 . 1 Stem width: 1000 Each leaf: 1 case(s) 分析—描述统计—QQ图,选择如下: 输出: 习题1.1 4数据正态性的检验:K—S检验,W检验数据: 取显着性水平为0.05 分析—描述统计—探索,选择如下:(1)K—S检验 单样本Kolmogorov-Smirnov 检验 身高N60正态参数a,,b均值139.00

标准差7.064 最极端差别绝对值.089 正.045 负-.089 Kolmogorov-Smirnov Z.686 渐近显着性(双侧).735 a. 检验分布为正态分布。 b. 根据数据计算得到。 结果:p=0.735 大于0.05 接受原假设,即数据来自正太总体。(2)W检验

实验数据误差分析和数据处理

第二章 实验数据误差分析和数据处理 第一节 实验数据的误差分析 由于实验方法和实验设备的不完善,周围环境的影响,以及人的观察力,测量程序等限制,实验观测值和真值之间,总是存在一定的差异。人们常用绝对误差、相对误差或有效数字来说明一个近似值的准确程度。为了评定实验数据的精确性或误差,认清误差的来源及其影响,需要对实验的误差进行分析和讨论。由此可以判定哪些因素是影响实验精确度的主要方面,从而在以后实验中,进一步改进实验方案,缩小实验观测值和真值之间的差值,提高实验的精确性。 一、误差的基本概念 测量是人类认识事物本质所不可缺少的手段。通过测量和实验能使人们对事物获得定量的概念和发现事物的规律性。科学上很多新的发现和突破都是以实验测量为基础的。测量就是用实验的方法,将被测物理量与所选用作为标准的同类量进行比较,从而确定它的大小。 1.真值与平均值 真值是待测物理量客观存在的确定值,也称理论值或定义值。通常真值是无法测得的。若在实验中,测量的次数无限多时,根据误差的分布定律,正负误差的出现几率相等。再经过细致地消除系统误差,将测量值加以平均,可以获得非常接近于真值的数值。但是实际上实验测量的次数总是有限的。用有限测量值求得的平均值只能是近似真值,常用的平均值有下列几种: (1) 算术平均值 算术平均值是最常见的一种平均值。 设1x 、2x 、……、n x 为各次测量值,n 代表测量次数,则算术平均值为 n x n x x x x n i i n ∑==+???++=121 (2-1) (2) 几何平均值 几何平均值是将一组n 个测量值连乘并开n 次方求得的平均值。即 n n x x x x ????=21几 (2-2) (3)均方根平均值 n x n x x x x n i i n ∑==+???++= 1 222221均 (2-3) (4) 对数平均值 在化学反应、热量和质量传递中,其分布曲线多具有对数的特性,在这种情况下表征平均值常用对数平均值。 设两个量1x 、2x ,其对数平均值

数据分析实验报告

实验一SAS系统的使用 【实验类型】(验证性) 【实验学时】2学时 【实验目的】使学生了解SAS系统,熟练掌握SAS数据集的建立及一些必要的SAS语句。 【实验内容】 1. 启动SAS系统,熟悉各个菜单的内容;在编辑窗口、日志窗口、输出窗口之间切换。 2. 建立数据集 表1 Name Sex Math Chinese English Alice f908591 Tom m958784 Jenny f939083 Mike m808580 Fred m848589 Kate f978382 Alex m929091 Cook m757876 Bennie f827984 Hellen f857484 Wincelet f908287 Butt m778179 Geoge m868582 Tod m898484 Chris f898487 Janet f866587 1)通过编辑程序将表1读入数据集sasuser.score; 2)将下面记事本中的数据读入SAS数据集,变量名为code name scale share

price: 000096 广聚能源8500 0.059 1000 13.27 000099 中信海直6000 0.028 2000 14.2 000150 ST麦科特12600 -0.003 1500 7.12 000151 中成股份10500 0.026 1300 10.08 000153 新力药业2500 0.056 2000 22.75 3)将下面Excel表格中的数据导入SAS数据集work.gnp; name x1 x2 x3 x4 x5 x6 北京190.33 43.77 7.93 60.54 49.01 90.4 天津135.2 36.4 10.47 44.16 36.49 3.94 河北95.21 22.83 9.3 22.44 22.81 2.8 山西104.78 25.11 6.46 9.89 18.17 3.25 内蒙古128.41 27.63 8.94 12.58 23.99 3.27 辽宁145.68 32.83 17.79 27.29 39.09 3.47 吉林159.37 33.38 18.37 11.81 25.29 5.22 黑龙江116.22 29.57 13.24 13.76 21.75 6.04 上海221.11 38.64 12.53 115.65 50.82 5.89 江苏144.98 29.12 11.67 42.6 27.3 5.74 浙江169.92 32.75 21.72 47.12 34.35 5 安徽153.11 23.09 15.62 23.54 18.18 6.39 福建144.92 21.26 16.96 19.52 21.75 6.73 江西140.54 21.59 17.64 19.19 15.97 4.94 山东115.84 30.76 12.2 33.1 33.77 3.85 河南101.18 23.26 8.46 20.2 20.5 4.3 湖北140.64 28.26 12.35 18.53 20.95 6.23 湖南164.02 24.74 13.63 22.2 18.06 6.04 广东182.55 20.52 18.32 42.4 36.97 11.68 广西139.08 18.47 14.68 13.41 20.66 3.85 四川137.8 20.74 11.07 17.74 16.49 4.39 贵州121.67 21.53 12.58 14.49 12.18 4.57 云南124.27 19.81 8.89 14.22 15.53 3.03 陕西106.02 20.56 10.94 10.11 18 3.29 甘肃95.65 16.82 5.7 6.03 12.36 4.49 青海107.12 16.45 8.98 5.4 8.78 5.93 宁夏113.74 24.11 6.46 9.61 22.92 2.53

误差理论与数据处理实验报告要点

误差理论与数据处理 实验报告 姓名:黄大洲 学号:3111002350 班级:11级计测1班 指导老师:陈益民

实验一 误差的基本性质与处理 一、实验目的 了解误差的基本性质以及处理方法 二、实验原理 (1)算术平均值 对某一量进行一系列等精度测量,由于存在随机误差,其测得值皆不相同,应以全部测得值的算术平均值作为最后的测量结果。 1、算术平均值的意义:在系列测量中,被测量所得的值的代数和除以n 而得的值成为算术平均值。 设 1l ,2l ,…,n l 为n 次测量所得的值,则算术平均值 121...n i n i l l l l x n n =++==∑ 算术平均值与真值最为接近,由概率论大数定律可知,若测量次数无限增加,则算术平均值x 必然趋近于真值0L 。 i v = i l -x i l ——第i 个测量值,i =1,2,...,;n i v ——i l 的残余误差(简称残差) 2、算术平均值的计算校核 算术平均值及其残余误差的计算是否正确,可用求得的残余误差代数和性质来校核。 残余误差代数和为: 1 1 n n i i i i v l nx ===-∑∑ 当x 为未经凑整的准确数时,则有:1 n i i v ==∑0 1)残余误差代数和应符合:

当 1n i i l =∑=nx ,求得的x 为非凑整的准确数时,1 n i i v =∑为零; 当 1n i i l =∑>nx ,求得的x 为凑整的非准确数时,1 n i i v =∑为正;其大小为求x 时 的余数。 当 1n i i l =∑

数据分析与挖掘实验报告

数据分析与挖掘实验报告

《数据挖掘》实验报告 目录 1.关联规则的基本概念和方法 (1) 1.1数据挖掘 (1) 1.1.1数据挖掘的概念 (1) 1.1.2数据挖掘的方法与技术 (2) 1.2关联规则 (5) 1.2.1关联规则的概念 (5) 1.2.2关联规则的实现——Apriori算法 (7) 2.用Matlab实现关联规则 (12) 2.1Matlab概述 (12) 2.2基于Matlab的Apriori算法 (13) 3.用java实现关联规则 (19) 3.1java界面描述 (19) 3.2java关键代码描述 (23) 4、实验总结 (29) 4.1实验的不足和改进 (29) 4.2实验心得 (30)

1.关联规则的基本概念和方法 1.1数据挖掘 1.1.1数据挖掘的概念 计算机技术和通信技术的迅猛发展将人类社会带入到了信息时代。在最近十几年里,数据库中存储的数据急剧增大。数据挖掘就是信息技术自然进化的结果。数据挖掘可以从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的,人们事先不知道的但又是潜在有用的信息和知识的过程。 许多人将数据挖掘视为另一个流行词汇数据中的知识发现(KDD)的同义词,而另一些人只是把数据挖掘视为知识发现过程的一个基本步骤。知识发现过程如下: ·数据清理(消除噪声和删除不一致的数据)·数据集成(多种数据源可以组合在一起)·数据转换(从数据库中提取和分析任务相关的数据) ·数据变换(从汇总或聚集操作,把数据变换和统一成适合挖掘的形式) ·数据挖掘(基本步骤,使用智能方法提取数

据模式) ·模式评估(根据某种兴趣度度量,识别代表知识的真正有趣的模式) ·知识表示(使用可视化和知识表示技术,向用户提供挖掘的知识)。 1.1.2数据挖掘的方法与技术 数据挖掘吸纳了诸如数据库和数据仓库技术、统计学、机器学习、高性能计算、模式识别、神经网络、数据可视化、信息检索、图像和信号处理以及空间数据分析技术的集成等许多应用领域的大量技术。数据挖掘主要包括以下方法。神经网络方法:神经网络由于本身良好的鲁棒性、自组织自适应性、并行处理、分布存储和高度容错等特性非常适合解决数据挖掘的问题,因此近年来越来越受到人们的关注。典型的神经网络模型主要分3大类:以感知机、bp反向传播模型、函数型网络为代表的,用于分类、预测和模式识别的前馈式神经网络模型;以hopfield 的离散模型和连续模型为代表的,分别用于联想记忆和优化计算的反馈式神经网络模型;以art 模型、koholon模型为代表的,用于聚类的自组

经济数据分析实验报告

(此文档为word格式,下载后您可任意编辑修改!) 实验报告格式: 商学院经济与管理实验教学中心 实验报告 实验名称经济数据分析综合实验 班级学号姓名 同组学生姓名实验时间:7-18周 得分:批改时间:2014年01月03日实验教师(签名):孙小红评语: 实验一:数据文件的建立 一、实验目的 1、理解并掌握数据类型的概念。 2、掌握一份具体问卷转化为数据文件。 3、掌握正确设置变量及属性,区分处理主观题与客观题、单选题、多选题及表格式题目 的不同之处。 4、掌握带标签值数据的录入。 二、实验内容 见《实验手册》。 三、实验步骤 本次试验的内容是“数据文件的建立”。以下介绍两种不同的数据文件建立方法。 第一种输入变量和数据建立数据文件,以“温州企业基本情况”数据文件为例 1、双击打开SPSS 17.0软件,在弹出的对话框中选择“输入数据” 2、切换到“变量视图”,单击“名称”下的空格,输入“ID”,单击“类型”下的空格,选 择“数值,宽度为2,小数为0”,单击“标签”下的空格,输入“问卷编号”,其他各列选择默认值 3、同步骤2,在“名称”下输入“企业名称”,在“类型”下选择“字符串,宽度为30,

小数为0”,其余默认。 4、在“名称”下输入“企业性质”,在“类型”下选择“数值,宽度为1,小数为0”。单击“值”,弹出“值标签”对话框,在“值”栏输入“1”,在“标签”输入“国有及国有控股企业”,选择“添加”,同理输入其他的选项,接着按“确定”,其余默认。 5、按照步骤4,输入“企业经营情况”和“所属行业” 6、切换到“数据视图”,在各个变量下输入数据 7、选择“文件”菜单,下拉,按“保存” 第二种导入EXCEL文件建立数据文件,以“学生”数据文件为例 1、双击打开SPSS.17.0 2、选择“文件”菜单,下拉,选择“打开---数据”,在弹出的对话框中,在“文件类型”下拉,选择“EXCEL”,然后再选择“查找范围”,选中所要导入的EXCEL“学生”文件。 3、切换到“变量视图”,在“gender”变量的“值”栏,单击添加“1=男生,2=女生”,点击“确认”。 4、选择“文件”菜单,下拉,按“另存为”,存在D盘 四、实验结果与分析 1 企业基本情况 2 态度与认识 3 资金投入、人力资源和企业文化

光电效应实验报告数据处理 误差分析

表1-1:不同频率下的遏止电压表 λ(nm)365 404.7 435.8 546.1 577 v(10^14)8.219 7.413 6.884 5.493 5.199 |Ua|(v) 1.727 1.357 1.129 0.544 0.418 表1-2:λ=365(nm)时不同电压下对应的电流值 U/(v)-1.927 -1.827 -1.727 -1.627 -1.527 -1.427 -1.327 I/(10^-11)A-0.4 -0.2 0 0.9 3.9 8.2 14 -1.227 -1.127 -1.027 -0.927 -0.827 -0.727 -0.718 24.2 38.1 52 66 80 97.2 100 表1-3:λ=404.7(nm)时不同电压下对应的电流值 U/(v) -1.477 -1.417 -1.357 -1.297 -1.237 -1.177 -1.117 I/(10^-11)A -1 -0.4 0 1.8 4.1 10 16.2 -1.057 -0.997 -0.937 -0.877 -0.817 -0.757 -0.737 24.2 36.2 49.8 63.9 80 93.9 100 表1-4:λ=435.8(nm)时不同电压下对应的电流值 U/(v)-1.229 -1.179 -1.129 -1.079 -1.029 -0.979 -0.929 I/(10^-11)A-1.8 -0.4 0 2 4.2 10.2 17.9 -0.879 -0.829 -0.779 -0.729 -0.679 -0.629 -0.579 -0.575 24.8 36 47 59 71.6 83.8 98 100 表1-5:λ=546.1(nm)时不同电压下对应的电流值 U/(v)-0.604 -0.574 -0.544 -0.514 -0.484 -0.454 -0.424 I/(10^-11)A-4 -2 0 3.8 10 16.2 24 -0.394 -0.364 -0.334 -0.304 -0.274 -0.244 -0.242 34 46 56.2 72 84.2 98.2 100 表1-6:λ=577(nm)时不同电压下对应的电流值 U/(v)-0.478 -0.448 -0.418 -0.388 -0.358 -0.328 -0.298 I/(10^-11)A-3.1 -1.8 0 2 6 10.2 16.1 -0.268 -0.238 -0.208 -0.178 -0.148 -0.118 -0.088 -0.058 22.1 31.8 39.8 49 58 68.2 79.8 90.1 -0.04 100

实验数据误差分析与数据处理

第一章实验数据误差分析与数据处理 第一节实验数据误差分析 一、概述 由于实验方法和实验设备的不完善,周围环境的影响,以及人的观察力,测量程序等限制,实验测量值和真值之间,总是存在一定的差异,在数值上即表现为误差。为了提高实验的精度,缩小实验观测值和真值之间的差值,需要对实验数据误差进行分析和讨论。 实验数据误差分析并不是即成事实的消极措施,而是给研究人员提供参与科学实验的积极武器,通过误差分析,可以认清误差的来源及影响,使我们有可能预先确定导致实验总误差的最大组成因素,并设法排除数据中所包含的无效成分,进一步改进实验方案。实验误差分析也提醒我们注意主要误差来源,精心操作,使研究的准确度得以提高。 二、实验误差的来源 实验误差从总体上讲有实验装置(包括标准器具、仪器仪表等)、实验方法、实验环境、实验人员和被测量五个来源。 1.实验装置误差 测量装置是标准器具、仪器仪表和辅助设备的总体。实验装置误差是指由测量装置产生的测量误差。它来源于: (1)标准器具误差 标准器具是指用以复现量值的计量器具。由于加工的限制,标准器复现的量值单位是有误差的。例如,标准刻线米尺的0刻线和1 000 mm刻线之间的实际长度与1 000 mm单位是有差异的。又如,标称值为1kg的砝码的实际质量(真值)并不等于1kg等等。 (2)仪器仪表误差 凡是用于被测量和复现计量单位的标准量进行比较的设备,称为仪器或仪表.它们将被测量转换成可直接观察的指示值。例如,温度计、电流表、压力表、干涉仪、天平,等等。 由于仪器仪表在加工、装配和调试中,不可避免地存在误差,以致仪器仪表的指示值不等于被测量的真值,造成测量误差。例如,天平的两臂不可能加工、调整到绝对相等,称量时,按天平工作原理,天平平衡被认为两边的质量相等。但是,由于天平的不等臂,虽然天平达到平衡,但两边的质量并不等,即造成测量误差。 (3)附件误差 为测量创造必要条件或使测量方便地进行而采用的各种辅助设备或附件,均属测量附件。如电测量中的转换开关及移动测点、电源、热源和连接导线等均为测量附件,且均产生测量误差。又如,热工计量用的水槽,作为温度测量附件,提供测量水银温度计所需要的温场,由于水槽内各处温度的不均匀,便引起测量误差,等等。 按装置误差具体形成原因,可分为结构性的装置误差、调整性的装置误差和变化性的装置误差。结构性的装置误差如:天平的不等臂,线纹尺刻线不均匀,量块工作面的不平行性,光学零件的光学性能缺陷,等等。这些误差大部分是由于制造工艺不完善和长期使用磨损引起的。调整性的装置误差如投影仪物镜放大倍数调整不准确,水平仪的零位调整不准确,千分尺的零位调整不准确,等等。这些误差是由于仪器仪表在使用时,未调整到理想状态引起的。变化性的装置误差如:激光波长的长期不稳定性,电阻等元器件的老化,晶体振荡器频率的长期漂移,等等。这些误差是由于仪器仪表随时间的不稳定性和随空间位置变化的不均匀性造成的。 2.环境误差 环境误差系指测量中由于各种环境因素造成的测量误差。 被测量在不同的环境中测量,其结果是不同的。这一客观事实说明,环境对测量是有影响的,是测量的误差来源之一。环境造成测量误差的主要原因是测量装置包括标准器具、仪器仪表、测量附件同被测对象随着环境的变化而变化着。 测量环境除了偏离标准环境产生测量误差以外,从而引起测量环境微观变化的测量误差。 3.方法误差

spss相关分析实验报告

实验五相关分析实验报关费 一、实验目的: 学习利用spss对数据进行相关分析(积差相关、肯德尔等级相关)、偏相关分析。利用交叉表进行相关分析。 二、实验内容: 某班学生成绩表1如实验图表所示。 1.对该班物理成绩与数学成绩之间进行积差相关分析和肯德尔等级相关 分析。 2.在控制物理成绩不变的条件下,做数学成绩与英语成绩的相关分析(这 种情况下的相关分析称为偏相关分析)。 3.对该班物理成绩与数学成绩制作交叉表及进行其中的相关分析。 三、实验步骤: 1.选择分析→相关→双变量,弹出窗口,在对话框的变量列表中选变量 “数学成绩”、“物理成绩”,在相关系数列进行选择,本次实验选择 皮尔逊相关(积差相关)和肯德尔等级相关。单击选项,对描述统计 量进行选择,选择标准差和均值。单击确定,得出输出结果,对结果 进行分析解释。 2.选择分析→相关→偏相关,弹出窗口,在对话框的变量列表选变量“数 学成绩”、“英语成绩”,在控制列表选择要控制的变量“物理成绩” 以在控制物理成绩的影响下对变量数学成绩与英语成绩进行偏相关分 析;在“显著性检验”框中选双侧检验,单击确定,得出输出结果, 对结果进行分析解释。 3.选择分析→描述统计→交叉表,弹出窗口,对交叉表的行和列进行选 择,行选择为数学成绩,列选择为物理成绩。然后对统计量进行设置, 选择相关性,点击继续→确定,得出输出结果,对结果进行分析解释。 四、实验结果与分析:

表1

五、实验结果及其分析:

分析一:由实验结果可观察出,数学成绩与物理成绩的积差相关系数r=,肯德尔等级相关系数r=可知该班物理成绩和数学成绩之间存在显著相关。

相关主题
文本预览
相关文档 最新文档