当前位置:文档之家› 王向东数学实验本

王向东数学实验本

实验十二 刀具寿命的测定

【实验目的】

1.了解数理统计中数据描述和分析的基本概念和方法。

2.通过对实际数据的分析、统计,初步培养统计推断解决问题的建模思想。 3.学习掌握用MA TLAB 命令进行参数估计、假设检验和统计推断问题的求解。

【实验内容】

一道工序用自动化车床连续加工某种零件,由于刀具损坏等原因,该工序会出现故障,工序出现故障是完全随机的,假定在生产任一零件时出现故障的机会均相同。工作人员通过检查零件来确定工序是否出现故障。现积累有100次刀具故障记录,故障出现时该刀具完成的零件数如下表:

【实验准备】

在现代社会中,数据是事物现象的反映,是科学推断的依据,起着至关重要的作用。由于各种随机因素的影响,实验数据往往带有一定的误差,这时需要从数据中分离出随机因素的成分,从而挖掘出事物规律性的成分,以此对所研究总体的性质作出推测性的判断。进行这样的分析建立在收集大量数据的基础之上,称为统计分析。

1.概率统计的基本概念

总体是人们研究对象的全体,又称为母体,而组成总体的每个单元叫做个体。任何一个总体都可以用一个随机变量来描述它。所以,总体就是一个带有确定概率分布的随机变量,常用X ,Y ,Z 等表示总体。一般情况下,总体的数目非常大,对于总体X 分布规律进行研究就必须对总体抽样观察,并分析推断,这种研究过程称为抽样。

从总体X 中,随机地抽取n 个个体1x ,2x ,…,n x (例如在10000件灯管中抽取100件检查次品数量),这样取得的(1x ,2x ,…,n x )称为总体X 的一个样本容量为n 的样本或子样。

统计推断就是根据样本来对总体进行分析、推断。通常的作法,依据某种理由或经验来假定总体服从已知形式的概率分布,只要由样本来推断总体概率分布中的若干参数。所以样

本的获取会直接影响统计推断的结果,理想的样本是随机、相互独立且与总体同分布。

抽取样本后,我们并不直接利用样本的n 个观察值进行推断,需要对这些值进行加工、提炼,把样本中包含的对我们研究推断有用的信息、特征找出来,这便要针对不同问题构造样本的某种函数,这种不带未知参数的样本的函数称为统计量,几个最基本的统计量是:

均值(平均值、数学期望):x =n 1∑=n

i i x 1

,反映了样本取值的中心;

中位数:将样本1x ,2x ,…,n x 从小到大排序后位于中间位置的那个数;

标准差:s =2

1

121)(11??

??

??--∑=n

i x x n ,它是各个样本数据对于均值的偏离程度; 方差:标准差的平方;

协方差:),cov(y x =

1

1

-n ∑---n

i i i y y x x 1

))((,样本相关系数),(y x r =

y

x s s y x )

,cov(,

反映了样本1x ,2x ,…,n x 与样本1y ,2y ,…,n y 的线性相关关系。若|r |接近1,说两样本线性关系密切,若|r |接近0说明两样本取值大小无线性关系。

当n 足够大时,样本均值和样本标准差结合起来可大致描述数据的分布结构。统计量的概率分布称为抽样分布,最常用的概率分布形式有正态分布、指数分布、2

χ分布、t 分布、

F 分布等。一个随机变量ξ的p 分位数p x 定义为

P (ξ<p x )=p ,0≤p ≤1 (1) 一组样本数据往往是杂乱无章的,可以通过作频数表和直方图的方式,大致描绘出分布密度曲线,并对总体的分布函数作出假设判断。将数据的取值范围划分为若干个小区间,然后统计这组数据在每个区间中出现的次数,称为频数,由此得到一个频数表。以数据的取舍为横坐标,频数为纵坐标,画出一个阶梯形的图,称为直方图(频数分布图)。X 是否符合该假设的分布规律,我们通过对分布密度的参数估计的基础上用假充检验来加以验证。

2.统计推断方法

在统计推断中,总体概率分布的某些参数θ未知,需要根据样本1x ,2x ,…,n x 估计

θ的值,称为参数估计。参数估计分为两类:点估计和区间估计。点估计就是直接给出θ的估计值,如“θ大约等于某个数”,点估计缺乏对估计精度的说明。区间估计给出θ的估计值区间,并附加一个概率,如“θ的95%置信区间是[5.2,6.3]”,含意是:θ在[5.2,6.3]

内的概率为0.95。

设有总体),(θx F ,其中参数θ未知,现有来自),(θx F 的一个样本1x ,2x ,…,n x ,要估计θ的值。如有区间CI =[1θ,2θ],使得

P (1θ<θ<2θ)=1-a (2) 称CI 为θ的100(1-a )%置信区间。

设ξ为正态总体),(2

σμN ,μ,σ未知,1x ,2x ,…,n x 为样本,那么μ,σ的点估计分别为

μ=x ,σ=s (3)

它们的100(1-a )%的置信区间分别为 ))1(,)1((2

12

1n

s n t

x n

s n t

x a a -+---

-

(4)

))

1()1(,)1()1((22

2

22

12-----n x s n n x s n a a (5)

许多统计推断常涉及对假设、估计的正确性作出“是”与否的判决,例如产品是否合格,某数学模型是否与现实相符等等。对于总体X 分布函数中的参数作出某种假设或估计,根据抽取的样本观察值,运用数理统计的分析方法,检验这种假设或估计是否正确,从而决定接受假设或拒绝假设,这就是假设检验。

假设检验依问题的性质常分为两大类型: 参数检验:如果观测的分布函数类型已知,这时构造出的统计量依赖于总体的分布函数,这种检验称为参数检验,其目的往往是对总体的参数及有关性质作出明确的判断。

非参数检验:如果所检验的假设并非是对某个参数作出明确的判断,因而必须要求构造出的检验统计量的分布函数不依赖观测值的分布函数类型,这种检验叫做非参数检验。如果要判断总体分布类型的检验就是非参数检验。

假设检验的一般步骤:

(1)根据实际问题提出原假设0H 与备择假设1H ,即说明需要检验的假设的具体内容; (2)选择适当的统计量,并在原假设0H 成立的条件下确定该统计量的分布; (3)按问题的具体要求,选取适当的显著水平a ,并根据统计量的分布查表,确定对应于a 的临界值,一般a 取0.05,0.01,0.10。

(4)根据样本观测值计算统计量的观测值,并与临界值进行比较,从而在检验a 水平条件下对拒绝或接受原假设0H 作出判断。 3.MATLAB 统计分析工具箱

MATLAB 统计工具箱中有20多种概率分布,常见的几种分布的命令为: 正态分布:norm

β分布:beta F 分布:F

指数分布:exp 2χ分布:chi2

t 分布:t

泊松分布:poiss 威布尔分布:weib 工具箱对于每一种分布提供了五类函数,其命令字符分别为: 概率密度:pdf 概率分布:cdf 逆概率分布:inv 均值与方差:stat

随机数生成:rnd 当需要一种分布的某一类函数时,将以上所列的分布命令字符与函数命令字符连接起来,并输入自变量(可以是标量、数组或矩阵)和参数即可。

给出数组data 的频数表的命令为:[ n , X ] = hist( data , k );

此命令将区间[ min (data) , max (data) ]分为k 个小区间(缺省为10),返回数组data 落在每一个小区间的频数N 和每一个小区间的中点X 。

参数估计采用下面命令形式:

在总体服从正态分布的情况下,可以用以下命令进行假设检验:

对于非参数检验,即对总体分布类型的判断,MATLAB工具箱提供了两个检验命令:

【实验方法与步骤】

1.引例问题的分析求解

由问题提供的100次刀具故障记录,我们通过作直方图来近似判断刀具寿命所服从的概率分布,首先在MA TLAB命令框中录入数据:

>> x1=[459 362 624 542 509 584 433 748 815 505];

>> x2=[612 452 434 982 640 742 565 706 593 680];

>> x3=[926 653 164 487 734 608 428 1153 593 844];

>> x4=[527 552 513 781 474 388 824 538 862 659];

>> x5=[775 859 755 49 697 515 628 954 771 609];

>> x6=[402 960 885 610 292 837 473 677 358 638];

>> x7=[699 634 555 570 84 416 606 1062 484 120];

>> x8=[447 654 564 339 280 246 687 539 790 581];

>> x9=[621 724 531 512 577 496 468 499 544 645];

>> x10=[764 558 378 765 666 763 217 715 310 851];

>> x=[x1 x2 x3 x4 x5 x6 x7 x8 x9 x10];

接着用以上输入数据作刀具寿命的频数直方图:

>> hist(x,10)

从图12.1中我们可以看到,该刀具使用寿命近似服从正态分布(有关各类概率分布密度、函数的图形大家可以查阅概率统计类书籍,这里不一一给出)

510152025

图12.1 刀具寿命频数直方图

对于近似推断刀具总体寿命的概率分布形式,我们用MA TLAB 非参数检验命令来加以验证其总体分布类型,以提供初步结论成立的更加可靠的依据: >> normplot(x)

得到图12.2,从图12.2可以看到数据基本分布在一条直线上,由normplot 命令的定义可初步确定刀具寿命为正态分布。

Data

P r o b a b i l i t y

Normal Probability Plot

图12.2 正态概率图

在基本确定所给刀具寿命数据的分布后,就可以估计该分布的某些参数了: >> [muhat,sigmahat,muci,sigmaci] = normfit(x)

muhat = 594,sigmahat = 204.130,muci =[553.496,634.504],sigmaci =[179.228,237.133] 估计出该刀具寿命的均值为594,方差204,均值0.95的置信区间为[553.496,634.504],方差的0.95的置信区间为[179.228,237.133]。

【结果分析】

由上述过程我们可以推断刀具寿命服从正态分布,在总体分布形式已知而方差未知的情形下,我们来检验前面所估计的参数是否可信: >> [h,sig,ci] = ttest(x,594)

h = 0,sig = 1,ci =[553.4962,634.5038];

检验结果:布尔变量h = 0,表示不拒绝接受假设,说明提出的假设寿命均值为594是

合理的;95%的置信区间为[553.4962,634.5038],它完全包括594,且精度很高;sig = 1,远远超过0.5,不能拒绝假设。所以,可以确定刀具平均寿命为594。

【练习与思考】

1.某外商声称,他提供给工厂的某种零件至少有95%是符合规范的。现测试了300台这种设备,发现有24台是不符合规范规范的。在显著性水平α=0.05,能否相信该外商的声称是真实的?

σ=5000(小时)的正态分布,2.某厂生产的某种型号的电池,其寿命长期以来服从方差2

现有一批这种电池,从它的生产情况来年,寿命的波动性有所改变。现随机抽取26只电池,测出其寿命的样本方差2s=9200(小时2),问根据这一数据能否推断这批电池的寿命的波动性较以往的有显著的变化(取α=0.02)?又若分别取α=0.05及0.10呢?又若把电池数改为20只,2s不变,α=0.05呢?解释检验结果。

3.据说某地汽油的价格是每加仑115美分,为了验证这种说法,一位学者开车随机选择了一些加油站进行抽样,得到某年一月各二月的数据如下:

一月:119117115116112121115122116118

109112119112117113114110109118

二月:118119116122119123120121129117

120123124119115116127125119124

(1)分别用两个月的数据验证这种说法的可靠性;

(2)分别给出一月和二月汽油价格的置信区间;

(3)给出一月和2月汽油价格差的置信区间。

相关主题
文本预览
相关文档 最新文档