当前位置:文档之家› 贝叶斯统计_先验分布的确定

贝叶斯统计_先验分布的确定

贝叶斯统计_先验分布的确定
贝叶斯统计_先验分布的确定

第三章先验分布的确定

3.1 主观概率

3.1.1概率的公理化定义

定义:设Ω为一个样本空间,F 为Ω的某些子集组成的一个事件域,如果对任一事件A ∈F ,定义在F 上一个实值函数P(A)满足下列条件:

(1)非负性公理:对于每一事件A ,有P(A)≥0;

(2)正则性(规范性)公理:P(Ω)=1;

(3)可列可加性(完全可加性)公理:设A 1,A 2,…是互不相容的事件,即对于i≠j ,A i A j =?,i ,j=1,2,…,则有

11()()i i i i P A P A ∞∞

===∑U

则称P (A )为事件A 的概率(Probability),称三元素(Ω,F ,P)为概率空间(Probability space)。

概率是定义在σ-域F 上的一个非负的、正则的、可列可加的集函数。

3.1.2主观概率

在经典统计中,概率是用三条公理定义的:1)非负性;2)正则性;3)可加性。概率确定方法有两种:1)古典方法;2)频率方法。

实际中大量使用的是频率方法,所以经典统计的研究对象是能大量重复的随机现象,不是这类随机现象就不能用频率的方法去确定其有关事件的概率。这无疑把统计学的应用和研究领域缩小了[1]。在经典统计中有一种习惯,对所得到的概率都要给出频率解释,这在有些场所是难于做出的。譬如,天气预报:“明天下雨的概率是0.8”。

贝叶斯统计中要使用先验信息,而先验信息主要是指经验和历史资料。因此如何用人们的经验和过去的历史资料确定概率和先验分布是贝叶斯学派要研究

的问题。

贝叶斯学派是完全同意概率的公理化定义,但认为概率也是可以用经验确定。这是与人们的实践活动一致。这就可以使不能重复或不能大量重复的随机现象也可谈及概率。同时也使人们积累的丰富经验得以概括和应用。

贝叶斯学派认为:一个事件的概率是人们根据经验对该事件发生可能性所给出个人信念。这样给出的概率称为主观概率。下面举几个例子:一个企业家认为“一项新产品在未来市场上畅销”的概率是0.8,这里的0.8是根据他自己多年的经验和当时一些市场信息综合而成的个人信念。

一位医生要对一位病人动手术,他认为成功的概率是0.9,这是他根据手术的难易程度和自己的手术经验而对“手术成功”所给出的把握程度。

这样的例子在我们生活,生产和经济活动中也是常遇见的,他们观察的主观概率绝不是随意的,而是要求当事人对所考察的事件有较透彻的了解和丰富的经验,甚至是这一行的专家。并能对周围信息和历史信息进行仔细分析,在这个基础上确定的主观概率就能符合实际。所以应把主观概率与主观臆造,瞎说一通区别开来。

主观概率要受到实践检验,要符合概率的三条公理,通过实践检验和公理验证,人们会接受其精华,去其糟粕。

主观概率是频率方法和经典方法的一种补充,有了主观概率至少使人们在频率观点不适用时也能谈论概率,使用概率和统计方法。

主观概率并不反对用频率方法确定概率,但也要看到它的局限性。

3.1.3 确定主观概率的方法

(1)用对立事件的比较来确定主观概率(最简单的方法)

例3.1

一位出版商要知道一本新书畅销(事件A)的概率是多少,以决定是否与作者签订出版合同。他在了解这本新书的内容后,根据他自己多年出书的经验认为该书畅销的可能性较大,畅销(A)比畅销(A)的可能性要高出一倍,即

P A=,即

+=,可以推得()2/3

P A P A

P A P A

()2()

=,由此根据概率的性质()()1

该书畅销的主观概率是2/3。

(2)用专家意见来确定主观概率(最常用)

例3.2

有一项带有风险的生意,预估计成功(记为A)的概率。为此,决策者去拜访这方面的专家(如董事长,银行家等),向专家提这样的问题:“如果这种生意做100次,你认为会成功几次?”专家回答:“成功次数不会太多,大约60次。”这时()0.6

P A=是专家的主观概率,可此专家还不是决策者,过分谨慎的。决策者决定修改专家的估计,把0.6提高到0.7。这样()0.7

P A=就是决策者自己的主观概率。

(3)通过向多位专家咨询后,经修正和综合获得主观概率

例3.3

某公司再决定是否成产某种新产品时,想估计该产品在未来市场上的畅销(记为A)的概率是多少,为此公司经理召集设计,财会,推销和质量管理等方面人员的座谈会,仔细分析影响新产品销路的各种因素,大家认为此新产品质量好,只要定价合理,畅销可能性很大,而影响销路的主要因素是市场竞争。据了解,还有一家工厂(简称外厂)亦有生产此新产品的想法,该厂技术和设备都比本厂强。经理在听取大家的分析后,向在座各位提出二个问题:(i)假如外厂不生产此新产品本公司的新产品畅销的可能性(即概率)有多大?

(ii)假如外厂要生产此新产品本公司的新产品畅销的可能性(即概率)有多大?

在座人员根据自己的经验各写了二个数,经理在计算了二个平均值后,略加修改,提出自己的看法:在上述二种情况下,本公司新产品畅销概率各为0.9和0.4,这是经理在征求多位专家意见后所获得的主观概率。另根据本公司情报部门报告,外厂正忙于另一项产品开发,很可能无暇顾及生产此新产品。经理据此认为外厂将生产此新产品的概率为0.3,不产此新产品的概率为0.7。

利用上面4个主观概率,由全概率公式可得本公司生产此新产品获畅销的概率为

0.90.70.40.30.75?+?=

注意:

1)向专家提的问题要设计好,既要使专家易懂又要使专家回答不是模棱两可。

2)要对专家本人比较了解,以便做出修正,形成决策者自己的主观概率。

3)通过向多位专家咨询后,经修正和综合获得主观概率,关键在于把问题设计好,便于往后综合,即在提出问题时,就要想到如何综合。

(4)假如有历史数据,要尽量利用,帮助形成初步概念,然后再做一些对比修正,再形成个人信念。

例3.4

某公司经营儿童玩具好多年,今设计了一种新式玩具将投入市场。现要估计此新式玩具在未来市场上的销售情况。经理查阅了本公司过去37种新式玩具的销售记录,得知销售状态是畅销(1A )、一般(2A )、滞销(3A )分别有29,6,

2种,于是算得过去新式玩具的三种销售状态的概率分别为

29620.7840.1620.054373737

=== , , 考虑到这次设计玩具不仅外形新颖,而且在开发儿童智力上有显著突破,经理认为此种新玩具会更畅销一些,滞销可能性更小,故对上述概率作了修改,提出自己的主观概率如下:

123()0.85()0.14()0.01P A P A P A === , ,

根据经验和历史资料等先验信息给出主观概率没有什么固定的模式。但是其所确定的主观概率都必须满足概率的三条公理,即

1)非负性

2)正则性

3)可列可加性

当发现所确定的主观概率与这三条公理及其推出的性质有不和谐时,必须立即修正,直到和谐为止。

3.2 利用先验信息确定先验分布

在贝叶斯统计方法中关键的一步是确定先验分布。

1、当总体参数θ是离散时,即参数空间Θ只含有限个或可数个点时,可对Θ中每个点确定一个主观概率。

2、当总体参数θ是连续时,即参数空间Θ是实数轴或其上某个区间时,要构造一个先验密度π(θ ),就有些困难了。

当θ的先验信息足够多时,下面有三个方法可供使用。

3.2.1 直方图法

这个方法与一般的直方图法类似,步骤如下:

1)把参数空间分成一些小区间。

2)在每个小区间上决定主观概率或依据历史数据确定其频率。

3)绘制直方图。

4)在直方图上做一条光滑的曲线,此曲线就是π(θ )。

下面举个例子:

例3.6

表3.1 每周平均销售量统计表

某药材店记录了吉林人参的每周销售量,现要寻找每周平均销售量θ的概率分布。现用直方图法来确定它。

1)把参数空间分成一些小区间。统计过去二年102个营业周的销售记录,

每周平均销售量最高不超过35两。若以5两作为小区间长度,共分为7个小区间。

2)在每个小区间上决定主观概率或依据历史数据确定其频率。这里用的是后者,其频率见表3.1。

3)绘制频率直方图。这里绘制的频率直方图见图3.1,其中纵坐标为频率/5。

4)在直方图上作一条光滑的曲线,此曲线就是π(θ )。在作光滑曲线时,尽量在每个小区间上使用得曲线下的面积与直方图的面积相等。这条曲线已在图3.1上画出,利用此曲线可求出一个单位区间上的概率,如

<≤=?=

Pθπ

(2021)1(20.5)0.03

注意:这样得到的先验密度常常仅限于有限区间上,有时使用也不方便。下面这种方法更为适用。

3.2.2 选定先验密度函数形式再估计其超参数

要点:

(1)根据先验信息选定θ的先验密度函数的形式π(θ ) 。

(2)当先验分布中含有未知参数(即超参数)时,给出超参数的估计值. 注意:

方法常用,但也极易误用。因为先验密度π(θ)的函数形式选用不当将会导致以后推导失误。

例3.7

在例3.6中对周平均销售量θ,选用正态分布2

(,)

Nμτ作为先验分布,于是确定先验分布问题就能转化为估计超参数μ和2τ的问题。这可从每周平均销售

量统计表上作出估计。若对的每个小区间用其中点作代表,则可算得μ和2τ的估计如下:

μμ2222.50.051...32.50.00113.4575(2.513.4574)0.051...(32.513.4574)0.00136.0830μ

τ=?++?==-?++-?=

这表明,该商店每周平均销售量θ的先验分布为(13.4574,36.0830)N 。用此先验分布可以算得:

2113.45752013.4575(2021)()(=6.0069 6.0069

P θ--<<=Φ-Φ)0.0350 这个例子说明,若能从先验信息整理加工中获得前几阶先验矩,然后用其估计先验分布的各个参数。在给定先验分布形式时决定其中先验参数的另一个方法是从先验信息中获得几个分位数的统计值,然后选择先验分布中的参数使其尽可能地接近这些分位数。下面再看一个例子。

例3.8

设参数的取值θ范围是∞∞(-,),它的先验分布具有正态分布形式。若从先验信

息可以得知:

(1)先验中位数为0;

(2)上下四分位数为-1和1,即先验的0.25分位数和0.75分位数为-1和1。 要确定先验分布2(,)N μτ中的超参数μ和2τ。

对正态分布,均值和中位数相等故0μ=另外由0.75分位数为1,可列出方程(1)0.75(/1/)0.75P P θθσσ<=<=或。

查标准正态分布表可知

1/0.675 1.481σσ==或

这样就可得先验分布为2(0,1.481)N 。

另外,若设θ的先验分布为柯西分布(,)C αβ,其密度函数为

22(|,),()

βπθαβθπβθα=-∞<<∞+- 它的期望与方差都不存在,但其各分位数都有。由于柯西密度函数是关于α的对

称函数,故其中位数是α。由已知条件知0α=。另外由-1是1/4分位数可得方程

-122-1/4d β

θπβθ∞=+?

由此可算得1β=。这时θ的先验分布为柯西分布(0,1)C 。这是标准柯西分布。

这样一来,我们面临着二个先验分布都满足给定的先验信息。假如这二个先验分布差异不大,对后验分布影响也不大,那可任选一个,假如面临着二个差异极大的先验分布可供选择时,我们应慎重选择,因为不同的选择对后验分布影响也会很大。如在本例中正态分布2(0,1.481)N 与柯西分布(0,1)C 在形状是很相似,都是中间高,两边低,左右对称,但在二侧的尾部的粗细相差很大,正态分布的尾部很细,柯西分布的尾部很粗,这就导致正态分布的各阶矩都存在,可柯西分布连数学期望都不存在。因此在进一步的选择前还要对先验信息进行分析,若先验信息很分散,那就不宜选用正态分布,若先验信息较为集中,那就不宜选用柯西分布。关于在一族先验分布中如何选择先验分布使后验分布波动不大。这个问题被称作“稳健性”问题。

3.2.3 定分度法与变分度法

定分度法:把参数可能取值的区间逐次分为长度相等的小区间,每次在每个小区间上请专家给出主观概率。

变分度法:该法是把参数可能取值的区间逐次分为机会相等的两个小区间,这里的分点由专家确定。

3.3 利用边缘分布()m x 确定先验密度

3.3.1 边缘分布()m x

设总体X 的密度函数为p (x |θ),它含有未知参数θ,若θ的先验分布选用形式已知的密度函数π(θ),则可算得X 的边缘分布(即无条件分布)

(|)()()(3.1)(|)()p x d m x p x θθπθθθθπθθΘ∈Θ??=????∑,为连续时,为离散时

当先验分布含有未知参数时,譬如π(θ)=π(θ|λ),那么边缘分布m(x )依赖于λ,可记为m(x |λ)。

例3.10

设总体2~(,)X N θσ,其中2σ已知,又设θ的先验分布为

2(,)N ππμσ,则可以算得边际分布()m x 为22(,)N ππμσσ+。

22221(|)()}21()()}2p x x πθθσπθθμσ=

--=-- 于是边际分布

2

222222()1()()exp{[]}2)}2+x m x d x ππππθμθθσσμσσ∞

-∞--=-+--?( ()

这就是我们要求的结果。除了已知的2σ外,它还有两个未知的超参数2ππμσ与。

3.3.2 混合分布

设随机变量X 以概率π在总体F 1中取值,以概率1-π在总体F 2中取值。若F(x |θ1)和F(x |θ2)分别是这两个总体的分布函数,则X 的分布函数为

12()(|)(1)(|)F x F x F x πθπθ=+-

或用密度函数或概率函数表示

12()(|)(1)(|)p x p x p x πθπθ=+-

F(x )称为F(x |θ1)和F(x |θ2) 的混合分布。

这里的π和1-π可以看作一个新的随机变量θ的分布,即

12(),()(1)P P θθπθθπ====-

从混合分布F(x )中抽取一个样品x 1,相当于如下两个抽样:

第一次,从π(θ) 中抽取一个样品θ。

第二次,若θ=θ1,则从F(x |θ1)中再抽一个样品,这个样品就是x 1,

若θ=θ2,则从F(x |θ2)中再抽一个样品,这个样品就是x 1。

若从混合分布抽取一个容量为n 的样本x 1,x 2,…,x n ,那么其中约有n π(θ1) 个来自F(x |θ1),约有n π(θ2)个来自F(x |θ2),这样的样本有时也称为混合样本。

说明:

1.(3.1)式表示的边缘分布m (x )是混合分布的推广

2.当θ为离散随机变量时,m (x )是由有限个或可数个的密度函数混合而成

3.当θ为连续随机变量时,m (x )是由无限个不可数的密度函数混合而成

4.若从π(θ)抽取一个θ,然后再从p (x |θ)中抽取一个x ,这个x 可看作从m (x )抽取的样品。按此过程抽取n 个样品就可获得容量为n 的混合样本。

例3.11 混合样本的例子

(1)设123,,,...,n x x x x 是n 位考生的成绩,由于每位考生的能力θ是不同的,这n 位考生的能力12,,...,n θθθ可看作从某个分布()πθ抽取的样本,而i x 是从(|)p x θ抽取的样本。这样一来,样本123,,,...,n x x x x 可看作混合样本。

(2)从一批产品中随机抽取n 件产品,而这n 个产品是来自三位工人之手,而这三个工人的不合格品率是不同的,故所测的产品特性123,,,...,n x x x x 可看作一个混合样本。

(3)某厂的原料来自k 个产地,每次改换原料都要抽一个样本检查产品质量。过去已记录了若干个样本的观察值

121112211...

...............p n n p pn x x x x x x ?? ? ? ? ? ???

其中12,,...,p n n n 分别是各自的样本容量。这12...p n n n +++个数据可看作来自k 个

总体的混合样本,也可看作来自某混合分布的一个样本。

3.3.3 先验选择的ML-II 方法

(|)()()(3.1)(|)()p x d m x p x θθπθθθθπθθΘ∈Θ??=????∑,为连续时,为离散时

若p (x |θ)已知,则m (x )大小反映π(θ)的合理程度,这里把m (x )记为m (x |π) 或m π(x ) ,是由无限个不可数的密度函数混合而成。

设Γ为所考虑的先验类,?π

∈Γ满足(对观察值x ) ?()sup ()m x m x πππ∈Γ

= ?π

被称为类型Ⅱ极大似然函数先验,或称为ML —Ⅱ先验。

例3.12

设总体2()X N q σ~,其中σ2已知。取另一正态分布

2()N ππμτ,作为正态均值θ的先验分布,则可以算得X 的边缘分布为

22()N ππμτσ+,。 X θ设在给定时条件分布为2(,)N θσ,2()~(,)N πππθμσ,则边缘分布

22()~(,)

m x N πππμσσ+ 由1

()()n i i m X m x ππ==∏

22,()(,)i m x N πππμσσ=+其中于是

21221222()1()exp{}2()[2()n i i x m x πππμπσσπσσ=-=-++∏2

221222()[2()exp{}2()n n i i x πππμπσσσσ=-=+-+∑

22221

22222()()[2()]exp{}exp{}2()2()n

i n i x x n n x n ππππμπσσσσσσ-=--=+--++∑

2222()exp{},()2()x x m x ππππμσμπσσ--=+由知不论如何可使达最大2222222()[2()]exp{}2()n ns πππ?σπσσσσ-=+-+故只需令求其最大值则可222222222()()[2()]exp{}exp{}2()2()n n x ns m x ππππμππσσσσσσ--=+--++221111,()n n i i i i x x s x x n n ====-∑∑取22222222[ln ()]02()2()d n ns d ππππ?σσσσσσ=-+=++取222S πσσ=-得22222:S S πσσσ>=-注意到若时为最大点22222200S S ππσσσσ<=-<=而若时则取为最大点2222211?????~(,),,max{0,}.

n ML i i N x S n πππππμσμσσ-=?==-∑其中

3.4 无信息先验分布

贝叶斯统计的特点就在于利用先验信息(经验与历史数据)形成先验分布,参与统计推断。它启发人们要充分挖掘周围的各种信息使统计推断更为有效。但是从贝叶斯统计诞生之日开始就伴着一个“没有先验信息可利用的情况,如何确定先验分布”。于是就有了无信息先验分布。

所谓参数θ的无信息先验分布是指除参数θ的取值范围Θ和θ在总体分布中的地位之外,再也不包含θ的任何信息的先验分布。

3.4.1贝叶斯假设

有人把“不包含θ的任何信息”这句话理解为对θ的任何可能值,他都没有偏爱,都是同样无知的。因此很自然地把θ的取值范围上的“均匀”分布看作θ的先验分布,即

,()(3.9)0,c θπθθ∈Θ?=??Θ?

其中Θ是θ的取值范围,c 是一个容易确定的常数。这一看法通常被称为贝叶斯假设。

例:

射击的命中率

一种新产品的市场占有率

一无所知时可用(0,1)上的均匀分布U(0,1)作为先验分布。

说明

1.贝叶斯假设有其合理的方面。

(1)Θ={θ1,…,θn }为有限集,且对θi 发生无任何信息,那么自然认为其上的均匀分布()1/,1,2,...,i P n i n θθ===作为θ的先验分布是合理的。

(2)若Θ=(a ,b )为有限区间,那可用U (a ,b )作为θ的先验分布.

2.使用贝叶斯假设也会遇到一些麻烦,主要有以下2个:

(1)当Θ为无限区间时,在Θ上无法定义一个正常的均匀分布.

(2)贝叶斯假设不满足变换下的不变性。

注意:

不能随意设定一个常数为某参数的先验分布,即不能随意使用贝叶斯假设。

3.5 多层先验

当所给先验分布中超参数难于确定时,可以对超参数再给出一个先验,第二个先验称为超先验。由先验和超先验决定的一个新先验称为多层先验。

多层先验的确定方法

(1)对未知参数θ给出一个形式已知的密度函数作为先验分布,即θ~π1(θ|λ),其中λ是超参数,Λ是其取值范围。

(2)对超参数λ再给出一个超先验π2(λ) .

(3)多层先验的一般表示形式为12()(|)()d πθπθλπλλΛ

=? 说明:

1.在理论上并没有限制多层先验只分两步。

2.对第二步π2(λ)用主观概率或用历史数据给出是有困难的,因为λ常是不能观察的,甚至连间接观察都是难于进行的,很多人用无信息先验作为第二步先验是一种好的策略

3.多层先验常常用在当一步给出先验π(θ)没有把握时,那用两步先验比硬用一步先验所冒的风险要小一些。

第一章 先验分布与后验分布

第一章 先验分布与后验分布 1.1 解:令120.1,0.2θθ== 设A 为从产品中随机取出8个,有2个不合格,则 2 2618()0.10.90.1488P A C θ== 22628()0.20.80.2936P A C θ== 从而有 1111122()() ()0.4582()()()() P A A P A P A θπθπθθπθθπθ==+ 2221122()() ()0.5418()()()() P A A P A P A θπθπθθπθθπθ= =+ 1.2 解:令121, 1.5λλ== 设X 为一卷磁带上的缺陷数,则()X P λ ∴3(3)3! e P X λ λλ-== 1122(3)(3)()(3)()0.0998P X P X P X λπλλπλ∴===+== 从而有 111222(3)() (3)0.2457 (3)(3)() (3)0.7543 (3) P X X P X P X X P X λπλπλλπλπλ========== 1.3 解:设A 为从产品中随机取出8个,有3个不合格,则 33 58()(1)P A C θθθ=- (1) 由题意知 ()1,01πθθ=<< 从而有 351 ()() ()504(1),01()()P A A P A d θπθπθθθθθπθθ = =-<

1 (),102010πθθ= << 11.611.51()0.0110 m x d θ==? 从而有 ()()()10,11.511.6() P x x m x θπθπθθ==<< 1.6 证明:设随机变量()X P λ ,λ的先验分布为(,)Ga αβ,其中,αβ为已知,则 (),0 ! x e P x x λ λλλ-= > 1(),0 () e ααβλ βπλλλα--=>Γ 因此 11(1) ()()()x x x P x e e e λαβλαβλπλλπλλλλ---+--+∝?∝= 所以 (,1) x G a x λαβ++ 1.7 解:(1)由题意可知 ()1,01πθθ=<< 因此 1 2 2()12(1)x x m x d x θθ =?=-? 因此 2()()1(),1 ()1P x x x x m x x θπθπθθθ==<<- (2) 由题意可知 1 22 2()36x m x d x θθθ=?=? 因此 ()() ()1,01 () P x x m x θπθπθθ= =<< 1.8 解:设A 为100个产品中3个不合格,则 3 397100()(1)P A C θθθ=- 由题意可知 199(202) ()(1),01(200) πθθθθΓ= -≤≤Γ 因此 3971994296()()()(1)(1)(1)A P A πθθπθθθθθθθ∝?∝--=- 由上可知 (5,297)A Be θ

伽马先验分布的草案

1先验分布服从伽马-逆伽马分布 1:取形状参数先验分布为伽马分布: )exp() (),(~)(1 bm m a b b a Ga m a a -= -Γπ, 其中a 为形状参数,b 为尺度参数。 2:尺度参数的先验分布为逆伽马分布: ??? ? ??- ??? ? ??=+ηη ηπv u v v u IGa u u exp 1 )(),(~)(1 Γ, 其中u 为形状参数,v 为尺度参数。 则两参数的联合验前分布为: ??? ? ??- ???? ??? -= ?=+-ηηηπv u v bm m a b v u IGa b a Ga m u u a a exp 1)()exp() (),(),(),(1 1 ΓΓ )(?Γ为伽马函数: dx e x a x a -∞+-? = 1 )(Γ 0>a 2 超参数确定方法 上面给出的先验分布中,除了两参数数都取无信息先验分布,其它先验分布都含有未知的超参数。超参数可以根据经验专家给出,但是更多的时候要利用先验数据确定。通常利用先验矩可以确定超参数。这时,首先要获得参数θ(对于Weibull 而言,就是m 和η)的样本,然后才能去估计参数的样本矩。然而,已知的先验数据与参数的样本并没有明显的对应关系。在工程应用中,常用自助法(Bootstrap )获得参数的样本。自助法的核心是利用自助样本(或称为再生样本)来估计未知概率测度的某种统计量的统计特性。设),,(21n t t t T ???=是得到的一组数控系统无故障工作时间样本。通过其运用自助法便可获得m 和η的样本。具体步骤如下: 1)对),,(21n t t t T ???=进行有放回抽样,可得到自助样本; 2)利用自助样本),,(* *2*1*n t t t T ???=进行最大似然估计,得到m ?,η?; 3)重复上述两个步骤N 次,得到估计参数样本)}?,?(,),?,?(),?,?{(2211N N m m m ηηη???; 4)利用得到的估计参数样本即可求未知参数m ,η的期望和方差。 通过得到的N 组参数样本,分别计算其期望与方差,可以得到验前分布的超参数。当假设先验分布为二元正态时: ∑ == N i i m m N 1 ?1μ,∑ ==N i i N 1 ?1ημη,∑=--= N i m i m m N 1 2 2 ?1 1)(μσ,

先验概率后验概率及贝叶斯公式

先验概率、后验概率及全概率公式、贝叶斯公式2011-11-15 16:04:24| 分类:数理统计|举报|字号订阅 先验概率与后验概率 事情还没有发生,要求这件事情发生的可能性的大小,是先验概率. 事情已经发生,要求这件事情发生的原因是由某个因素引起的可能性的大小,是后验概率. 一、先验概率是指根据以往经验和分析得到的概率,如全概率公式,它往往作为“由因求果”问题中的“因”出现。后验概率是指在得到“结果”的信息后重新修正的概率,如贝叶斯公式中的,是“执果寻因”问题中的“因”。先验概率与后验概率有不可分割的联系,后验概率的计算要以先验概率为基础。 二、A prior probability is a marginal probability, interpreted as a description of what is known about a variable in the absence of some evidence. The posterior probability is then the conditional probability of the variable taking the evidence into account. The posterior probability is computed from the prior and the likelihood function via Bayes' theorem. 三、先验概率与后验概率通俗释义 事情有N种发生的可能,我们不能控制结果的发生,或者影响结果的机理是我们不知道或是太复杂超过我们的运算能力。新发一个物种,到底是猫,还是小老虎呢(朱道元的经典例子)?是由于我们的无知才不能确定判断。 先验概率 ( Prior probability) 先验概率是在缺乏某个事实的情况下描述一个变量;而后验概率是在考虑了一个事实之后的条件概率。先验概率通常是经验丰富的专家的纯主观的估计。比如在法国大选中女候选罗雅尔的支持率 p,在进行民意调查之前, 可以先验概率来表达这个不确定性。

先验概率与后验概率的区别-1

先验概率与后验概率的区别(老迷惑了) 此为Bayesian先生,敬仰吧,同志们! 先验(A priori;又译:先天)在拉丁文中指“来自先前的东西”,或稍稍引申指“在经验之前”。近代西方传统中,认为先验指无需经验或先于经验获得的知识。它通常与后验知识相比较,后验意指“在经验之后”,需要经验。这一区分来自于中世纪逻辑所区分的两种论证,从原因到结果的论证称为“先验的”,而从结果到原因的论证称为“后验的”。 先验概率是指根据以往经验和分析得到的概率,如全概率公式 中的,它往往作为“由因求果”问题中的“因”出现。后验概 率是指在得到“结果”的信息后重新修正的概率,是“执果寻因”问题中的“因” 。后验概率是基于新的信息,修正原来的先验 概率后所获得的更接近实际情况的概率估计。先验概率和后验概

率是相对的。如果以后还有新的信息引入,更新了现在所谓的后验概率,得到了新的概率值,那么这个新的概率值被称为后验概率。 先验概率的分类: 利用过去历史资料计算得到的先验概率,称为客观先验概率;当历史资料无从取得或资料不完全时,凭人们的主观经验来判断而得到的先验概率,称为主观先验概率。 后验概率是指通过调查或其它方式获取新的附加信息,利用贝叶斯公式对先验概率进行修正,而后得到的概率。 先验概率和后验概率的区别: 先验概率不是根据有关自然状态的全部资料测定的,而只是利用现有的材料(主要是历史资料)计算的;后验概率使用了有关自然状态更加全面的资料,既有先验概率资料,也有补充资料; 先验概率的计算比较简单,没有使用贝叶斯公式;而后验概率的计算,要使用贝叶斯公式,而且在利用样本资料计算逻辑概率时,还要使用理论概率分布,需要更多的数理统计知识。

贝叶斯统计_先验分布的确定

第三章先验分布的确定 3.1 主观概率 3.1.1概率的公理化定义 定义:设Ω为一个样本空间,F 为Ω的某些子集组成的一个事件域,如果对任一事件A ∈F ,定义在F 上一个实值函数P(A)满足下列条件: (1)非负性公理:对于每一事件A ,有P(A)≥0; (2)正则性(规范性)公理:P(Ω)=1; (3)可列可加性(完全可加性)公理:设A 1,A 2,…是互不相容的事件,即对于i≠j ,A i A j =?,i ,j=1,2,…,则有 11()()i i i i P A P A ∞∞ ===∑U 则称P (A )为事件A 的概率(Probability),称三元素(Ω,F ,P)为概率空间(Probability space)。 概率是定义在σ-域F 上的一个非负的、正则的、可列可加的集函数。 3.1.2主观概率 在经典统计中,概率是用三条公理定义的:1)非负性;2)正则性;3)可加性。概率确定方法有两种:1)古典方法;2)频率方法。 实际中大量使用的是频率方法,所以经典统计的研究对象是能大量重复的随机现象,不是这类随机现象就不能用频率的方法去确定其有关事件的概率。这无疑把统计学的应用和研究领域缩小了[1]。在经典统计中有一种习惯,对所得到的概率都要给出频率解释,这在有些场所是难于做出的。譬如,天气预报:“明天下雨的概率是0.8”。 贝叶斯统计中要使用先验信息,而先验信息主要是指经验和历史资料。因此如何用人们的经验和过去的历史资料确定概率和先验分布是贝叶斯学派要研究

的问题。 贝叶斯学派是完全同意概率的公理化定义,但认为概率也是可以用经验确定。这是与人们的实践活动一致。这就可以使不能重复或不能大量重复的随机现象也可谈及概率。同时也使人们积累的丰富经验得以概括和应用。 贝叶斯学派认为:一个事件的概率是人们根据经验对该事件发生可能性所给出个人信念。这样给出的概率称为主观概率。下面举几个例子:一个企业家认为“一项新产品在未来市场上畅销”的概率是0.8,这里的0.8是根据他自己多年的经验和当时一些市场信息综合而成的个人信念。 一位医生要对一位病人动手术,他认为成功的概率是0.9,这是他根据手术的难易程度和自己的手术经验而对“手术成功”所给出的把握程度。 这样的例子在我们生活,生产和经济活动中也是常遇见的,他们观察的主观概率绝不是随意的,而是要求当事人对所考察的事件有较透彻的了解和丰富的经验,甚至是这一行的专家。并能对周围信息和历史信息进行仔细分析,在这个基础上确定的主观概率就能符合实际。所以应把主观概率与主观臆造,瞎说一通区别开来。 主观概率要受到实践检验,要符合概率的三条公理,通过实践检验和公理验证,人们会接受其精华,去其糟粕。 主观概率是频率方法和经典方法的一种补充,有了主观概率至少使人们在频率观点不适用时也能谈论概率,使用概率和统计方法。 主观概率并不反对用频率方法确定概率,但也要看到它的局限性。 3.1.3 确定主观概率的方法 (1)用对立事件的比较来确定主观概率(最简单的方法) 例3.1 一位出版商要知道一本新书畅销(事件A)的概率是多少,以决定是否与作者签订出版合同。他在了解这本新书的内容后,根据他自己多年出书的经验认为该书畅销的可能性较大,畅销(A)比畅销(A)的可能性要高出一倍,即 P A=,即 +=,可以推得()2/3 P A P A P A P A ()2() =,由此根据概率的性质()()1

主观概率与先验分布

第二章主观概率和先验分布 Subjective Probability and Prior Distribution 本章主要参考文献:60,52,上帝怎样掷骰子 §2-1 基本概念 一、概率(probability) 1. 频率 f n(A)==N a/N P (A)==lim f n(A)…古典概率的定义 n 2. Laplace在《概率的理论分析》(1812)中的定义 P(A)==k/N 式中,k为A所含基本事件数, N为基本事件总数 适用条件 1.基本事件有限 2.每个基本事件等可能 3.公理化定义 E是随机试验,S是E的样本空间,对E的每一事件A,对应有确定实数P(A),若满足: ①非负性:0≤P(A)≤1 ②规范性:P(S)=1 ③可列可加性:对两两不相容事件A k (k=1,2…) (A i∩A j=φ) P(∪A k)=∑P(A k) 则称P(A)为事件A发生的概率

二、主观概率(subjective probability, likelihood) 1. 为什么引入主观概率 。有的自然状态无法重复试验 如:明天是否下雨 新产品销路如何 明年国民经济增长率如何 能否考上博士生 。试验费用过于昂贵、代价过大 例:洲导弹命中率 战争中对敌方下一步行动的估计 2.主观概率定义:合理的信念的测度 某人对特定事件会发生的可能的度量。 即他相信(认为)事件将会发生的可能性大小的程度。 这种相信的程度是一种信念,是主观的,但又是根据经验、各方而后知识,对客观情况的了解进行分析、推理、综合判断而设定(Assignment)的,与主观臆测不同。 例:考博士生、掷硬币、抛图钉 三、概率的数学定义 对非空集Ω,元素ω,即Ω={ω},F是Ω的子集A所构成的σ-域(即Ω∈F; 若A∈F则A∈F; 若A i∈F i=1,2,…则∪A i∈F) 若P(A)是定在F上的实值集函数,它满足 ①非负性P(A)≥0 ②规范性P(Ω)=1

先验概率与后验概率的区别-1

此为先生,敬仰吧,同志们! 先验(;又译:先天)在拉丁文中指“来自先前地东西”,或稍稍引申指“在经验之前”.近代西方传统中,认为先验指无需经验或先于经验获得地知识.它通常与后验知识相比较,后验意指“在经验之后”,需要经验.这一区分来自于中世纪逻辑所区分地两种论证,从原因到结果地论证称为“先验地”,而从结果到原因地论证称为“后验地”.文档来自于网络搜索 先验概率是指根据以往经验和分析得到地概率,如全概率公式中地,它往往作为“由因求果”问题中地“因”出现.后验概率是指在得到“结果”地信息后重新修正地概率,是“执果寻因”问题中地“因” .后验概率是基于新地信息,修正原来地先验概率后所获得地更接近实际情况地概率估计.先验概率和后验概率是相对地.如果以后还有新地信息引入,更新了现在所谓地后验概率,得到了新地概率值,那么这个新地概率值被称为后验概率.文档来自于网络搜索 先验概率地分类: 利用过去历史资料计算得到地先验概率,称为客观先验概率; 当历史资料无从取得或资料不完全时,凭人们地主观经验来判断而得到地先验概率,称为主观先验概率. 后验概率是指通过调查或其它方式获取新地附加信息,利用贝叶斯公式对先验概率进行修正,而后得到地概率.文档来自于网络搜索 先验概率和后验概率地区别: 先验概率不是根据有关自然状态地全部资料测定地,而只是利用现有地材料(主要是历史资料)计算地;后验概率使用了有关自然状态更加全面地资料,既有先验概率资料,也有补充资料;文档来自于网络搜索 先验概率地计算比较简单,没有使用贝叶斯公式;而后验概率地计算,要使用贝叶斯公式,而且在利用样本资料计算逻辑概率时,还要使用理论概率分布,需要更多地数理统计知识.文档来自于网络搜索 先验概率与后验概率 "概率就是无知, 而不是事务本身是随机地". 事情有种发生地可能,我们不能控制结果地发生,或者影响结果地机理是我们不知道或是太复杂超过我们地运算能力. 新发一个物种, 到底是猫,还是小老虎

先验分布的确定

幻灯片67 其步骤如下: (1)写出样本的对数似然函数 ∑∏===??? ???=n i i n i i x p x p x l 1 1) |(ln )|(ln )|(θθθ (2)求样本的信息阵 p j i l E I j i x ,...,2,1,, )(2|=??? ????????-=θθθθ 2 |2(),x l I E θ θθ???=-????? 在单参数(p=1)场合, (3)Θ的无信息先验密度为 2 /1)] ([det )(θθπI = 1/2 ()[()] I πθθ= 在单参数(p=1)场合, 幻灯片68 2122(,,...,)(,),(,). n X x x x N Jeffreys μσθμσ==设是来自正态分布的一组样本试求的先验

2211 :()ln[] 2i x n i l x e μ σθπσ--==∑写出样本的对数似然函数 2 2 1 11 (,)ln(2)ln ().22n i i l n x μσπσμσ=?=-- -∑ 2222 2222() ()0:(,);20()()l l n E E Fisher I n l l E E μμσσμσσμσσ?????? -- ? ????? ?==?? ?????- - ?? ??? ???? ?其信息阵 42),(det -=?σσμn I 22,(,):(,)2.Jeffreys n μσπμσσσ--=∝所以的先验为 幻灯片69 2 2 1 1 :,(),:()1; ,()2,();,(,); n I I n σμπμσ μσσπσσμσπμσσ---= ∝=∝∝注当已知当已知当和独立 幻灯片70 例3.22 关于成功概率的无信息先验分布至今已有4种 π1(θ)=1 ——正常 π2(θ)=θ-1(1-θ)-1 ——不正常 π3(θ)=θ-1/2(1-θ)-1/2 ——正则化后可成为正常 π4(θ)=θθ(1-θ)(1-θ) ——正则化后可成为正常

先验概率、后验概率与似然估计

先验概率、后验概率与似然估计 本文假设大家都知道什么叫条件概率了(P(A|B)表示在B事件发生的情况下,A事件发生的概率)。 先验概率和后验概率 教科书上的解释总是太绕了。其实举个例子大家就明白这两个东西了。 假设我们出门堵车的可能因素有两个(就是假设而已,别当真):车辆太多和交通事故。堵车的概率就是先验概率。 那么如果我们出门之前我们听到新闻说今天路上出了个交通事故,那么我们想算一下堵车的概率,这个就叫做条件概率。也就是P(堵车|交通事故)。这是有因求果。 如果我们已经出了门,然后遇到了堵车,那么我们想算一下堵车时由交通事故引起的概率有多大, 那这个就叫做后验概率(也是条件概率,但是通常习惯这么说)。也就是P(交通事故|堵车)。这是有果求因。 下面的定义摘自百度百科: 先验概率是指根据以往经验和分析得到的概率,如全概率公式,它往往作为"由因求果"问题中的"因"出现. 后验概率是指依据得到"结果"信息所计算出的最有可能是那种事件发生,如贝叶斯公式中的,是"执果寻因"问题中的"因". 那么这两个概念有什么用呢? 最大似然估计 我们来看一个例子。 有一天,有个病人到医院看病。他告诉医生说自己头痛,然后医生根据自己的经验判断出他是感冒了,然后给他开了些药回去吃。 有人肯定要问了,这个例子看起来跟我们要讲的最大似然估计有啥关系啊。 关系可大了,事实上医生在不知不觉中就用到了最大似然估计(虽然有点牵强,但大家就勉为其难地接受吧^_^)。 怎么说呢? 大家知道,头痛的原因有很多种啊,比如感冒,中风,脑溢血...(脑残>_<这个我可不知道会不会头痛,还有那些看到难题就头痛的病人也不在讨论范围啊!)。 那么医生凭什么说那个病人就是感冒呢?哦,医生说这是我从医多年的经验啊。 咱们从概率的角度来研究一下这个问题。 其实医生的大脑是这么工作的, 他计算了一下 P(感冒|头痛)(头痛由感冒引起的概率,下面类似) P(中风|头痛) P(脑溢血|头痛) ... 然后这个计算机大脑发现,P(感冒|头痛)是最大的,因此就认为呢,病人是感冒了。看到了吗?这个就叫最大似然估计(Maximum likelihood estimation,MLE)。 咱们再思考一下,P(感冒|头痛),P(中风|头痛),P(脑溢血|头痛)是先验概率还是后验概率呢? 没错,就是后验概率。看到了吧,后验概率可以用来看病(只要你算得出来,呵呵)。 事实上,后验概率起了这样一个用途,根据一些发生的事实(通常是坏的结果),分析结果产生的最可能的原因,然后才能有针对性地去解决问题。

贝叶斯法则,先验概率,后验概率,最大后验概率

1.贝叶斯法则 机器学习的任务:在给定训练数据D时,确定假设空间H中的最佳假设。 最佳假设:一种方法是把它定义为在给定数据D以及H中不同假设的先验概率的有关知识下的最可能假设。贝叶斯理论提供了一种计算假设概率的方法,基于假设的先验概率、给定假设下观察到不同数据的概率以及观察到的数据本身。 2.先验概率和后验概率 用P(h)表示在没有训练数据前假设h拥有的初始概率。P(h)被称为h 的先验概率。先验概率反映了关于h是一正确假设的机会的背景知识如果没有这一先验知识,可以简单地将每一候选假设赋予相同的先验概率。类似地,P(D)表示训练数据D的先验概率,P(D|h)表示假设h 成立时D的概率。机器学习中,我们关心的是P(h|D),即给定D时h 的成立的概率,称为h的后验概率。 3.贝叶斯公式 贝叶斯公式提供了从先验概率P(h)、P(D)和P(D|h)计算后验概率P(h|D)

的方法 p(h|D)=P(D|H)*P(H)/P(D) P(h|D)随着P(h)和P(D|h)的增长而增长,随着P(D)的增长而减少,即如果D独立于h时被观察到的可能性越大,那么D对h的支持度越小。 4.极大后验假设 学习器在候选假设集合H中寻找给定数据D时可能性最大的假设h,h被称为极大后验假设(MAP)确定MAP的方法是用贝叶斯公式计算每个候选假设的后验概率,计算式如下: h_map=argmax P(h|D)=argmax (P(D|h)*P(h))/P(D)=argmax P(D|h)*p(h) (h属于集合H) 最后一步,去掉了P(D),因为它是不依赖于h的常量。 5.极大似然假设 在某些情况下,可假定H中每个假设有相同的先验概率,这样式子

相关主题
文本预览
相关文档 最新文档