99网
您的当前位置:首页极大似然估计与贝叶斯估计原理及区别V2

极大似然估计与贝叶斯估计原理及区别V2

来源:99网
 极大似然估计与贝叶斯估计原理、区别及应用

1..极大似然估计

极大似然估计是以概率为基础的,并不会考虑先验知识。其代表频率派,认为参数是客观存在的,只是未知而矣。因此,频率派最关心是通过极大似然函数,求参数,然后根据参数,在给定自变量X时,确定Y。参数解法:根据已知,列出关于参数的似然方程,令似然方程取得最大值,从而解得参数值。

例1.我们得到一个中国人口的样本,个数为1000,男女比例为3:2,现在让你估计全国人口的真实比例,你肯定不会估计为男:女=1:0。因为如果是1:0,不可能得到3:2的样本。我们大多很容易也估计为3:2。本例子中所要估计的是男:女=3:2。因为在该比例下,我们所得到的样本男:女=3:2.这种情况才最容易出现。该例子与上面所讲用样本频率来估计整体的思想是一样的。

上面例子用极大似然思想求解过程:

我们要估计的变量是:男(或者女)在总人口中所占的比例。设为p. 目标使得样本所获得的男:女=3:2,该结论尽可能可能实现。设为L。 则:L=P(y1,y2….yn)=p^600(1-p)^400最大。此方程也被称为似然方程。其中yi表示第i词抽样的结果。

对上述方程求导:600*P^599*(1-P)^400-P^600*400*(1-P)^399=0. 解方程可得:P=0.6.

例2.极大似然估计在朴素贝叶斯算法中的应用—对先验概率和条件概率的估

计。

上述思想一般情况解释:我们已有一些数据D={x1,x2,,,xn(}上面例子中男女比例),我们的目的是在给定数据D的条件下,找到一个参数θ使得概率最大。即:

(1)

根据贝叶斯定理有:

所以求(1)就变为求:

因为我们假设条件相互。则;

(2)

我们假设θ是不变的(概率派认为此概率固定不变),另外D是已知条件。

(3)

2.贝叶斯估计

(4)

不同于频率派认为参数固定不变的,而是服从一定的概率分布。所以贝叶斯估计不再采用这样的策略:首先计算出参数,然后根据参数和输入x计算得y。 模型推导:

同样的,目的是在给定数据D的条件下,找到一个参数θ使得概率最大。 因为由参数不是一个固定值,而是满足一定的概率分布。 由全概率公式得:

将(4),(5)带入(2)得:

(5)

(6)

由于θ是满足一定概率分布的变量,所以在计算得时候需要将考虑所有θ取值的情况,以致在计算过程中不可避免的高复杂度。所以计算时候并不把所有的后

验概率p(θ|D)都找出来,而是仍然采用类似于极大似然估计的思想,来极大后验概率(Maximum A Posterior)得到这种简单有效的叫做MAP(极大化后验概率)。

3.极大化后验概率

采用了一种近似的方法求后验概率,这就是最大后验概率。首先我们认为最大

化后验概率的分母仅仅是一个归一化因子,并不是θ的函数(对θ求积分的结果不含θ )。所以最大化后验概率就是最大化分子,即:

(7)

最大后验概率和极大似然估计很像,只是多了一项先验分布,它体现了贝叶斯

认为参数也是随机变量的观点。其中等式右边条件概率的求值按照极大似然估计法。通过上式可以发现,在估计参数中,一个考虑了先验一个没有考虑先验。

4.朴素贝叶斯算法中参数估计

1.使用极大似然估计法估计先验概率和条件概率 推到过程同例一。结论为: 先验概率:

条件概率:

P(X=ajl|Y=ck)=(j)P(X(j)=ajl,Y=ck)p(Y=ck)

NI(xi1N(j)i=ajl,Yi=ck)N/I(Y=c)iki1N

I(xi1NN(j)i=ajl,Yi=ck)ik I(Y=c)i1s.t. j=1,2,3…N;l=1,2,3...Sj;k=1,2,3…K

其中,N为总样本数,j为样本的第j个特征。l为第j个特征可能取的第l

个值,Sj为第j个特征所有可以取的值的个数。K为Y可取值的个数。即xi(j)表示第i

个样本的第j个特征。ajl表示第j个特征取的第l个值。

2.使用贝叶斯估计法估计先验概率和条件概率(这里使用的贝叶斯估计采用极

大后验概率的思想) 由极大似然估计可得到条件概率约束为:

(8)

考虑先验概率:假设先验概率为均匀概率即:p=1/k;则:

pk-1=0 (9)

进行(9)*λ+(8)=0(此公式的由来是极大化后验概率等价于结构风险最小化,(9)*λ可以认为是先验概率做正则项,(8)为似然函数。具体证明见文章“几个证明”中的第二证明题)。计算,有:

所以:

其中,λ为参数,K为Y可取值的个数。

在实际计算过程中,一般取λ为1,做拉普拉斯平滑。 同理得:条件概率的贝叶斯估计为:

P(X(j)=ajl|Y=ck)=P(X(j)=ajl,Y=ck)p(Y=ck)N(j) NI(xi=ajl,Yi=ck)I(Yi=ck)i1NkSJN(j)/i1NkN I(xi=ajl,Yi=ck)SjI(Yi=ck)i1NkSJ/i1NSjk (λ)=0,可以随便取值)

[I(xi=ajl,Yi=ck)]/[SjI(Yi=ck)]

(j)i1i1NN其中,N为总样本数,j为样本的第j个特征。l为第j个特征可能取的第l个值,Sj

为第j个特征所有可以取的值的个数。K为Y可取值的个数。即xi(j)表示第i个样本的第j个特征。ajl表示第j个特征取的第l个值。 上述计算过程参考博客:

5.结论

极大似然估计提供了一种给定观察数据来评估模型参数的方法,即:“模型已定,

参数未知”。即在频率学派中,参数固定了,预测值也就固定了。最大后验概率

是贝叶斯学派在完全贝叶斯不一定可行后采用的一种近似手。如果数据量足够大,最大后验概率和最大似然估计趋向于一致,如果数据为0,最大后验仅由先验决定。

极大似然估计是想让似然函数极大化,而考虑了最大后验概率算法的贝叶斯估计,其实是想让后验概率极大化。主要区别在于估计参数中,一个考虑了先验一个没有考虑先验。

因篇幅问题不能全部显示,请点此查看更多更全内容