深入浅入详解的最(极)大似然估计

1第一个问题:最大似然估计是什么?从分类上来说属于概率论中的点估计方式。

2由Fisher这个人才在1912年重新提出,最早提出还是数学王子高斯。不过准确的说他属于数理统计的范畴。

3概率论和数理统计是互逆的思想过程。概率论可以看成是由因推果,数理统计则是由果溯因。互为逆思考的过程。

4正如我们提到的数学,不在于眼花缭乱的公式提炼,首先应该每一个细节的意义,这个是最终要的。是精华部分。

5似然估计(有的教材叫拟然估计)。就看英文名likelihood estimate(LE),而likelihood的意思是可能性。知道一个现象,他可能是由什么因引起的。概念性的解释一下:在传统概率学派中假定的是概率分布的参数固定,随机样本。那么我们该如何谈过样本去确定这个概率分布的参数呢?这里就需要用到似然估计的方法了。也就是说,样本出现后,反推模型参数值,而这个参数值有多种可能性(M,最Max,最大的可能性。最大似然估计也叫Max likelihood estimate MLE)。

举个例子,假设我们有很多块西瓜皮,瓜皮的纹路分为清洗、稍微模糊、模糊,现在我们的目的就是通过瓜皮去推断西瓜的成熟程度(瓜青,瓜烂,瓜熟)。

但是现实生活中,我们的关注点一般都只希望得到最好的参数(也就是希望当前瓜皮所对应的西瓜最大可能成熟程度),也就是说,我们只希望得到那个使得样本发生可能性最大的参数,其余低可能性的我们不考虑。所以通俗来说,最大似然 ======>>>最有可能的情况。

6案例1:加入有一个管子,里面有黑白两种颜色的球,数目多少不知道,两种颜色比例也不知道,我们想知道罐中白球和黑球的比例,但我们不能把罐子中的球全部拿出来数(球太多了,耽误我玩儿dota)。现在我们可以每次任意从已经均摇一摇的罐子中拿出一个球来,记录求的颜色,然后把拿出来的球再放回罐子中。这个过程可以重复,我们用以记录球的颜色来估计罐子中的黑白球的比例。加入我们前面的一百次重复记录中,有60次是白去,请问罐子的白球所占的比率最优可能是多少?

答案:70%,如果你的答案和上面一样,恭喜你,你已经用了最大似然估计了。

解:

我们用随机X来表示所抽取球的颜色,则X=1表示白球;X=0表示黑球,那么X服从伯努利分布b(1,p),(伯努利分布也叫二项分布,非黑即白的分布形式)其中p是箱子中白球的比例,抽出100个球得样本x1,x2,x3....,xn,这批观测值的概率表示为如下:

L(p),叫做时间的联合概率(我们知道之前说的概率的条件叫独立事件,如果连续性发生的时间,连续性,也叫连续数据,不同于离散型的数据)

L(p) = P (X1 = x1, ... , X100 = x100 ; p)

= P(x1;p) * p(x2;p) * ... * p(x100;p)

=p70(1-p)30

根据最大似然的思想,我们应该选择p使得上面的公式值是最大的,讲上式对p求导,并零这个导函数为0,(这里解释一样,为什么使得导函数为0,求导的过程就是求极限的斜率,是属于极限的思想,如果这个极限趋近于0,肯定是有一个值为0了)。

求导:∂L(p)/∂p = 70/p-30/1-p=0 , p=70/100=0.7

(注:这里求导用到了一个复合函数的求导过程:三部曲:分层(从外向内分解成基本函数用到中间变量);层层求导;做积分还原。常用的积分求导如下:

y = 5dy = 0

y=x4 dy= 4x3

y=x-2dy = -2x-3=-2/x3

y=2xdy = 2xln2

7这里是伯努利分布,也就是0和1的情况,如果情况不知一种,如果情况如果是4种呢?

3,1,3,0,3,1,2,3

(1)最大似然函数的累乘形式。

3的情况出现4次,因此(1-2p)4

1的情况出现2次,因此(2p(1-p)2

0出现的情况1次,因此p2

2出现的情况1次,因此p2

(2) 把这些累乘起来

L(p) = (1-2p)4(2p(1-p))2p2p2

(3) 整理一下

4p6(1-p)2(1-2p)4

(4) 比较方便的性质求复合函数求导,可以取对数形式。

ln4 + 6lnp +2ln(1-p)+4ln(1-2p)

(5) 求导

6/p - 2/1-p-8/(1-2p) = 0,求出p

8这里用了似然函数的通项式

还是7的题目,

X ~ (0123)

p22p(1-p) p21-2p

上面的平方就是出现的次数。专业点儿的说叫分布律。

https://www.bilibili.com/video/av15944258/?from=search&seid=1390651891042326004