机器学习基础：朴素贝叶斯小结

kingzone

2020-04-21

关注关注

机器学习基础：朴素贝叶斯小结

1. 全概率公式与贝叶斯公式

\[全概率公式： P(X)=\sum_{k}P(X|Y=Y_k)P(Y_k)\]

\[贝叶斯公式：P(Y_k|X) = \frac{P(X|Y_{k})P(Y_k)}{P(X)}\]

2. 朴素贝叶斯的模型

假设分类模型样本是：

\[(x^{(1)}_1,x^{(1)}_2,...x^{(1)}_n,y_1),(x^{(2)}_1,x^{(2)}_2,...x^{(2)}_n,y_2),...(x^{(m)}_1,x^{(m)}_2,...x^{(m)}_n,y_m)\]

共有m个样本， n个特征， K个类别，定义为\(C_1, C_2, ... , C_K\)。

从样本中可以得到先验分布\(P(Y=C_k)(k=1,2,...,K)\)，也可以根据特定的先验知识定义先验分布。

接着需要得到条件概率分布\(P(X=x|Y=C_k)=P(X_1=x_1,X_2=x_2,...X_n=x_n|Y=C_k)\)，然后求得联合分布：

\[\begin{split}P(X,Y=C_k)&=&P(Y=C_k)P(X=x|Y=C_k) (1) \\ &=&P(Y=C_k)P(X_1=x_1,X_2=x_2,...X_n=x_n|Y=C_k)(2)\end{split}\]

\(P(Y=C_k)\) 可以用最大似然法求出，得到的\(P(Y=C_k)\)就是类别\(C_k\)在训练集中出现的频数。但是条件概率分布\(P(X=x|Y=C_k)=P(X_1=x_1,X_2=x_2,...X_n=x_n|Y=C_k)\)，很难求出，朴素贝叶斯模型在这里做了一个大胆的假设，即X的n个维度之间相互独立，这样就可以得出：

\[P(X_1=x_1,X_2=x_2,...X_n=x_n|Y=C_k)=P(X_1=x_1|Y=C_k)P(X_2=x_2|Y=C_k) \\...P(X_n=x_n|Y=C_k)\]

我们只要计算出所有的K个条件概率\(P(Y=C_k|X=X^{(test)})\),然后找出最大的条件概率对应的类别，这就是朴素贝叶斯的预测。

3. 朴素贝叶斯的推断过程

假设预测的类别\(C_result\)是使\(P(Y=C_k|X=X^{(test)})\)最大化的类别，数学表达式为:

\[\begin{split}C_{result} &= \underset {C_k}{\underset{\underbrace{}}{\operatorname {arg\,max}} }P(Y=C_k|X=X^{(test)}) \\ &= \frac{\underset {C_k}{\underset{\underbrace{}}{\operatorname {arg\,max}} }P(X=X^{(test)}|Y=Ck)P(Y=C_k)}{P(X=X^{(test))}} \\ &=\underset {C_k}{\underset{\underbrace{}}{\operatorname {arg\,max}} }P(X=X^{(test)}|Y=C_k)P(Y=C_k)\end{split}\]

接着利用朴素贝叶斯的独立性假设，就可以得到朴素贝叶斯推断公式:

\[C_{result} = \underset {C_k}{\underset{\underbrace{}}{\operatorname {arg\,max}} }P(Y=C_k)\prod_{j=1}^{n}P(X_j=X_j^{(test)}|Y=C_k)\]

4. 朴素贝叶斯的参数估计

4.1 对于离散值特征

假设服从多项式分布，这样得到\(P(X_j=X^{(test)}_j|Y=C_k)\)是在样本类别\(C_k\)中，特征\(X^{(test)}_j\)出现的频率。即:

\[P(X_j=X(test)_j|Y=Ck)=\frac{m_{kj^{test}}}{m_k} \\其中m_k为样本类别C_k总的特征计数，而m_{kj^{test}}为类别为C_k的样本中，第j维特征X^{(test)}_j出现的计数\]

某些时候，可能某些类别在样本中没有出现，这样可能导致\(P(X_j=X^{(test)}_j|Y=C_k)\)为0，这样会影响后验的估计，为了解决这种情况，引入了拉普拉斯平滑，即此时有：

\[P(X_j=X(test)_j|Y=Ck)=\frac{m_{kj^{test}} + \lambda}{m_k + O_j\lambda} \\其中λ 为一个大于0的常数，常常取为1,O_j为第j个特征的取值个数。\]

4.2 对于非常稀疏的离散值

假设服从伯努利分布，即特征\(X_j\)出现记为1，不出现记为0。即只要\(X_j\)出现即可，不关注\(X_j\)的次数。此时有：

\[P(X_j=X^{(test)}_j|Y=C_k)=P(X_j=1|Y=C_k)X^{(test)}_j+(1?P(X_j=1|Y=C_k))(1?X^{(test)}_j)\\ 其中，X^{(test)}_j取值为0和1。\]

4.3 对于连续值特征

通常假设\(X_j\)的先验概率为正态分布，有：

\[P(X_j=X^{(test)}_j|Y=C_k)= \frac{1}{\sqrt{2\pi\delta^{2}_{k}}}exp(-\frac{(X_j^{(test)} - \mu_k)^2}{2\delta_k^{2}}) \\其中μ_k和σ^2_k是正态分布的期望和方差，可以通过极大似然估计求得。μ_k为在样本类别C_k中，所有X_j的平均值。\\ σ^2_k为在样本类别C_k中，所有X_j的方差。对于一个连续的样本值，带入正态分布的公式，就可以求出概率分布。\]

5. 朴素贝叶斯算法优缺点

优点：

对小规模的数据表现很好，能个处理多分类任务，适合增量式训练，尤其是数据量超出内存时，可以一批批的去增量训练；
对缺失数据不太敏感，算法也比较简单，有稳定的分类效率，常用于文本分类；

缺点：

独立性假设在很多情况下并不成立，在属性个数比较多或者属性之间相关性较大时，分类效果不好。而在属性相关性较小时，朴素贝叶斯性能最为良好。
需要知道先验概率，且先验概率很多时候取决于假设，假设的模型可以有很多种，因此在某些时候会由于假设的先验模型的原因导致预测效果不佳。
由于我们是通过先验和数据来决定后验的概率从而决定分类，所以分类决策存在一定的错误率。
对输入数据的表达形式很敏感。

6. 代码实践

import math
class NaiveBayes:
    def __init__(self):
        self.model = None

    # 数学期望
    @staticmethod
    def mean(X):
        """计算均值
        Param: X : list or np.ndarray
        
        Return:
            avg : float
        
        """
        avg = 0.0
        # ========= show me your code ==================
        avg = sum(X) / float(len(X))
        # ========= show me your code ==================
        return avg

    # 标准差（方差）
    def stdev(self, X):
        """计算标准差
        Param: X : list or np.ndarray
        
        Return:
            res : float
        
        """
        res = 0.0
        # ========= show me your code ==================
        avg = self.mean(X)
        res = math.sqrt(sum([pow(x - avg, 2) for x in X]) / float(len(X)))
        # ========= show me your code ==================
        return res
        
    # 概率密度函数
    def gaussian_probability(self, x, mean, stdev):
        """根据均值和标注差计算x符号该高斯分布的概率
        Parameters:
        ----------
        x : 输入
        mean : 均值
        stdev : 标准差
        
        Return:
        
        res : float， x符合的概率值
            
        """
        res = 0.0
        # ========= show me your code ==================
        exponent = math.exp(-(math.pow(x - mean, 2) /
                              (2 * math.pow(stdev, 2))))
        res = (1 / (math.sqrt(2 * math.pi) * stdev)) * exponent
        # ========= show me your code ==================
        
        return res
        
    # 处理X_train
    def summarize(self, train_data):
        """计算每个类目下对应数据的均值和标准差
        Param: train_data : list
        
        Return : [mean, stdev]
        """
        summaries = [0.0, 0.0]
        # ========= show me your code ==================
        summaries = [(self.mean(i), self.stdev(i)) for i in zip(*train_data)]
        
        # ========= show me your code ==================
        return summaries

    # 分类别求出数学期望和标准差
    def fit(self, X, y):
        labels = list(set(y))
        data = {label: [] for label in labels}
        for f, label in zip(X, y):
            data[label].append(f)
        self.model = {
            label: self.summarize(value) for label, value in data.items()
        }
        return ‘gaussianNB train done!‘

    # 计算概率
    def calculate_probabilities(self, input_data):
        """计算数据在各个高斯分布下的概率
        Paramter:
        input_data : 输入数据
        
        Return:
        probabilities : {label : p}
        """
        # summaries:{0.0: [(5.0, 0.37),(3.42, 0.40)], 1.0: [(5.8, 0.449),(2.7, 0.27)]}
        # input_data:[1.1, 2.2]
        probabilities = {}
        # ========= show me your code ==================
        for label, value in self.model.items():
            probabilities[label] = 1
            for i in range(len(value)):
                mean, stdev = value[i]
                probabilities[label] *= self.gaussian_probability(
                    input_data[i], mean, stdev)
        # ========= show me your code ==================
        return probabilities

    # 类别
    def predict(self, X_test):
        # {0.0: 2.9680340789325763e-27, 1.0: 3.5749783019849535e-26}
        label = sorted(self.calculate_probabilities(X_test).items(), key=lambda x: x[-1])[-1][0]
        return label
    # 计算得分
    def score(self, X_test, y_test):
        right = 0
        for X, y in zip(X_test, y_test):
            label = self.predict(X)
            if label == y:
                right += 1

        return right / float(len(X_test))

from sklearn.naive_bayes import GaussianNB
from sklearn.datasets import load_iris
import pandas as pd
from sklearn.model_selection import train_test_split
iris = load_iris()
X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.2)
clf = GaussianNB().fit(X_train, y_train)
print ("Classifier Score:", clf.score(X_test, y_test))

model = NaiveBayes()
model.fit(X_train, y_train)
print(model.predict([4.4,  3.2,  1.3,  0.2]))
model.score(X_test, y_test)

贝叶斯贝叶斯估计机器学习

安科网

机器学习基础：朴素贝叶斯小结

kingzone

机器学习基础：朴素贝叶斯小结

CONTENTS

1. 全概率公式与贝叶斯公式

2. 朴素贝叶斯的模型

3. 朴素贝叶斯的推断过程

4. 朴素贝叶斯的参数估计

4.1 对于离散值特征

4.2 对于非常稀疏的离散值

4.3 对于连续值特征

5. 朴素贝叶斯算法优缺点

6. 代码实践

kingzone

相关推荐

朴素贝叶斯算法（python）

统计学习方法与Python实现（三）——朴素贝叶斯法

机器学习之朴素贝叶斯分类器

一文读懂贝叶斯推理问题：MCMC方法和变分推断

详解：贝叶斯算法(bayesian)在GCMail反垃圾邮件系统中的应用

27场机器学习面试后，来划个概念重点吧

95后哈佛小哥撰写从零开始的机器学习入门必备，书籍资源已开放

mooc机器学习第六天-K近邻，决策树，朴素贝叶斯分类器简单尝试

机器学习是否需要完整扎实的数学基础？

分类与监督学习，朴素贝叶斯分类算法

11.分类与监督学习，朴素贝叶斯分类算法

机器学习算法原理与实践-朴素贝叶斯（文章迁移）

科学提升认知方法之贝叶斯公式

机器学习算法集锦：从贝叶斯到深度学习及各自优缺点

python机器学习（三）分类算法-朴素贝叶斯

机器学习之朴素贝叶斯

机器学习11- 分类与监督学习，朴素贝叶斯分类算法

10.分类与监督学习，朴素贝叶斯分类算法

机器学习10 11.分类与监督学习，朴素贝叶斯分类算法

11.分类与监督学习，朴素贝叶斯分类算法

kingzone