机器学习概述

学习资料:《统计学习方法第二版》第一章

一. 机器学习定义

  • 机器学习就是计算机能够利用数据和统计方法提高系统性能的方法。

二. 机器学习分类

  • 机器学习一般可以分为监督学习、无监督学习、半监督学习和强化学习。

三. 机器学习方法三要素

  • 模型+策略+优化算法=机器学习方法

模型

  • 在监督学习中模型就是要学习的条件概率或决策函数,也就是输入空间到输出空间的映射,映射就是模型,模型就是这个映射。其中条件概率对应的是概率模型,决策函数对应的是非概率模型。

策略

  1. 机器学习的目标是从假设空间中找到一个泛化错误较低的“理想”模型,即想找到一个针对这类问题的最优模型。策略就是找到这个理想最优模型的准则!

  2. 常用的策略是损失函数和风险函数。损失函数是用来度量模型一次预测的好坏,风险函数是用来度量平均意义下模型预测的好坏。损失函数和风险函数越小,预测结果越精确。

  3. 常用的损失函数:0-1损失、平方损失函数(常用于回归问题)、交叉熵损失函数(常用于分类问题)、Hinge损失(常用于二分类问题)。

  4. 期望风险(模型的平均损失)、经验风险、结构风险。其中期望风险无法计算,一般采取下面两个策略:
    经验风险最小化策略(最大似然估计)、结构风险最小化策略(最大后验估计)。

  5. 最大似然参数估计(MLE,频率派):由生成的数据结果反推参数\((P(X|\theta))\),假设参数均匀分布(“让数据自己说话”,当先验概率均匀分布时,即无信息先验);
    最大后验概率参数估计(MAP,贝叶斯派):由生成数据结果反推参数,额外要加上先验概率,
    最大后验概率是贝叶斯学派的思想,基础是贝叶斯公式:\(P(\theta|X)=\frac{P(X|\theta) P(\theta))}{P(X)})\)
    最大似然估计和贝叶斯估计可以看作是频率学派和贝叶斯学派对需要估计 的参数 ?? 的不同解释. 当 ?? → ∞ 时,先验分布 ??(??; ??) 退化为均匀分布,称为无信息先验(Non-Informative Prior),最大后验估计退化为最大似然估计。

算法

  • 算法就是具体通过什么计算方法来求解最优模型;机器学习问题最终就变成了最优化的问题。
  • 常用的优化算法:梯度下降(SGD和小批量梯度下降)、早期停止法等。梯度下降算法就是用来最小化损失函数从而得到更优模型。
  • 梯度下降算法思想:通过将对每个参数不停减去“对应参数偏导数*学习速率“来同时更新每个参数,从而达到求得局部最小的函数值。

四. 监督学习的应用

监督学习的应用 主要在三个方面:分类问题、回归问题、标注问题。

  • 分类问题:预测结果为离散值;
  • 回归问题:预测结果为连续值;
  • 标注问题:有关结构化序列的问题,比如NLP中的词性标注等问题,需要考虑到上下文的关系。

相关推荐