机器学习

一 对数回归

全称为对数几率回归,其它文献也称为 线性回归。

虽然称为回归,但实际是分类算法。

本质是广义线性模型。通过sigmoid函数(联系函数),将回归模型的预测值与分类的真实标记联系起来。

只适用于二分类?

多分类情况 采用 OvO或者OvR策略解决。

类别不平衡问题 采用 再缩放 (rescaling) 策略解决

  欠采样 -- EasyEnsemble

  过采样 -- SMOTE

二 线性判别分析 LDA

可以适用于多分类。

三 决策树

划分指标

  信息增益 -- ID3

  增益率  -- C4.5

  gini index 基尼指数 -- CART决策树 classification and regression tree的缩写

适用于离散值,也适用于连续值。连续值的策略是取 n-1 个划分点。

也可以处理缺失值,牛逼。起码C4.5是可以的。

过拟合处理策略

  剪枝

    预剪枝

    后剪枝

扩展:多变量决策树

      本质是对变量进行线性组合

      算法:OC1

相关推荐