随机森林算法的秘密
点击上方关注,All in AI中国
你了解随机森林算法吗?你对随机森林算法了解到了怎样的一个程度?如果你不甚了解或者某一地方存有疑惑,那么这篇文章你一定不能错过。
本文分为六个部分:
- 什么是随机森林算法?
- 随机森林算法在生活中的具体应用
- 随机森林算法是如何工作的?
- 随机森林算法的科学性
- 随机森林一些应用方面
- 随森林算法的一些利弊
什么是随机森林算法?
随机森林算法是用于分类和回归问题的常用算法。在机器学习中,随机森林是一个包含多个决策树的分类器, 并且其输出的类别是由个别树输出的类别的众数而决定的。
假设一个训练集为[A,B,C,D],对应的标签是[R1,R2,R3,R4]。
随机森林创建三个决策树的子集输入,例如
树1=[A,B,C]
树2=[A,B,D]
树3=[B,C,D]
最后,基于每个决策树节点的多数票进行预测。
在随机Forrest算法中,为了建立多个决策树,我们常使用的算法有:信息增益、熵和增益。
一些生活中的具体应用
假设我们想买一只智能手表,我们会像身边的朋友征求意见。他会问你,你喜欢哪种手表,并问你可以承受的价位。基于以上的问题,我们的朋友会做出恰当的推荐。而中间的这个过程就是对决策树(随机森林算法)的一种具体的、生动的应用。
我们一般会想征求更多朋友的意见,以便获得更加全面的参考。
你应该知道以下要点:
在上面的实例中,朋友根据你的要求给出了他们的答案。你在众多的答案中选择了一个最符合你心意的,并买了那款智能手表。而这一系列的步骤,就是对随机森林算法的具体应用。
随机森林算法是如何工作的?
我们的模型中会有很多棵树,每一棵树都代表着不同的分裂。
随机森林算法有两个阶段,一个是随机森林生成阶段,另一个阶段是从第一阶段创建的随机森林分类器中进行预测。
训练步骤:
在决策树中进行"多数票"表决。
伪码:
每棵树的生长规划如下:
- 假设训练集中的样本数为N,我们现在从这N个样本中进行随机抽取。如果样本是输入变量,那么替换后的样本将作为树生长的训练集。
- 如果存在M个输入变量或特征,并指定一个数字m<M。我们需要在每个节点上随机从M中选择m个变量,m将作为M上的最佳分割节点。
- 每棵树都尽可能地生长,没有修剪。
通过对n棵树的预测来得出新的预测数据。
Scikit随机森林
第一部分:数据预处理
第二部分:随机森林分类器模型的建立
第三部分:预测和精度结果
随机森林的应用
银行业:
随机森林算法在银行方面的主要应用是用来创立用户的诚信档案。方便诚信用户进行大金额贷款并对失信用户做出一系列制裁。
医学:
随机森林算法既可以识别药物成分的正确组合,也可以通过分析病人的病历来识别病人可能患哪种疾病。
股票市场:
随机森林算法可以用来预测股票的涨跌趋势。
电子商务:
随机森林算法可以根据相似客户的购买经历预测某客户是否喜欢该产品。
随机森林算法的利弊
优点:
- 随机森林也可用于分类和回归问题。
- 处理缺失值并保持丢失数据的准确性。
缺点:
- 有利于分类,但不利于回归,因为不能预测超出范围的数据。
- 你很难控制模型的损失。