基本概念

  • 集成模型,顾名思义,使用多个模型完成一件任务。找一种策略融合N个模型
  • 同质学习器:只改变超参数,本质上使用同一种方法,如用线性回归,但用不同超参数。
  • 异质学习器:使用不同的方法,如用决策树+线性回归来决策。

如何集成?

分为平均策略和加权策略,如图所示。
两种策略都是线性的。

<center>集成学习策略
集成学习策略

为什么可行?

随机森林由多个决策树构成,如图,有四棵决策树。从样本中抽n列特征(少于总数),放到第一个决策树中,再随机抽,放入第二个树,以此类推,进行建模,最后将y进行平均。
每一棵树都可以反馈自己的准确率等情况。
也可以返回每个x对于y的重要性。可以用来剔除等,优化算力。

<center>随机森林
随机森林

Stacking集成

  1. 线性集成包含:
    • Bagging——Random forest,是平均集成
    • Boosting——GBDT,加权集成
  2. 非线性集成:
    一种非线性集成。
    <center>Stacking集成
    Stacking集成