集成模型
基本概念
- 集成模型,顾名思义,使用多个模型完成一件任务。找一种策略融合N个模型
- 同质学习器:只改变超参数,本质上使用同一种方法,如用线性回归,但用不同超参数。
- 异质学习器:使用不同的方法,如用决策树+线性回归来决策。
如何集成?
分为平均策略和加权策略,如图所示。
两种策略都是线性的。
为什么可行?
随机森林由多个决策树构成,如图,有四棵决策树。从样本中抽n列特征(少于总数),放到第一个决策树中,再随机抽,放入第二个树,以此类推,进行建模,最后将y进行平均。
每一棵树都可以反馈自己的准确率等情况。
也可以返回每个x对于y的重要性。可以用来剔除等,优化算力。
Stacking集成
- 线性集成包含:
- Bagging——Random forest,是平均集成
- Boosting——GBDT,加权集成
- 非线性集成:
一种非线性集成。Stacking集成