决策树分类

决策树是什么

  1. 树:如图,分位根节点、中间结点、叶子结点。
    注意树的深度不算根节点。
    <center>树
  2. 决策树:针对多个指标进行多次划分,最后划分为一类。
    包含二叉树——每一次只划分两类。
    根节点:包含所有样本、划分的属性、划分的阈值。
    内部节点:包含划分后的样本、下一步划分的属性、划分的阈值。
    叶子结点:在这个决策路径下最后包含的样本。
    <center>决策树
    决策树

决策树特点

  1. 支持多分类
  2. 支持输出概率

决策树核心

CART决策树有两个核心:

  1. 如何选择划分的特征?
  2. 如何选择划分的阈值?
  • 贪心策略:每一次划分都要使得两边的子集都足够纯,足够单一。
  1. 使用GINI指数进行判断。
    GINI越小,样本越纯,分的越好。
    <center>gini指数
    gini指数
  2. 如何使用?
    • 比较分类前GINI和分类后GINI加权和,越小越好
    • 贪心策略,多次改变分类条件,让GINI最小
    • 最小化分类后GINI加权和
  3. 数学表达
    如图,多设置几个阈值,排序后遍历,选最小的即可。
    <center>算gini
    算gini

决策树回归

决策树参数

如图。
最大深度:越大,模型越复杂,可以控制欠拟合、过拟合。
简单来讲max开头越大,趋向于过拟合。min开头越大,趋向于欠拟合。

<center>决策树参数
决策树参数