目录

机器学习复习笔记之决策树

决策树算法在机器学习中算是很经典的一个算法系列了。它既可以作为分类算法,也可以作为回归算法,同时也特别适合集成学习比如随机森林,更重要的是CART树是学习GBDT,XGBoost的基础。因此,本文作为复习笔记,记录决策树的理论知识。

回归与分类

在机器学习中,经常会遇见两种问题:回归与分类。基本上所有的机器学习任务就是处理回归与分类,所谓的分类问题就是使用已知的被分成多个类别(离散)的训练数据,训练机器学习模型,然后对于新的数据,使用模型进行分类,给出每个样本所属的类别,而回归问题就是将已知的连续变量的训练数据拟合成一个模型函数,对于新的数据,使用模型函数来预测其对应的结果。

这两者的区别就在于输出变量的类型。回归是定量输出,或者说是预测连续变量;分类问题书定量输出,预测离散变量。https://i.loli.net/2019/03/16/5c8cad2947b0a.png

如何区分分类与回归,看的不是输入,而是输出。举个例子,预测明天晴或是雨,是分类问题,而预测明天温度,则是回归问题。

回归树与分类树

在决策树中,也有回归树与分类树的概念。在二者的区别中,回归树是采用最大均方误差来划分节点,并且每个节点样本的均值作为测试样本的回归预测值;而分类树是采用信息增益或者是信息增益比来划分节点,每个节点样本的类别情况投 票决定测试样本的类别。我们可以看到,这两者的区别主要在于划分方式工作模式。回归树采用最大均方误差这种对数据精确处理的方式,输出连续变量,可以更好地给我们的数据进行预测;而分类树使用一个非常宽泛的信息增益这个变量,更好的从整体把握这个数据集的分类

信息熵

1970年代,一个叫昆兰的大牛找到了用信息论中的熵来度量决策树的决策选择过程,方法一出,它的简洁和高效就引起了轰动,昆兰把这个算法叫做ID3。

信息论中的熵表示的是不确定性的度量。越不确定的事物,它的熵就越大。

具体的,随机变量X的的表达式如下:

$$H(X) = -\sum_{i=1}^{n}p_i log(p_i) \tag{1}$$

其中n代表Xn种不同的离散取值。而$p_i$代表了X取值为i的概率,log为以2或者e为底的对数。

联合熵描述的是一对随机变量X和Y的不确定性:

$$H(X,Y) = -\sum_{i=1}^np(x_i,y_i)log(p(x_i,y_i)) \tag{2}$$

条件熵是指:在一个随机变量Y已知的情况下,另一个随机变量X的不确定性:

$$H(X|Y) = -\sum_{i = 1}^np(x_i,y_i)log(p(x_i|y_i)) \tag{3}$$

H(X)度量了X的不确定性,条件熵H(X|Y)度量了我们在知道Y以后X剩下的不确定性,那么H(X)-H(X|Y)呢?它度量了X在知道Y以后不确定性减少程度,这个度量我们在信息论中称为互信息,记为I(X,Y)。在决策树ID3算法中叫做信息增益。ID3算法就是用信息增益来判断当前节点应该用什么特征来构建决策树。信息增益大,则越适合用来分类。

https://i.loli.net/2019/03/16/5c8cae5151d93.png

用上面这个图来表示之前的熵公式。左边的椭圆代表H(X),右边的椭圆代表H(Y),中间重合的部分就是互信息或者信息增益I(X,Y), 左边的椭圆去掉重合部分就是H(X|Y),右边的椭圆去掉重合部分就是H(Y|X),两个椭圆的并就是H(X,Y)

ID3算法

ID3算法的核心实在决策树上的各个节点上用 信息增益 选择特征。在ID3算法生成树的时候,是先计算所有备选特征的信息增益,然后再选择下一个节点是哪一个特征。

下面是《统计学习方法》的例子

https://i.loli.net/2019/03/16/5c8cafd93f53d.png

https://i.loli.net/2019/03/16/5c8cb04d8ba96.png

ID3算法步骤:

1
2
3
4
5
6
7
8
输入:训练数据集D,特征集A,阈值e   输出:决策树T

1)D中所有实例属于同一类Ck,则T为单结点树,并将Ck作为该结点的类标记,返回T
2)A=空集,则T为单结点树,并将D中的实例数最大的类Ck作为该结点的类标记,返回T
3)否则,计算A中各特征对D的信息增益比,选择信息增益最大的特征Ag
4)如果Ag的信息增益小于阈值e,则置T为单结点树,并将D中实例数最大的类Ck作为该结点的类标记,返回T
5)否则,对Ag的每一个可能值ai;依Ag=ai将D分割为若干非空子集Di;将Di中实例数最大的类作为标记,构建子结点,由结点及其子结点构成树T,返回T
6)对第i个子结点,以Di为训练集,以A-{Ag}为特征集,递归调用(1~5),得到子树Ti,返回Ti

ID3的缺点:  

  • ID3没有考虑连续特征,比如长度,密度都是连续值,无法在ID3运用。这大大限制了ID3的用途。
  • ID3采用信息增益大的特征优先建立决策树的节点。很快就被人发现,在相同条件下,取值比较多的特征比取值少的特征信息增益大。比如一个变量有2个值,各为1/2,另一个变量为3个值,各为1/3,其实他们都是完全不确定的变量,但是取3个值的比取2个值的信息增益大。
  • ID3算法对于缺失值的情况没有做考虑
  • 没有考虑过拟合的问题

ID3 算法的作者昆兰基于上述不足,对ID3算法做了改进,这就是C4.5算法。

C4.5算法

ID3算法有四个主要的不足,一是不能处理连续特征,第二个就是用信息增益作为标准容易偏向于取值较多的特征,最后两个是缺失值处理的问和过拟合问题。C4.5算法中改进了上述4个问题。

问题一:连续特征处理:

C4.5的思路是将连续的特征离散化。比如m个样本的连续特征A有m个,从小到大排列为a1,a2,...,am,则C4.5取相邻两样本值的平均数,一共取得m-1个划分点,其中第i个划分点Ti表示为:$Ti = \frac{a_i+a_i+1}{2}$。对于这m-1个点,分别计算以该点作为二元分类点时的信息增益。选择信息增益最大的点作为该连续特征的二元离散分类点。比如取到的增益最大的点为$a_t$,则小于$a_t$的值为类别1,大于$a_t$的值为类别2,这样我们就做到了连续特征的离散化。要注意的是,与离散属性不同的是,如果当前节点为连续属性,则该属性后面还可以参与子节点的产生选择过程。

问题二:,信息增益作为标准容易偏向于取值较多的特征的问题:

C4.5使用信息增益比的变量$I_R(X,Y)$,它是信息增益和特征熵的比值。表达式如下:

$$I_R(D,A)=\frac{I(A,D)}{H_A(D)} \tag{4}$$

其中D为样本特征输出的集合,A为样本特征,对于特征熵$H_A(D)$, 表达式如下:

$$H_A(D)=-\sum_{i=1}^n \frac{D_i}{D}log_2\frac{D_i}{D}\tag{5}$$

其中n为特征A的类别数, Di为特征A的第i个取值对应的样本个数。D为样本个数。

特征数越多的特征对应的特征熵越大,它作为分母,可以校正信息增益容易偏向于取值较多的特征的问题。

通过对比信息增益公式与信息增益比公式,我们可以看出,信息增益就是特征与训练集的互信息,或者说原来数据集的不确定性与确定其中一个特征之后的不确定性之差,称做信息增益。也就是确定这个特征所引入的信息量。而信息增益比则是这一个互信息与D的不确定性的比值

问题三:缺失值处理:

对于缺失值,主要需要解决的是两个问题,一是在样本某些特征缺失的情况下选择划分的属性,二是选定了划分属性,对于在该属性上缺失特征的样本的处理。

对于第一个子问题,对于某一个有缺失特征值的特征A。C4.5的思路是将数据分成两部分,对每个样本设置一个权重(初始可以都为1),然后划分数据,一部分是有特征值A的数据D1,另一部分是没有特征A的数据D2. 然后对于没有缺失特征A的数据集D1来和对应的A特征的各个特征值一起计算加权重后的信息增益比,最后乘上一个系数,这个系数是无特征A缺失的样本加权后所占加权总样本的比例。

对于第二个子问题,可以将缺失特征的样本同时划分入所有的子节点,不过将该样本的权重按各个子节点样本的数量比例来分配。比如缺失特征A的样本a之前权重为1,特征A有3个特征值A1,A2,A3。 3个特征值对应的无缺失A特征的样本个数为2,3,4.则a同时划分入A1,A2,A3。对应权重调节为2/9,3/9,4/9

问题四:过拟合问题:

C4.5引入了正则化系数进行初步的剪枝。

C4.5算法步骤:

1
2
3
4
5
6
7
8
输入:训练数据集D,特征集A,阈值e   输出:决策树T

1)D中所有实例属于同一类Ck,则T为单结点树,并将Ck作为该结点的类标记,返回T
2)A=空集,则T为单结点树,并将D中的实例数最大的类Ck作为该结点的类标记,返回T
3)否则,计算A中各特征对D的信息增益比,选择信息增益比最大的特征Ag
4)如果Ag的信息增益小于阈值e,则置T为单结点树,并将D中实例数最大的类Ck作为该结点的类标记,返回T
5)否则,对Ag的每一个可能值ai;依Ag=ai将D分割为若干非空子集Di;将Di中实例数最大的类作为标记,构建子结点,由结点及其子结点构成树T,返回T
6)对第i个子结点,以Di为训练集,以A-{Ag}为特征集,递归调用(1~5),得到子树Ti,返回Ti

C4.5的缺点:

  • 由于决策树算法非常容易过拟合,因此对于生成的决策树必须要进行剪枝。剪枝的算法有非常多,C4.5的剪枝方法有优化的空间。思路主要是两种,一种是预剪枝,即在生成决策树的时候就决定是否剪枝。另一个是后剪枝,即先生成决策树,再通过交叉验证来剪枝。
  • C4.5生成的是多叉树,即一个父节点可以有多个节点。很多时候,在计算机中二叉树模型会比多叉树运算效率高。如果采用二叉树,可以提高效率。
  • C4.5只能用于分类,如果能将决策树用于回归的话可以扩大它的使用范围。
  • C4.5由于使用了熵模型,里面有大量的耗时的对数运算,如果是连续值还有大量的排序运算。如果能够加以模型简化可以减少运算强度但又不牺牲太多准确性的话,那就更好了。
CART算法

在ID3算法中我们使用了信息增益来选择特征,信息增益大的优先选择。在C4.5算法中,采用了信息增益比来选择特征,以减少信息增益容易选择特征值多的特征的问题。但是无论是ID3还是C4.5,都是基于信息论的熵模型的,这里面会涉及大量的对数运算。

为了减少运算,CART分类树算法使用基尼系数来代替信息增益比,基尼系数代表了模型的不纯度,基尼系数越小,则不纯度越低,特征越好。这和信息增益(比)是相反的。

在分类问题中,假设有K个类别,第k个类别的概率为$p_k$, 则基尼系数的表达式为:

$$Gini(p) = \sum\limits_{k=1}^{K}p_k(1-p_k) = 1- \sum\limits_{k=1}^{K}p_k^2 \tag{6}$$

二类分类问题,计算就更加简单了,如果属于第一个样本输出的概率是p,则基尼系数的表达式为:

$$Gini(p) = 2p(1-p) \tag{7}$$

对于个给定的样本D,假设有K个类别, 第k个类别的数量为$C_k$,则样本D的基尼系数表达式为:

$$Gini(D) = 1-\sum\limits_{k=1}^{K}(\frac{|C_k|}{|D|})^2 \tag{8}$$

对于样本D,如果根据特征A的某个值a,把D分成D1和D2两部分,则在特征A的条件下,D的基尼系数表达式为:

$$Gini(D,A) = \frac{|D_1|}{|D|}Gini(D_1) + \frac{|D_2|}{|D|}Gini(D_2) \tag{9}$$

对比基尼系数表达式和熵模型的表达式,可以发现,相对来说,基尼系数的运算更简单一些,但是其误差却增加了。

https://i.loli.net/2019/03/16/5c8ce46b21589.png

从上图可以看出,基尼系数和熵之半的曲线非常接近,仅仅在45度角附近误差稍大。因此,基尼系数可以做为熵模型的一个近似替代。而CART分类树算法就是使用的基尼系数来选择决策树的特征。同时,为了进一步简化,CART分类树算法每次仅仅对某个特征的值进行二分,而不是多分,这样CART分类树算法建立起来的是二叉树,而不是多叉树。这样一可以进一步简化基尼系数的计算,二可以建立一个更加优雅的二叉树模型。

下面是CART的例子

https://i.loli.net/2019/03/22/5c948366cc126.png

CART分类树对连续和离散特征的处理:

CART分类树连续值的处理问题,其思想和C4.5是相同的,都是将连续的特征离散化。唯一的区别在于在选择划分点时的度量方式不同,C4.5使用的是信息增益比,则CART分类树使用的是基尼系数。

连续特征的处理是:假设m个样本的连续特征A有m个,从小到大排列为a1,a2,...,am,则CART取相邻两样本值的平均数,一共取得m-1个划分点,其中第i个划分点Ti表示为:$Ti = \frac{a_i+a_i+1}{2}$。对于这m-1个点,分别计算以该点作为二元分类点时的信息增益。选择信息增益最大的点作为该连续特征的二元离散分类点。比如取到的基尼系数最小的点为$a_t$,则小于$a_t$值为类别1,大于$a_t$的值为类别2,这样我们就做到了连续特征的离散化。要注意的是,与ID3或者C4.5处理离散属性不同的是,如果当前节点为连续属性,则该属性后面还可以参与子节点的产生选择过程。

离散特征的处理是:不停的二分离散特征。在ID3和C4.5算法中,如果某个特征A被选取建立决策树节点,如果它有A1,A2,A3三种类别,我们会在决策树上一下建立一个三叉的节点。这样导致决策树是多叉树。CART分类树使用的方法不同,他采用的是不停的二分,还是这个例子,CART分类树会考虑把A分成{A1}和{A2,A3}{A1}和{A2,A3}, {A2}和{A1,A3}{A2}和{A1,A3}, {A3}和{A1,A2}{A3}和{A1,A2}三种情况,找到基尼系数最小的组合,比如{A2}和{A1,A3}{A2}和{A1,A3},然后建立二叉树节点,一个节点是A2对应的样本,另一个节点是{A1,A3}对应的节点。同时,由于这次没有把特征A的取值完全分开,后面我们还有机会在子节点继续选择到特征A来划分A1和A3。这和ID3或者C4.5不同,在ID3或者C4.5的一棵子树中,离散特征只会参与一次节点的建立。

CART分类树的算法步骤

1
2
3
4
5
6
7
输入是训练集D,基尼系数的阈值,样本个数阈值。输出是决策树T

1) 对于当前节点的数据集为D,如果样本个数小于阈值或者没有特征,则返回决策子树,当前节点停止递归。
2) 计算样本集D的基尼系数,如果基尼系数小于阈值,则返回决策树子树,当前节点停止递归。
3) 计算当前节点现有的各个特征的各个特征值对数据集D的基尼系数,对于离散值和连续值的处理方法和基尼系数的计算见第二节。缺失值的处理方法和之前的C4.5算法里描述的相同。
4) 在计算出来的各个特征的各个特征值对数据集D的基尼系数中,选择基尼系数最小的特征A和对应的特征值a。根据这个最优特征和最优特征值,把数据集划分成两部分D1和D2,同时建立当前节点的左右节点,做节点的数据集D为D1,右节点的数据集D为D2.
5) 对左右的子节点递归的调用1-4步,生成决策树。

对于生成的决策树做预测的时候,假如测试集里的样本A落到了某个叶子节点,而节点里有多个训练样本。则对于A的类别预测采用的是这个叶子节点里概率最大的类别。

CART回归树的算法步骤

CART回归树和CART分类树的建立和预测的区别主要有下面两点:

1)连续值的处理方法不同

2)决策树建立后做预测的方式不同。

对于连续值的处理,CART分类树采用的是用基尼系数的大小来度量特征的各个划分点的优劣情况。这比较适合分类模型,但是对于回归模型,我们使用了常见的和方差的度量方式,CART回归树的度量目标是,对于任意划分特征A,对应的任意划分点s两边划分成的数据集D1和D2,求出使D1和D2各自集合的均方差最小,同时D1和D2的均方差之和最小所对应的特征和特征值划分点。表达式为:

$$\underbrace{min}{A,s}\Bigg[\underbrace{min}{c_1}\sum\limits_{x_i \in D_1(A,s)}(y_i - c_1)^2 + \underbrace{min}{c_2}\sum\limits{x_i \in D_2(A,s)}(y_i - c_2)^2\Bigg]\tag{10}$$

其中,$c_1$为D1数据集的样本输出均值,$c_2$为D2数据集的样本输出均值。

对于决策树建立后做预测的方式,回归树的输出是用最终叶子的均值或者中位数来预测输出结果。

决策树剪枝

由于决策时算法很容易对训练集过拟合,而导致泛化能力差,为了解决这个问题,我们需要对CART树进行剪枝,即类似于线性回归的正则化,来增加决策树的泛化能力。CART采用的办法是后剪枝法,即先生成决策树,然后产生所有可能的剪枝后的CART树,然后使用交叉验证来检验各种剪枝的效果,选择泛化能力最好的剪枝策略。

也就是说,CART树的剪枝算法可以概括为两步,第一步是从原始决策树生成各种剪枝效果的决策树,第二部是用交叉验证来检验剪枝后的预测能力,选择泛化预测能力最好的剪枝后的数作为最终的CART树。

剪枝的损失函数度量,在剪枝的过程中,对于任意的一刻子树T,其损失函数为:

$$C_{\alpha}(T_t) = C(T_t) + \alpha |T_t| \tag{11}$$

其中,α为正则化参数,这和线性回归的正则化一样。$C(T_t)$为训练数据的预测误差,分类树是用基尼系数度量,回归树是均方差度量。$|T_t|$是子树T的叶子节点的数量。

当α=0时,即没有正则化,原始的生成的CART树即为最优子树。当α=∞时,即正则化强度达到最大,此时由原始的生成的CART树的根节点组成的单节点树为最优子树。当然,这是两种极端情况。一般来说,α越大,则剪枝剪的越厉害,生成的最优子树相比原生决策树就越偏小。对于固定的αα,一定存在使损失函数$C_α(T)$最小的唯一子树。

对于位于节点t的任意一颗子树Tt,如果没有剪枝,它的损失是:$C_{\alpha}(T_t) = C(T_t) + \alpha |T_t|$,如果将其剪掉,仅仅保留根节点,则损失是:$C_{\alpha}(T) = C(T) + \alpha$,当α=0或者α很小时,$C_α(T_t)<C_α(T) $, 当α增大到一定的程度时,$C_{\alpha}(T_t) = C_{\alpha}(T)$。当α继续增大时不等式反向,也就是说,如果满足下式:$\alpha = \frac{C(T)-C(T_t)}{|T_t|-1}$,Tt和T有相同的损失函数,但是T节点更少,因此可以对子树Tt进行剪枝,也就是将它的子节点全部剪掉,变为一个叶子节点T。

CART树的交叉验证策略:如果我们把所有的节点是否剪枝的值α都计算出来,然后分别针对不同的α所对应的剪枝后的最优子树做交叉验证。这样就可以选择一个最好的α,有了这个α,我们就可以用对应的最优子树作为最终结果。

剪枝算法步骤

输入是CART树建立算法得到的原始决策树T。输出是最优决策子树Tα。

算法过程如下:

  • 初始化$α_{min}=∞$, 最优子树集合ω={T}。
  • 从叶子节点开始自下而上计算各内部节点t的训练误差损失函数$C_α(T_t)$(回归树为均方差,分类树为基尼系数), 叶子节点数|Tt|,以及正则化阈值, 更新$α_{min}=α$
  • 得到所有节点的α值的集合M。
  • 从M中选择最大的值$α_k$,自上而下的访问子树t的内部节点,如果$C(T)−C(T_t)|T_t|−1≤α_k$时,进行剪枝。并决定叶节点t的值。如果是分类树,则是概率最高的类别,如果是回归树,则是所有样本输出的均值。这样得到αk对应的最优子树$T_k$
  • 最优子树集合$ω=ω∪T_k$,$ M=M−{α_k}$。
  • 如果M不为空,则回到步骤4。否则就已经得到了所有的可选最优子树集合ω.
  • 采用交叉验证在ω选择最优子树Tα

决策树算法小结

算法 支持模型 树结构 特征选择 连续值处理 缺失值处理 剪枝
ID3 分类 多叉树 信息增益 不支持 不支持 不支持
C4.5 分类 多叉树 信息增益比 支持 支持 支持
CART 分类,回归 二叉树 基尼系数,均方差 支持 支持 支持

决策树的优缺点

优点:

  1. 简单直观,生成的决策树很直观。
  2. 基本不需要预处理,不需要提前归一化,处理缺失值。
  3. 使用决策树预测的代价是$O(log_2m)$。 m为样本数。
  4. 既可以处理离散值也可以处理连续值。很多算法只是专注于离散值或者连续值。
  5. 可以处理多维度输出的分类问题。
  6. 相比于神经网络之类的黑盒分类模型,决策树在逻辑上可以得到很好的解释
  7. 可以交叉验证的剪枝来选择模型,从而提高泛化能力。
  8. 对于异常点的容错能力好,健壮性高。

缺点:

  1. 决策树算法非常容易过拟合,导致泛化能力不强。可以通过设置节点最少样本数量和限制决策树深度来改进。
  2. 决策树会因为样本发生一点点的改动,就会导致树结构的剧烈改变。这个可以通过集成学习之类的方法解决。
  3. 寻找最优的决策树是一个NP难的问题,我们一般是通过启发式方法,容易陷入局部最优。可以通过集成学习之类的方法来改善。
  4. 有些比较复杂的关系,决策树很难学习,比如异或。这个就没有办法了,一般这种关系可以换神经网络分类方法来解决。
  5. 如果某些特征的样本比例过大,生成决策树容易偏向于这些特征。这个可以通过调节样本权重来改善。

参考链接

决策树算法原理(上)

决策树算法原理(下)