专题 < 信息增益

#信息增益

简介

信息增益是信息熵理论中一个关键的概念。在决策树算法中,它用于确定应该选择哪些特征来构建决策树,通过衡量不同特征对样本分类的贡献程度。信息增益具体表示了特征的某个取值对整个样本集合的信息熵降低程度。

  1. 信息增益含义
    信息增益是评估使用特定特征划分数据集所带来的收益大小。在决策树算法中,它用来选择当前节点分支出去的最佳特征,递归地建立树的子分支。通常在特征选择时,会计算每个候选特征的信息增益,选取信息增益最大的特征作为当前节点的划分标准。

  2. 信息增益的计算公式
    信息增益的计算涉及熵的概念,熵是用来衡量样本集合的不确定性。假设$D$表示总的样本集合,$C_k$是样本集合中的第$k$个类别,$D_k$是属于类别$C_k$的样本子集,$p_k=|D_k|/|D|$表示样本属于类别$C_k$的概率,则总体熵可表示为:Ent(D)=sumk=1ypklog2pkEnt(D)=-sum_{k=1}^{|y|}p_klog_2p_k当当前节点分裂后,样本将被分配到不同的子节点中。若特征属性$A$具有$V$个可能的取值${a_1,a_2,dots,a_V}$,$D^v$代表划分到属性$A$第$v$个取值的样本子集,使用该特征划分数据的信息增益可表示为:Gain(D,A)=Ent(D)sumv=1VfracDvDEnt(Dv)Gain(D,A)=Ent(D)-sum_{v=1}^V frac{|D^v|}{|D|} Ent(D^v)权重$frac{|D^v|}{|D|}$表示第$v$个属性值对应的样本占总样本数的比例,$Ent(D^v)$表示子集中样本的信息熵。

相关讨论
推荐内容