简介
信息增益是信息熵理论中一个关键的概念。在决策树算法中,它用于确定应该选择哪些特征来构建决策树,通过衡量不同特征对样本分类的贡献程度。信息增益具体表示了特征的某个取值对整个样本集合的信息熵降低程度。
信息增益含义
信息增益是评估使用特定特征划分数据集所带来的收益大小。在决策树算法中,它用来选择当前节点分支出去的最佳特征,递归地建立树的子分支。通常在特征选择时,会计算每个候选特征的信息增益,选取信息增益最大的特征作为当前节点的划分标准。信息增益的计算公式
信息增益的计算涉及熵的概念,熵是用来衡量样本集合的不确定性。假设$D$表示总的样本集合,$C_k$是样本集合中的第$k$个类别,$D_k$是属于类别$C_k$的样本子集,$p_k=|D_k|/|D|$表示样本属于类别$C_k$的概率,则总体熵可表示为:当当前节点分裂后,样本将被分配到不同的子节点中。若特征属性$A$具有$V$个可能的取值${a_1,a_2,dots,a_V}$,$D^v$代表划分到属性$A$第$v$个取值的样本子集,使用该特征划分数据的信息增益可表示为:权重$frac{|D^v|}{|D|}$表示第$v$个属性值对应的样本占总样本数的比例,$Ent(D^v)$表示子集中样本的信息熵。
相关讨论
推荐内容
视频
下载
信息增益C++程序
C4.5算法进行决策树生成 以信息增益最大的属性作为分类属性
基于改进信息增益的垃圾邮件过滤研究
基于模糊集理论和信息增益分析技术的分类算法
期刊论文:一种基于互信息增益率的新属性约简算法
现代控制工程 (第四版)
电子技术学习方法和分析思路轻松入门 (胡斌)
通信原理(第7版) (樊昌信、曹丽娜)
自动控制原理 (王建辉 顾树生 主编)
自动控制原理(第三版) (王万良)
控制系统设计指南 (埃利斯)
射频电路基础 (赵建勋,邓军)
通信电子线路(第三版) (严国萍)
快乐机器学习 ([新加坡] 王圣元)
智能传感器原理、设计与应用 (何金田,刘晓旻)
机器学习的数学原理和算法实践 (大威)