决策树

<< Click to Display Table of Contents >>

当前位置:  深度分析 > 算法 

决策树

Previous pageReturn to chapter overviewNext page

显示/收起隐藏文档

决策树是一种用于对实例进行分类的树形结构。决策树由节点(node)和有向边(directed edge)组成。节点的类型有两种:内部节点和叶子节点。其中,内部节点表示一个特征或属性的测试条件(用于分开具有不同特性的记录),叶子节点表示一个分类。

一旦我们构造了一个决策树模型,以它为基础来进行分类将是非常容易的。具体做法是,从根节点开始,用实例的某一特征进行测试,根据测试结构将实例分配到其子节点(也就是选择适当的分支);沿着该分支可能达到叶子节点或者到达另一个内部节点时,那么就使用新的测试条件递归执行下去,直到抵达一个叶子节点。当到达叶子节点时,我们便得到了最终的分类结果。

拖拽一个数据集和一个决策树节点到编辑区,连接数据集和决策树节点。

ML37

 

决策树模型的配置

添加决策树模型到实验后,可通过右侧的“配置项目”页面,对模型进行设置。

【分裂方法】包含信息增益和Gini系数。

信息增益:划分前后,子集纯度的提升值。

Gini系数:在样本集合中一个随机选中的样本被分错的概率。

【分裂节点最小样本数】样本数小于该值该节点将不进行分裂。默认值20。

【叶节点最小样本数】样本数小于该值,该分支将被剪除。默认值7。

【复杂度参数】每次分裂会计算一个复杂度,当复杂度大于该参数值不再进行分裂。默认值0.01。

【最大深度】决策树的最层次数。默认值6。

【交叉验证】通过交叉验证可以得到最优的方程。默认值是10。

【因变量】从下拉列表中选出需要作为因变量的字段。任何一个系统(或模型)都是由各种变量构成的,当我们分析这些系统(或模型)时,可以选择研究其中一些变量对另一些变量的影响,那么我们选择的这些变量就称为自变量,而被影响的量就被称为因变量。

【自变量】从选择列对话框中选出需要作为自变量的字段。

 

运行实验模型

当用户完成模型的配置后,点击决策树节点,右键菜单中选择“运行”,即可运行该模型,开始运行后,编辑区右上方开始计算运行时间。你也可以直接点击编辑区上方的“运行全部”来运行你所设置的实验模型。

运行成功后,会弹框输出模型结果,点击收缩图标,查看节点状态,显示节点成功,如下图所示。

tree

如果运行失败,节点会提示失败,鼠标悬浮在节点上可查看失败原因,如下图所示。

treefail

 

查看模型结果

决策树模型运行成功后,会弹框输出模型结果,自动切换到“结果展示”页面,查看实验模型的结果,再次运行时则不会自动切换,可以手工切换至结果展示页面。

树形结果

分类结果有两种,二分类和多分类。当因变量只有两个不同值时是二分类;当因变量有多于两个不同值时是多分类。节点最上方是节点编号。节点内有两行,第一行是该节点最终分类;当为多分类时第二行是该节点各种分类的概率值,当为二分类时第二行是该节点是主分类的概率值。yes和no代表是否满足条件,来确定分支方向。节点颜色代表纯度。

二分类树形结果展示如下:

ML38

注意:主分类是绿色节点,蓝色节点的5/54表示Iris-versicolor是Iris-virginica的概率值。

多分类树形结果展示如下:

ML39

点击放大按钮,可放大图片以更清晰的查看图片。

       

节点分类情况

列出所有叶子节点的信息。

ML40

【节点编号】叶子节点的编号。

【类别】叶子节点的类别。

【判别条件】从根部到该叶子节点的判别条件。

【节点样本数】叶子节点的样本数。

【误分样本数】错误分类的样本数。

【复杂度参数】每个叶子节点的复杂度参数。

 

混淆矩阵

预测结果的情形分析表,当有数据分区时还可查看验证集的分析表。

横向表头是真实值,纵向表头是预测值。整数值代表样本个数,百分数是样本个数占总样本个数的比例。精确度为真实值和预测值相同的比例总和。

ML41

 

保存为训练模型

决策树模型运行成功后,可通过连接“保存为训练模型”节点将模型保存。只有将模型保存为训练模型,才可以在制作报告模块进行可视化的应用。在左侧训练模型的目录下,可以查看决策树训练模型

 

保存为PMML文件

当模型节点训练完成后会生成与之对应的PMML文件,用户可通过连接保存为PMML文件节点,选择“保存为PMML文件”,将生成的PMML文件导出到本地,进而用于其他的平台使用。

 

决策树节点重命名

在决策树节点的右键菜单中,选择“重命名”,可以对节点进行重命名。

 

删除决策树节点

在决策树节点的右键菜单中,选择“删除”或者点击键盘 delete 键进行删除,能够删除节点以及节点的输入、输出连线。

 

刷新决策树节点

在决策树节点的右键菜单中,选择“刷新”,可以更新同步数据或者参数信息。