【机器学习笔记】Decision Trees（决策树）-蒲公英云

【机器学习笔记】Decision Trees（决策树）

向右看齐 2023-05-29 14:26 122阅读 0赞

内容概述

通俗地讲，决策树提出一个问题，然后根据回答者的答案将回答者区分。
决策树图中，最上面的只有指出箭头的结点称为“根结点”，中间既有指入又有指出的结点称为“内部结点”，下方只有指入箭头的绿色结点称为“叶结点”。
那么决策树应该如何建立呢？
根结点该如何选择？
作出每个特征的树状图后，通过算法计算出每个特征与心脏疾病的相关性。
我们将使用“Gini（基尼）”来比较它们谁更不纯。
将根结点确定下来后，确定后续结点同样需要使用Gini不纯系数，并确保每个结点的不纯系数取最小值。
上述例子中只使用了布尔值（True or Flase），增加数值后又该如何建立决策树呢？
增加选项值后，应该如何计算它的Gini不纯系数？

#

通俗地讲，决策树提出一个问题，然后根据回答者的答案将回答者区分。

watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0hhMWZfQXdha2U_size_16_color_FFFFFF_t_70

决策树图中，最上面的只有指出箭头的结点称为“根结点”，中间既有指入又有指出的结点称为“内部结点”，下方只有指入箭头的绿色结点称为“叶结点”。

watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0hhMWZfQXdha2U_size_16_color_FFFFFF_t_70 1

那么决策树应该如何建立呢？

在下面的例子中，我们打算通过Chest Pain、Good Blood Circulation和Blocked Arteries来预测一名患者是否得心脏疾病。

因此，我们需要在三个特征中选择一个作为根结点。

watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0hhMWZfQXdha2U_size_16_color_FFFFFF_t_70 2

根结点该如何选择？

选择与心脏疾病最相关的特征。

依次对比每个特征列与结果列的每一行数值，作出每个特征的树状图。

比如，某个患者得了Chest Pain，那我们就沿True路径往下走，如果该患者还得了心脏疾病，那么叶结点中的Yes+1，否则No+1。如此类推…..

watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0hhMWZfQXdha2U_size_16_color_FFFFFF_t_70 3

作出每个特征的树状图后，通过算法计算出每个特征与心脏疾病的相关性。

注意：因为没有一个特征树的叶结点是百分百Yes或者No，所以它们都被认为是不纯的（impure）。

watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0hhMWZfQXdha2U_size_16_color_FFFFFF_t_70 4

我们将使用“Gini（基尼）”来比较它们谁更不纯。

（说法有点怪怪的///）

通过Figure 1中的算式来算出两个叶结点的Gini不纯系数；
通过Figure 2中的算式来算出根结点（即某个特征）的Gini不纯系数（不纯系数越低越好）；

这种算法在后面还会用到。

Figure 1： watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0hhMWZfQXdha2U_size_16_color_FFFFFF_t_70 5

Figure 2： watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0hhMWZfQXdha2U_size_16_color_FFFFFF_t_70 6

将根结点确定下来后，确定后续结点同样需要使用Gini不纯系数，并确保每个结点的不纯系数取最小值。

watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0hhMWZfQXdha2U_size_16_color_FFFFFF_t_70 7

watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0hhMWZfQXdha2U_size_16_color_FFFFFF_t_70 8

上述例子中只使用了布尔值（True or Flase），增加数值后又该如何建立决策树呢？

第一步：对数值进行排序；

第二步：计算每个相邻数值间的平均值；

第三步：计算每个平均值的Gini不纯系数；

watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0hhMWZfQXdha2U_size_16_color_FFFFFF_t_70 9

增加选项值后，应该如何计算它的Gini不纯系数？

——计算所有选项组合的不纯系数。

watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0hhMWZfQXdha2U_size_16_color_FFFFFF_t_70 10

【机器学习笔记】Decision Trees（决策树）

#

通俗地讲，决策树提出一个问题，然后根据回答者的答案将回答者区分。

决策树图中，最上面的只有指出箭头的结点称为“根结点”，中间既有指入又有指出的结点称为“内部结点”，下方只有指入箭头的绿色结点称为“叶结点”。

那么决策树应该如何建立呢？

根结点该如何选择？

作出每个特征的树状图后，通过算法计算出每个特征与心脏疾病的相关性。

我们将使用“Gini（基尼）”来比较它们谁更不纯。

将根结点确定下来后，确定后续结点同样需要使用Gini不纯系数，并确保每个结点的不纯系数取最小值。

上述例子中只使用了布尔值（True or Flase），增加数值后又该如何建立决策树呢？

增加选项值后，应该如何计算它的Gini不纯系数？

发表评论取消回复

还没有评论，来说两句吧...

相关阅读

相关监督学习算法中决策树（Decision Tree）

相关 Python遇见机器学习 ---- 决策树 Decision Tree

相关机器学习经典算法——决策树（Decision Tree）

相关机器学习：决策树(decision tree)

相关【机器学习笔记】Decision Trees（决策树）

相关机器学习经典算法详解及Python实现–决策树（Decision Tree）

相关机器学习之决策树（Decision Tree）及其Python代码实现

相关决策树理论--Decision tree

相关机器学习算法系列(3)--决策树(decision-tree)

相关分类算法之决策树(Decision tree)

随便看看

java 开发手册1 与码出高效书一样优秀的编码规范校验插件 Alibaba Java Coding Guidelines 及常见编码规范问题示例

Java基础进阶-输入一个数，打印与之对应的乘法表，99乘法表的灵活版。

【目标跟踪】Tensorflow环境下的deep_sort_yolov3代码实现

集成学习之Stacking详解

三分钟搭建自己的专属博客(基于Docker solo搭建个人博客)

【数据库】数据库系统的结构

教程文章

热评文章

1江湖小白之一起学Python （二）爬取数据的保存

2Java Shiro：简化身份验证和授权的安全框架

3Java中try()catch{}的使用方法

4Swagger注解-@ApiModel 和 @ApiModelProperty

5windows下强制杀死tomcat进程

6uni-app 条形码(一维码)/二维码生成实现

标签列表