大家好,我是机器学习小白毛同学,今天本篇文章来和大家一起学习一下决策树的原理部分
其实和大家一样,我最不喜欢看的,就是算法原理部分,因为这一部分充满了公式、符号
可是,“小白”想要变“怪兽”就不可能绕过这一部分
不过毛同学再写文章的时候会尽量用易懂的话语,具体的例子来让原理不那么难懂
写的不合适的地方,多多包涵啦
本文目录:
1.1 决策树是如何工作的
1.2 构建决策树
1.2.1 ID3算法构建决策树
1.2.2 简单实例
1.2.3 ID3的局限性
1.3 C4.5算法 & CART算法
1.3.1 修改局部最优化条件
1.3.2 连续变量处理手段
1.1 决策树是如何工作的
决策树(Decision Tree)是一种非参数的有监督学习方法,它能够从一系列有特征和标签的数据中总结出决策规则,并用树状图的结构来呈现这些规则,
以解决分类和回归问题。决策树算法容易理解,适用各种数据,在解决各种问题时都有良好表现,尤其是以树模型为核心的各种集成算法,在各个行业和领域都有广泛的应用。
上面的话是不是似懂非懂的?没关系,我们再进一步解释。
决策树算法的本质是一种图结构。
它好比就是一个很乖巧的“秘书”。
我们只要不断问他问题,我们就能得到我们想要的答案。
如果说上面的解释,你还是不懂。
那就放弃吧(狗头)
那我们来看个具体的例子吧
比如说,来看看下面这组数据集
直到没有更多的特征可用,或整体的不纯度指标已经最优,决策树就会停止生长。
写在后面:
本文参考教程:菜菜的sk-learn课程
如有写的不合适,亦或是不精确的地方,望读者多包涵