随机森林(Random Forest)

使用一组决策树进行预测。

输入

数据：输入数据集
预处理器：预处理方法

输出

学习器：随机森林学习算法
模型：训练过的模型

功能

随机森林是一种用于分类，回归和其他任务的集成学习方法。它最初是由何天琴提出的，然后由莱奥·布雷曼（Leo Breiman，Breiman，2001）和阿黛尔·卡特勒（Adele Cutler）进一步开发。

随机森林 建立一组决策树。每棵树都是从训练数据的引导样本中得到的。在生长单个树时，将长出特征的任意子集（因此使用术语“随机”），从中选择用于拆分的最佳特征。最终模型基于森林中独立生长的树木的多数投票。

随机森林 适用于分类和回归任务。

界面

指定模型名称。默认名称是“随机森林(Random Forest)”。
基本特性：
- 树木数量：指定森林中将包含多少棵决策树。
- 每个拆分考虑的属性数目：指定每个节点多少个随机属性。如果未勾选，则此数字等于数据中属性数的平方根。
- 可重复训练：固定随机种子，从而实现结果的可重复性。
- 平衡类别分布：将类别权重设置为出现频率的反比。
生长控制：
- 单个树的深度：Breiman 最初的建议是在不进行任何预修剪的情况下生长树，但是由于预修剪通常效果很好且速度更快，因此用户可以设置树的生长深度。
- 小于...不要拆分：选择可以拆分的最小子集。
发送报告
勾选 “自动应用” 以自动传送对其他小部件的更改，并在连接学习数据后立即训练分类器。或者，在配置后按 “应用”。

示例

对于分类任务，我们使用 iris 数据集。将其连接到预测(Predictions)。然后，将文件(File)连接到 随机森林(Random Forest) 和树(Tree)并将它们进一步连接到预测(Predictions)。最后，观察两个模型的预测。

对于回归任务，我们将使用 housing 数据。在这里，我们将在测试与评分(Test & Score)中比较不同的模型，即 随机森林(Random Forest) ，线性回归(Linear Regression)和常量预测(Constant)。

参考文献

Breiman, L. (2001). Random Forests. In Machine Learning, 45(1), 5-32. Available here.

反馈问题

文档有问题? 或者有其他意见和建议? 请在本文档的 Github 仓库直接反馈

点我反馈

进入反馈页面不知道如何反馈, 请点击这里