触点数字孪生,揭秘它的独特魅力
2634
2022-09-07
随机森林的优点和缺点_参数
随机森林的优点和缺点_参数
参数:
需要调节的重要参数有 n_estimators 和 max_features, 可能还包括预剪枝选项(如 max_depth)。 n_estimators:森林中数的个数 max_depth : integer或者None。数的最大深度 max_features 决定每棵树的随机性大小,较小的 max_features 可以降低过拟合。
一般来说,好的经验就是使用默认值: 对于分类,默认值是 max_features=sqrt(n_features); 对于回归,默认值是 max_features=n_features。增大 max_features 或 max_leaf_nodes 有时也可以提高性能。它还可以大大降低用于训练和预测的时间和空间要求
优点、 缺点和参数。 用于回归和分类的随机森林是目前应用最广泛的机器学习方法之一。 这种方法非常强大,通常不需要反复调节参数就可以给出很好的结果,也不需要对数据进行缩放
性能好: 随机森林拥有决策树的所有优点,同时弥补了决策树的一些缺陷。仍然使 用决策树的一个原因是需要决策过程的紧凑表示。基本上不可能对几十棵甚至上百棵树做出详细解释,随机森林中树的深度往往比决策树还要大(因为用到了特征子集)。因此,如果你需要以可视化的方式向非专家总结预测过程,那么选择单棵决策树可能更好。虽然在大型数据集上构建随机森林可能比较费时间,但在一台计算机的多个 CPU 内核上并行计算也很容易。如果你用的是多核处理器(几乎所有的现代化计算机都是),你可 以用 n_jobs 参数来调节使用的内核个数
随机性: 随机森林本质上是随机的,设置不同的随机状态(或者不设置 random_state参数)可以彻底改变构建的模型
非常大的数据集,随机森林的表现通常也很好, 训练过程很容易并行在功能强大的计算机的多个 CPU 内核上
缺点: 对于维度非常高的稀疏数据(比如文本数据),随机森林的表现往往不是很好。对于这种数据,使用线性模型可能更合适。
版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。