1.随机森林里面的随机是什么意思?
当时回答的是,行随机,列随机。
整理答案如下:
随机选择样本数,随机选择特征,随机选择分类器,建立多颗这样的决策树,然后通过这几棵决策树来投票,决定数据属于哪一类。
2.随机森林在对总体样本中选择一部分样本进行训练的时候,这个过程是不是随机的?
回答:也是随机的
3.做剪枝的时候,用的什么方法呀?
当时回答:基尼指数。(乱回答了属于是)
整理答案如下:
简单的决策树学习的剪枝方法:
决策树的剪枝往往通过极小化决策树整体的损失函数或代价函数实现。
CART生成:
决策树的生成就是递归的构建二叉决策树的过程,对回归树用平方误差最小化准则,对分类树用基尼指数最小化准则,进行特征选择,生成二叉树。
CART剪枝:
CART剪枝算法从“完全生长”的决策树的底端剪去一些子树,使决策树变小(模型变简单),从而能够对未知数据有更准确的预测。CART剪枝算法由两部分组成:1.首先从生成算法产生的决策树T0底端开始不断剪枝,直到T0根节点,形成一个子树序列。然后通过交叉验证法在独立的验证数据集上对子树序列进行预测,从中选择最优子树。
4.讲一讲你在kaggle上的经历。数据集怎么进行特征处理,模型怎么选择的?这些就是具体的项目问题了。
1.简历上的东西,一定要滚瓜烂熟,超级熟悉才行。
2.基础理论知识需要掌握牢固。相关岗位的。
3.岗位需求的知识点,不是必须的(实习来说),但是如果提前就掌握了岗位需求的知识,会跟面试官一个更好的印象。比如面试官建议我下来学一下hadoop
因为这是我第一次面试,我真的一点都没准备。随机森林也是研一上学期看的,亏我还有点印象。所以就是面试之前,做好充分准备,这也是经验教训吧。以后我应该会每次都把面试经验发到leetcode上,就相当于做笔记啦!