点击上方“Deephub Imba”,关注公众号,好文章不错过 !做数据处理的都知道,一个 NaN 就能让整个数据清洗流程崩盘。过滤条件失效、join 结果错乱、列类型莫名其妙变成 object——这些坑踩过的人应该都有所体会。而Pandas ...
上面代码生成的数据可能跟原始数据匹配得很好,但是却缺少变化,覆盖不到生产环境可能出现的一些组合。有几种办法可以调节真实度和约束程度。可以换个比随机森林更强或更弱的模型来生成预测,或者调它的超参数。比如随机森林可以调树的最大深度 (max depth) ...