Data Leakage, o erro que até os grandes cometem

Para criar um modelo de machine learning, temos uma etapa crucial na qual dividimos os dados em treino e teste. Isso ocorre porque queremos avaliar nosso modelo e evitar problemas de overfitting – que você pode ler mais sobre nos posts OverfittingExplicando overfitting com uma anedota e Overfitting e Cross Validation.  Hoje, quero falar de um problema muito comum que ocorre nesta etapa, o “vazamento” de dados para o teste. Bora falar de data leakage, o erro que até os grandes cometem.

Continuar a ler “Data Leakage, o erro que até os grandes cometem”

Classificador Random Forest em Python

Conforme tenho dito nos últimos posts, estou entrando numa fase de voltar a escrever sobre Machine Learning. Logo, não poderia deixar de falar de um dos modelos que ainda vejo como um dos mais utilizados no mercado, que é a Random Forest. Se você nunca ouviu falar desse modelo, recomendo o vídeo do StatQuest Random Forest Part 1. Após ver o vídeo, volte para aprender como rodar uma random forest, como classificador, em Python! Continuar a ler “Classificador Random Forest em Python”