Para criar um modelo de machine learning, temos uma etapa crucial na qual dividimos os dados em treino e teste. Isso ocorre porque queremos avaliar nosso modelo e evitar problemas de overfitting – que você pode ler mais sobre nos posts Overfitting, Explicando overfitting com uma anedota e Overfitting e Cross Validation. Hoje, quero falar de um problema muito comum que ocorre nesta etapa, o “vazamento” de dados para o teste. Bora falar de data leakage, o erro que até os grandes cometem.
Continuar a ler “Data Leakage, o erro que até os grandes cometem”