Um termo bem comum de se encontrar quando o assunto é modelagem é overfitting. É até bonito de se dizer. Overfitting ocorre quando o seu modelo se ajusta perfeitamente aos seus dados, ou seja, o modelo serve só para os dados da base que foi utilizada para a sua construção. O que ocorre é que nesse caso o modelo passa em diversos testes de precisão com o conjunto de dados utilizados, porém, não serve para predição. Em outras palavras, como alguns cientistas de dados costumam dizer, o seu modelo aprender os dados da base treino ao invés de aprender o todo e ser capaz de fazer previsões. A grosso modo, isso ocorre quando você possui uma alta complexidade e muitos parâmetros se comparado com a base de desenvolvimento. Nesse caso, o modelo serve somente para os dados utilizados no desenvolvimento e suas previsões serão fracas.
Como resolver o problema do overfitting?
O mais óbvio é simplificar seu modelo. Parece pouco intuitivo, mas não devemos colocar qualquer parâmetro no modelo, se algum pode ser retirado sem impacto significativo, retire-o.
Faça algumas rodadas de validação cruzada. Algumas divisões aleatórias para a base treino e teste devem auxiliá-lo na identificação de algum problema.
Finalmente, veja se faz sentido o modelo construído. Tente entender como cada parâmetro está impactando a variável resposta. Tenha cuidado com padrões espúrios.
Olá Esdras, tudo bom?
Bom, há várias coisas que podem ser a causa do overfitting, como por exemplo um conjunto de dados muito pequeno, excesso de variáveis, quando o número de variáveis independentes é menor que o número de data points, quando se tenta encaixar dados que se relacionam linearmente num modelo não-linear, etc.
Para evitar overfitting, o método mais comum é dividir seus dados em três partes: treino, teste e validação. É o cross validation mencionado. Há outras técnicas também como regularization, comparação de modelos, etc.
Espero ter ajudado.
Abraços e bons estudos
Honestamente, desconheço esta técnica. Então prefiro não falar besteira.
Abraços!