Certo dia, uma amiga, da área de modelagem também, me disse a seguinte frase “se eu colocar signo, e for significativo, então eu uso no meu modelo”. Eu esperaria esse comentário de uma pessoa com zero conhecimento em econometria, ou um terraplanista, mas escutar isso de alguém envolvido com data science, me surpreendeu muito. Convenhamos, achar que a posição dos planetas no momento em que a pessoa nasce, significa algo, é muito leviano. Para não dizer outra coisa.
Em primeiro lugar, é importante entender que se você torturar bem os dados, você encontra todo tipo de variável significativa. Então não se contente com um p-valor abaixo de 0.05 para tirar conclusões. Em segundo lugar, lembre-se das premissas da regressão linear. O erro não pode estar correlacionado com a variável explicativa. Claro que o mês de nascimento pode significar algo. Em um grupo religioso, por exemplo, pode haver meses em que se consome mais algum alimento, ou que se faça jejum, e isso pode afetar a criança que ira nascer. Mas note que a variável “mês de nascimento” é a responsável pela característica da criança. Não o signo. Obviamente, signo se correlaciona com mês de nascimento. Ainda assim, não dá para você argumentar que signo foi a causa. O erro aqui foi se esquecer do viés de variável omitida (ler Viés de Variável Omitida: Um exemplo prático, Viés de Variável Omitida: Prova Matemática e Sobre o viés de variável omitida e estudos observacionais).
Aí você vai me dizer: “cara, não faz diferença, se der certo e eu acertar a característica da criança por causa do signo, está ótimo já”. Sim, pode ser que você acerte. Pode ser até que o modelo seja suficiente. O problema é que, além de você estar demonstrando que a única coisa que você faz é apertar um botão para rodar a regressão, além de você correr o risco de ter encontrado alguma relação espúria, você provavelmente vai cometer erros se houver a necessidade de fazer intervenções.
No ultimo dos três links que eu passei acima, há um caso em que se constatou, equivocadamente, que ingerir álcool é um fator muito importante para longevidade. No entanto, o que era importante era a sociabilidade. Sendo assim, se quiséssemos investir em algo para a viver mais, deveríamos investir nas relações sociais. Não na ingestão de bebidas alcoólicas. Olha como um equívoco bobo gera distorções graves.
Para finalizar, precisamos ter em mente que nosso trabalho com modelagem estatística envolve também entender se a variável faz sentido. Ao menos nos modelos em que seja possível fazer essa supervisão. Caso contrario, não precisamos mais de estatísticos, matemáticos e economistas para fazer modelos. Basta ter alguém para coletar os dados e apertar alguns botões certos.
Espero ter ajudado. Bons estudos!
3 comentários em “Signo no modelo, vale?”