Reforçando o uso do R-quadrado: por que o autor usou um R-quadrado baixo?

Já falei sobre o R-quadrado no post Regressão Linear Simples – Parte 3. Ainda assim, o r-quadrado é uma medida que pode ter algumas pegadinhas.

Você verá em muitos artigos científicos os autores buscando algum efeito causal, rodando uma regressão e tirando alguma conclusão mesmo que no output da regressão tenha saído um r-quadrado baixo. Pode isso Arnaldo?

De forma rápida, a regra é clara, pode sim!

De forma mais demorada: O r-quadrado é uma medida de dependência linear entre as variáveis, ele vai te ajudar a entender o quanto seu modelo vai explicar a variável dependente. Você deve interpretá-lo como sendo o percentual da variação da variável resposta que é explicada por um modelo linear.

Você foi lá, fez seu experimento, aleatorização certinha, fez os testes legais, a variável independente tem lá um p-valor legalzinho na regressão, de forma intuitiva faz sentido a causalidade dela, mas chegou em um r-quadrado baixo. E aí, deu ruim?

Não, o r-quadrado vai te ajudar a encontrar um bom modelo, um modelo mais robusto em comparação com um modelo mais simples. Mas ele não vai anular o efeito causal que você obteve, por isso você vai sim encontrar regressões em diversos papers renomados explicando alguma causalidade utilizando regressões com baixo r-quadrado.

Para os que falam inglês, leia também: http://blog.minitab.com/blog/adventures-in-statistics/how-high-should-r-squared-be-in-regression-analysis

Deixe um comentário Cancelar resposta