Regressão Linear: Interpretação e Análise dos Resíduos com SAS

Regressão linear foi um assunto bastante comentado quando eu criei este blog. Agora, vamos ver como é fácil rodá-la no SAS e, no mesmo código, fazer uma análise visual dos resíduos. Continuar a ler “Regressão Linear: Interpretação e Análise dos Resíduos com SAS”

Funções em R

Não lembrava que já tinha feito um post sobre funções em R e acabei escrevendo mais este aqui (já aconteceu outras vezes rs). Como já estava pronto, não tinha motivos para deletar. Deixo aqui então um post que serve de complemento ao Funções no R.

Leia mais…

Análise dos Resíduos de uma Regressão Linear

Conforme já foi falado neste blog, os resíduos de uma regressão linear são as diferenças entre os pontos observados e a curva que estimamos. Ou seja, você tem lá valores reais que você observou do fenômeno que está analisando e tem a equação da reta que você estimou através de um método qualquer. A diferença entre esses dois valores é o seu resíduo.

Por exemplo, suponha que você queira saber quanto o imposto sobre bebidas alcoólicas e o limite de velocidade de uma via afetam o número de acidentes. Utilizando um método qualquer, você obtém a equação abaixo.

Onde yi é o número de acidentes na via i, β1 é o imposto sobre bebidas alcoólicas e β2 é o limite de velocidade nesta via.

Se tivermos a avenida XPTO em uma cidade em que o imposto sobre as bebidas é de 20% e o limite de velocidade desta via for 60 km/h, nossa equação nos diz que o número de acidentes da via X deve ser de 100 – 14*0,2 + 0,5* 60 = 127,2.

Observamos que na avenida X, o número de acidentes no mês foi 130. Ou seja, nosso resíduo aqui é de 2,8.

Por enquanto tudo tranquilo, certo?

Agora que já entendemos claramente o que é o resíduo, precisamos saber como analisá-lo. Lembre-se que o resíduo deve ter esperança zero. Colocado de maneira prática, o que você precisa, é plotar os valores o seu resíduo com sua variável resposta e obter este gráfico:

Veja que nossos resíduos estão transitando ao redor de zero e que independente do número de acidentes ser alto ou baixo, os resíduos tem esperança zero. É isso que buscamos para ter um modelo mais preciso possível.

Abaixo mais alguns exemplos de resíduos plotados com as variáveis respostas, note que o gráfico maior a esquerda possui resíduos bem comportados, enquanto os da direita não parecem ter esperança zero e possuem uma tendência, eles variam de acordo com a grandeza da variável resposta:


Leia também: Regressão Linear Simples – Parte 1 e Resíduos de uma Regressão Linear no R

Problemas com R? Que tal começar em Primeiros passos no R Studio!

Erros vs. Resíduos

É comum cometermos o equívoco de chamar erros de resíduos e vice-versa. A definição é próxima mesmo, então não se preocupe se você já cometeu esse erro. Enfim, qual a diferença entre o que chamamos de erros e dos chamados resíduos?

O erro é a diferença entre o valor real, que não observamos, e o valor estimado. Já o resíduo é a diferença entre o valor estimado e o valor observado.

Confuso? Eu sempre achei, então vamos tentar de novo.

Quando realizamos nossa regressão, estamos tentando estimar uma reta que melhor se aproxima do conjunto de pontos que temos observado, mas nós nunca sabemos qual é a reta real que explicaria esse conjunto de pontos. O que nós conseguimos é uma estimativa dessa reta.

Vamos supor que tenhamos uma população onde o peso médio é 70kg e temos um indivíduo retirado aleatoriamente dessa população que pesa 65kg. Então o erro desse indivíduo é -5kg.

Em contrapartida, quando falamos de resíduos, estamos buscando uma estimativa do erro não observado. Nesse caso, estamos falando, por exemplo, de retirar uma amostra aleatória de uma população e tiramos a média amostral. A diferença entre a média amostral e algum indivíduo retirado dela, isso sim é o resíduo!

Facilitou?