Regressão Linear Múltipla

A diferença para a regressão linear simples é que a palavra múltipla aqui faz referência às múltiplas variáveis explicativas, ou seja, teremos duas ou mais variáveis independentes explicando nossa variável dependente, também chamada de variável resposta.

Colocando de uma forma bem simples, lembra que tínhamos uma equação da reta? Aquela equaçãozinha y = a*x + b? Então, agora a diferença é que temos mais x, que serão acompanhados de mais a:

Ou seja, temos um monte de x para explicar nosso y.

E aí você leu e releu, mas…

CALMA! Eu prometi estatística e econometria fácil, e a gente vai ter! Vamos tentar enxergar através de um exemplo:

Recapitulando, uma regressão linear simples é a equação de uma reta, onde o valor de y é o valor de algo que queremos explicar, e o valor de x é o que vai nos ajudar a explicar y. Até aí tranquilo, você vai observar certos valores e tenta obter uma equação que vai mostrar, dado esses valores, qual é o valor do y que você busca.

Por exemplo, digamos que a nota do aluno seja afetada pela distância da casa dele até a escola e o valor da sua mesada. Se o aluno recebe uma baita mesada, ele é mais feliz, ele come melhor, ele está mais disposto a estudar, então sua nota fica alta a medida que a mesada aumenta. Se o aluno mora perto do colégio, ele tira uma nota maior do que se morasse longe, ou seja, quanto maior a distância de um aluno ao colégio, menor a nota. Uma regressão linear múltipla nos dá uma equação que, observado um certo valor de mesada e uma distância, vamos estimar a nota de um aluno.

Vamos supor que você rodou a regressão em um software qualquer e chegou em:

nota do testão = 2 * mesada – 3 * distância,

onde a mesada é em unidade de reais e a distância é em unidade de km.

Ou seja, se um aluno ganha 15 reais de mesada, e mora a 2km de distância, a nota dele nessa equação será 2 * 15 – 3 * 2 = 24.

É isso que queremos obter quando falamos de uma regressão linear múltipla, queremos essa equação com múltiplas variáveis independentes (no caso a mesada e a distância) que explica uma variável dependente (no caso a nota do testão).

Agora apenas para os guerreiros. Vamos detalhando um pouquinho mais, mas sem exagerar porque esse é apenas o primeiro post sobre regressão linear múltipla.

As premissas para uma regressão linear múltipla são:

  1. A variável dependente e as variáveis independentes possuem uma relação linear, ou seja, assim como para regressão linear simples, temos uma equação linear que explica nossa variável dependente. Ou como alguns livros dizem, é linear nos parâmetros (parâmetros são as variáveis que você vai usar para explicar a variável resposta).

Você vai ter algo assim:

Onde cada a é um coeficiente e x a variável explicativa.

Veja bem, a linearidade está nos parâmetros. Isto é uma regressão linear nos parâmetros:

Isto não é uma regressão linear nos parâmetros:

  1. X são fixos ou covariância dos x e erros é zero. Se você não está trabalhando com regressores pré-determinados ( fixos), então a covariância deles com os erros deve ser zero. Por que? Porque não queremos dependência entre as variáveis explicativas e os erros.
  2. A esperança do erro é zero. Análogo ao que ocorre com a regressão linear simples. Lembra daquela intuição? Erramos um pouquinho para cima, um pouquinho para baixo e fechou!
  3. A variância do erro é constante. Dá para perceber que os erros são importantes aqui, certo? O que é até fácil de intuir, se eles possuem um comportamento como alguma tendência, por exemplo de uma reta, ou eles explodem, então é provável que tenhamos variáveis que expliquem a variável resposta e não foram incluídas. Veja as fotos abaixo.
  4. Não há autocorrelação entre os erros. More on that later!

Por que fazer modelos preditivos se a maioria erra?

Encontrei essa pergunta muito boa em um site que eu gosto muito e recomendo para todos que possuem inglês de intermediário para cima, o Quora (aqui está a pergunta: Why do statisticians study forecasting techniques when most forecasts turn out ‘wrong’?).

Eu entendo que a tentativa de se prever algo com base em modelos cause receio em algumas pessoas. Modelos matemáticos e estatísticos foram responsáveis por lucros imensos seguidos por perdas de mesma magnitude (veja o caso da equação matemática de Black and Scholes: The mathematical equation that caused the banks to crash). Tanto é que, para quem já trabalhou na área de riscos em bancos, sabe que hoje existe inclusive o Model Risk Management (em português Gestão de Risco de Modelos), que nada mais é do que fazer a gestão, no sentido de tentar entender e mitigar, as falhas do seu modelo.

Mas isso não é motivo suficiente para tamanho ceticismo que existe em algumas pessoas com relação a esses modelos.

Antes de mais nada, lembrem-se que modelos são aproximações da realidade. É óbvio que não é simplesmente jogar um monte de dados em um liquidificador e esperar que saia a previsão exata do que vai ocorrer amanhã ou depois de amanhã. Estamos buscando uma aproximação, ou talvez uma ideia do que mais (ou menos) influencia o que quer que a gente esteja buscando entender. Ou seja, você deve acreditar que está se aproximando da realidade, mas obviamente, não possui uma previsão exata do que vai ocorrer no futuro.

No texto The Relativity of Wrong, mencionado no Quora, Isaac Asimov conta a história de como um estudante o questiona, pois Asimov havia dito que sabíamos (na época que o texto foi escrito) as regras básicas que governam o universo, desde as inter-relações gravitacionais até a teoria da relatividade, entre outras coisas. E o estudante dizia que todo o século os seres humanos achavam que sabiam tudo, mas sempre descobriam que estavam errados. Sabiamente, Asimov diz:  “John,  quando as pessoas achavam que a Terra era plana, elas estavam erradas. Quando as pessoas achavam que a Terra era esférica, elas estavam erradas. Mas se você acredita que pensar que a Terra é esférica é tão errado quanto pensar que a Terra é plana, então seu ponto de vista é pior que os dois juntos.”

Um modelo é uma evolução do “chute” a respeito do que vai ocorrer no futuro. Não conseguiremos acertar 100%, os próprios modelos pressupõem erros e mais, trabalham com base na Média e no Ceteris Paribus. Mas ainda são um avanço comparados a tentar prever algo com base na intuição e no chute.

Além disso, assim como toda a ciência, a estatística evolui a cada ano. No mercado bancário, por exemplo, além dos modelos que já eram utilizadospara prever perdas, criou-se recentemente (a uns 6-7 anos atrás) o Teste de Estresse, para tentar prever perdas no caso de uma crise econômica.  Um modelo que faz uso de variáveis macroeconômicas e não apenas dados históricos de inadimplência de clientes e volatilidade histórica dos ativos.

Por fim, vale citar que diversos dados (e modelos) acabam sendo utilizados da forma errada. Como disse Mário Faria em entrevista a Revista Exame: os dados não falam por si.

Quando não usar média e mediana

  • Média: Outliers afetam de forma significativa sua média, não use para esses casos. O mesmo vale para distribuições com dados nos extremos. Veja na linha abaixo que nas três cidades, o salário médio dos trabalhadores é igual:

Veja que nesse caso, na cidade X metade da população é pobre e vive com um salário mensal de $1, enquanto o resto ganha $1000. Enquanto isso, todos na cidade Y ganham o mesmo salário. Por fim, na cidade Z toda a riqueza está concentrada em um único cidadão.

É óbvio que esse é um caso extremo, mas não é difícil encontrar casos que a média nos engana. Um cara muito bêbado andando, cambaleando, pode estar andando em linha reta, na média.

  •  Mediana: Diferentemente da média, a mediana não é influenciada por outliers. Veja que a mediana das três cidades são diferentes (500.5, 500.5 e 0 para as cidades X, Y e Z respectivamente). Porém, assim como a média, é uma mediade de tendência centralOu seja, não conseguimos capturar a ideia de dispersão.

Regressão Linear Simples – Parte 3

Vamos interpretar de forma rápida e prática a saída de uma Regressão Linear Simples no R e como utilizar a informação:

  1. Residuals: São os resíduos da nossa equação. Você traçará um gráfico dos resíduos contra a variáve independente para verificar que eles são aleatoriamente distribuídos e aí seus resultados serão mais confiáveis.  Mas não confunda erro com resíduos! É confuso, mas farei um post só sobre isso futuramente!
  2. Coefficients: a coluna estimate nada mais é do que os valores que formarão nossa reta. O do intercept é o valor que representa a constante. Enquanto o valor que vem em seguida, logo abaixo, é o que acompanha nossa variável independente. Ou seja, no nosso caso, para se obter o valor da nota do testão você deve multiplicar a mesada do aluno por 1,66339 e somar a constante 5,39290. E as outras colunas? Por enquanto vamos apenas considerar que podemos usar os coeficientes caso o p-valor sera menor que 5%. Em outros posts entraremos mais a fundo no assunto.
  3. Multiple R-squared: O R quadrado é o quanto nossa variável independente é capaz de representar nossa variável dependente. Ou seja, 97,38% da nota do testão é explicada pela mesada (lembrem-se que esses dados são fictícios!).
  4. F-statistic: Será muito mais importante para quando falarmos de regressão múltipla.
  5. Adjusted R-squared: Também será mais relevante ao falarmos de regressão múltipla. Fiquem tranquilos por enquanto.

Leia também: Resíduos de uma Regressão Linear no R

Problemas com R? Que tal começar em Primeiros passos no R Studio!

Regressão Linear Simples – Parte 2

Vamos tentar entender a Regressão Linear Simples de forma visual (e já aproveitamos para aprender R!).

Em nosso exemplo, nós temos dados dos alunos do terceiro colegial da Escola X, suas mesadas em reais e as respectivas notas no Testão contendo todas as matérias.

Acreditamos que o desempenho do aluno melhore com uma mesada a mais, devido ao aumento do bem estar do aluno. Mas será que é verdade? Podemos fazer um modelo para a escola X e verificar isso.

Começamos apresentando os dados e um gráfico de dispersão nas figuras 1 e 2 respectivamente:

E como vamos saber exatamente quanto que um aumento na mesada impacta a nota dos alunos? Vamos rodar uma regressão no R da variável Mesada (variável independente) em Nota_Testão (nossa variável dependente) e verificar os resultados:

O que nos importa do resultado acima?

Com certeza tudo! O R não soltaria tanta coisa para nada.

Mas deixemos “tudo” de lado e hoje vamos apenas focar nos valores em estimate. Esses valores são os chamados BETAS da nossa regressão, e nada mais são do que os valores de a e b da nossa reta, mencionada no post anterior.

Ou seja, o que estamos querendo dizer aqui, é que a nota de um aluno no Testão será 5.39290 somado a 1.66339 multiplicado pela sua mesada. Ou seja, nossa equação da reta, onde y é a nota do Testão e x é a mesada, seria:

y = 5.39290 + 1.66339 * x

Ou seja, para cada 1 real adicionado na mesada, o aluno tira – em média – uma nota 1.66339 maior. Um aluno que ganha 10 reais a mais que seu colega, tira uma nota ~ 16 pontos a mais que seu colega.

E como é essa aproximação visualmente? É exatamente assim:

Agora, para os iniciantes em R, aí vai 5 linhas de código que gera esses gráficos e essa regressão (para executá-los não colocar os números na frente!):

dados <-read.table("C:/Users/Yukio/Desktop/dados_alunos.txt",header=T)

plot(dados$Mesada,dados$Nota_Testao)

regressao <- lm(dados$Mesada ~ dados$Nota_Testao)

abline(lm(dados$Nota_Testao ~ dados$Mesada),col="red")

summary(regressao)

Em breve coloco o que faz cada uma dessas linhas!

Continue seus estudos em: Regressão Linear Simples – Parte 3

Leia também: Resíduos de uma Regressão Linear no R

Problemas com R? Que tal começar em Primeiros passos no R Studio!

Regressão Linear Simples – Parte 1

Nesse primeiro post falaremos, de uma forma mais direta, sem se aprofundar muito, na Regressão Linear Simples.

Digamos que você acredita que a nota do aluno é relacionada com a distância de sua casa até o colégio. Como você verifica se isso é verdade?

Uma regressão linear simples nada mais é do que uma relação linear entre duas variáveis. Ou seja, uma variável, chamada de independente, expressará (de forma linear, linha, reta, etc.)  uma outra variável, chamada de independente.

Você se lembra de quando aprendeu a equação de uma reta? Se não lembra, assista a este breve vídeo: Equação da Reta – O Kuadro. Caso não entenda com esse vídeo, há diversos vídeos relacionados no youtube, basta acessar o que for melhor para você.

Pois bem, a Regressão Linear Simples não tem nenhum segredo, ela nada mais é do que uma forma de escrever nosso y em função de x na forma de uma reta. Obviamente, essa equação dificilmente é perfeita, no sentido de que y e x se relacionam linearmente. Portanto, ao invés de escrevermos a famosa equação da reta y = a*x + b, em uma regressão linear simples nossa equação é y = a*x + b + ε, onde o último termo é o nosso erro.

Resumindo tudo que foi dito acima, temos um conjunto de pontos y e x que acreditamos que se relacionem de forma linear, ou seja, que formam uma reta. A regressão linear simples nos dá essa reta.

Continue seus estudos em: Regressão Linear Simples – Parte 2

Leia também: Resíduos de uma Regressão Linear no R

Problemas com R? Que tal começar em Primeiros passos no R Studio!

R

Se você é estatístico, muito provavelmente já ouviu falar do R. Se é matemático, economista, cientista de dados ou trabalha com modelagem, já deve ter ouvido também.

R é tanto uma linguagem de programação, um software de análise de dados e um software estatístico. É  uma ferramenta muito útil para quem trabalha minerando dados, criando modelos estatísticos, realizando análises em cima de um grande volume de dados, etc. Esse software estatístico é muito utilizado por ser gratuito e possuir diversos pacotes com funções que vão facilitar sua vida seja para montar algum gráfico para uma apresentação, seja para rodar uma regressão linear qualquer. É

Eu nunca achei a linguagem do R tão trivial. Para mim, o SAS acabou sendo muito mais intuitivo. Porém, não é nada assustador, além de existir várias vídeo aulas no youtube, posts no Stackoverflow e diversos sites por aí, irei auxiliá-los aqui o quanto for possível postando códigos que faço no dia a dia. E convenhamos, hoje em dia é só jogar a dúvida no google que você encontra.

Você pode baixá-lo nesse link: R-Project.

Esses são alguns exemplos do que pode ser feito em R:

Regressão Linear vs. Mínimos Quadrados

Já parou para pensar qual a diferença entre Regressão Linear e Método dos Mínimos Quadrados?

Para a maioria das pessoas é a mesma coisa. E realmente são coisas próximas, mas não se confunda, são duas coisas diferentes.

De uma forma bem simples: o famoso método dos Mínimos Quadrados é uma maneira utilizada de se realizar uma Regressão Linear.

Colocado de outra maneira, uma Regressão Linear é uma equação (linear!) que explica a relação entre duas variáveis, uma independente e outra dependente.

Mínimos Quadrados é a minimização das somas, neste caso, dos erros da equação encontrada. Que fique claro que os Mínimos Quadrados podem ser utilizados para outros problemas de otimização!