Falo de Regressão Linear desde o começo desse blog porque é um dos primeiros tópicos em modelagem estatística. Não menos importante, acredito que regressão logística seria o segundo passo para quem quer realmente fazer modelos. Se você já se aproximou de alguma forma de modelagem estatística, você com certeza já ouviu falar dela.
O motivo dessa regressão ser ensinada e ter tanto foco é simples, ela traz a resposta de questões que precisamos responder no mundo de crédito, vendas, etc. Uma das coisas que mais gostaríamos de saber quando trabalhamos com crédito é se o cliente vai pagar ou não o dinheiro que tomou emprestado. Veja que a variável resposta aqui é se o cliente paga ou não o crédito, é binária: sim ou não.
Enquanto na regressão linear temos uma variável resposta contínua (e.g.: o valor da dívida), na regressão logística nossa variável resposta é binária, 0 ou 1.
Vamos supor que você emprestou dinheiro para um colega. Há dois eventos possíveis desse empréstimo: seu amigo paga ou não. Se o seu amigo tiver um bom salário, um emprego estável e um histórico impecável, é provável que ele te pague. Agora, se ele estiver desempregado, tiver fama de caloteiro e estiver atolado em dívidas, a probabilidade de ele não pagar é maior. Pois é isso que a regressão logística (ou o logit) vai te proporcionar.
Assim como Árvore de Decisão, é simples de entender e fácil de se implementar.
A saída do Logit não é exatamente a probabilidade, mas te leva a ela através do odds ratio:
logit(p) = ln(p/(1-p))
ln(odds) = ln(p/(1-p))
odds = p/ (1-p)
Sendo p = probabilidade de ocorrência do evento e 1-p = probabilidade de não ocorrência
Alguns pontos que valem mencionar:
- Na regressão logística não assumimos uma relação linear entre a variável dependente e independente;
- Erros não têm distribuição normal;
- Utilizamos a máxima verossimilhança, e não mínimos quadrados.
Leia também: Razão de Possibilidades
0 comentários em “Regressão Logística: Primeiros Passos”