Regressão Logística, também chamada de Logit, é uma técnica de modelagem utilizada para lidar com variáveis binárias (0 ou 1). Para responder a questões como “qual o salário de um indivíduo, dado seus anos de estudos”, “qual o valor de uma casa, dadas suas características”, a regressão linear é suficiente. Entretanto, se quisermos responder a questões como “o indivíduo vai pagar uma dívida?”, “o consumidor vai comprar determinado produto?”, i.e., perguntas de sim (=1) ou não (=0), aí faz sentido usar outro modelo, dentre as diversas possibilidades temos a regressão logística.
POR QUE NÃO USAR A REGRESSÃO LINEAR COM VARIÁVEIS BINÁRIAS?
Esta é uma pergunta comum e a principal resposta está nas premissas assumidas:
- Primeiro, veja que a premissa da regressão linear é que exista uma relação linear entre a variável resposta e as variáveis explicativas. Para o caso de variáveis binárias, principalmente quando temos uma variável explicativa contínua, essa premissa será violada;
- Os valores projetados por um modelo de regressão linear podem ser superiores a 1 ou inferiores a 0;
- A premissa de variância constante dos resíduos é violada.
Veja a diferença do item 2 nos gráficos abaixo, onde temos a comparação de uma função linear e a função logística:
Fonte da Imagem: https://www.machinelearningplus.com
O MODELO
Regressão logística é um algoritmo de classificação. Conforme exemplificado no primeiro parágrafo, a técnica é utilizada para prever variáveis binárias (1 ou 0). Um exemplo clássico é o modelo para inadimplência, que deve prever se um indivíduo vai pagar ou não a sua dívida. Outro exemplo, bastante utilizado nos cursos em que se utiliza o R para explicar modelagem, é a identificação de um e-mail como sendo spam ou não.
A técnica tem muitas vantagens perante a regressão linear, principalmente no que diz respeito à normalidade e linearidade. Não há a necessidade da relação linear entre variável resposta e variáveis explicativas. Além disso, os resíduos não precisam estar normalmente distribuídos.
Ao utilizarmos este modelo, estamos interessados na probabilidade como saída. No nosso caso de inadimplência, estaríamos interessados em obter a probabilidade de um indivíduo para sua dívida. Ou seja, queremos o modelo p(X) = P(Y=1|X). Para evitar os problemas já mencionados, utilizamos a função logística, que resulta numa curva num formato de um S:
Fonte da Imagem: https://en.wikipedia.org
A equação da regressão logística pode causar estranheza, pois diferente da regressão linear, a variável resposta é escrita na forma de
Vale destacar que o resultado da equação não é direto. Para quem for escrever a equação na mão, multiplicando os coeficientes pelos respectivos x, precisará fazer uma pequena transformação para obter a probabilidade. O gráfico abaixo, retirado do Analytics Vidhya, traduz a equação da regressão logística das duas formas possíveis:
Fonte da Imagem: https://www.analyticsvidhya.com/blog/2015/10/basics-logistic-regression/
Ou seja, após aplicar os coeficientes na equação, você utilizará o resultado no expoente do número ‘e’ (número de Euler). Aí sim, você vai obter a probabilidade desejada. Note também que essa tradução será facilmente feita pelos softwares que você vai utilizar, onde já serão separados no resultado final os “bons” (=1) dos “ruins” (=0).
ODD RATIO (RAZÃO DE CHANCE)
Uma observação importante deve ser feita sobre a tal probabilidade p dividida por 1-p. Esta razão é conhecida como odds ratio, ou, traduzindo de forma direta, razão da chance. O que ela apresenta é a chance de sucesso em relação a chance de fracasso. Ou seja, se uma pessoa tem 75% de probabilidade de pagar, ela tem 25% de chance de não pagar. Logo, a chance dela pagar é 3x maior que a chance de não pagar.
AGORA É SÓ APLICAR!
Agora que você já entende o que faz a regressão logística, que tal tentar aplicar os conhecimentos no R? Veja o post Regressão Logística no R!
Acredito que isso seja suficiente para a compreensão do que é essencial em regressão logística. Pretendo ainda fazer mais posts sobre o tema, talvez mostrando mais a matemática ou então aplicabilidade. A técnica é muito utilizada, e mesmo hoje com tanta coisa mais robusta em Machine Learning, você vai ver um Logit por aí, não tenho dúvida nenhuma disso. Se você achou alguma explicação muito rasa e gostaria de se aprofundar nas derivações de fórmulas ou alguma outra extensão da regressão logística, sugiro os 3 links abaixo:
Datacamp: Logistic Regression in R
Um comentário em “Regressão Logística: Conceitos Essenciais e Modelo”