Estatística Tradicional e Machine Learning, qual a melhor?

Junto ao crescimento exponencial de informações e tipos de dados, surgem atualmente, de maneira acelerada, novas tecnologias e metodologias capazes de suportar, processar e analisar todo esse volume de informações. Com isso, alguns temas e discussões acabam vindo à tona no mundo do cientista de dados e dois dos que causam mais polêmica são justamente o que é melhor usar e como usar determinadas técnicas de análise de dados. 

A ideia desse texto é falar um pouco sobre esses temas, abordando um pouco das diferenças e aproximações entre a estatística tradicional e o machine learning – e para isso abordarei um exemplo simples do meu dia-a-dia.

Quando falamos em modelos preditivos, uma das principais “batalhas” é sobre Estatística Tradicional e Machine Learnig. A principal pergunta é:

QUAL METODOLOGIA É A MAIS EFICIENTE

Para poder responder a essa pergunta, falarei de um exemplo simples, sem aprofundar em muitos termos técnicos.

Vamos supor que queremos prever quantos pontos de um determinado programa de fidelidade um cliente vai acumular no mês. Temos as seguintes informações do cliente:

  • Variável de interesse;
  • Quantos pontos o cliente vai acumular no mês;
  • Variáveis explicativas:
    • Quantidade de gastos no supermercado
    • Quantidade de pontos acumulados
    • Idade
    • Renda familiar
    • Região que reside

Para estimarmos quantos pontos o cliente vai acumular, uma metodologia possível é desenvolver um modelo de regressão linear múltipla. Mas como fazê-lo?

DEVO DESENVOLVER UTILIZANDO TÉCNICA ESTATÍSTICA TRADICIONAL OU O MACHINE LEARNING?

E a resposta é DEPENDE! Isso mesmo, meu caro, depende!

São dois os possíveis cenários:

CENÁRIO MACHINE LEARNING

Se você quer apenas buscar o ponto ótimo de maior assertividade em sua previsão, sem dar explicação a ninguém sobre o seu modelo, então o melhor caminho é aplicar machine learning, afinal, o algoritmo será desenvolvido para aprender com os dados históricos disponíveis e, por meio de várias simulações computacionais, ajustará o melhor modelo para novas informações dos clientes antigos e dos clientes novos, baseado apenas na informação de uma métrica definida (no caso de regressão linear múltipla, a métrica usada seria o menor erro quadrático possível).

CENÁRIO ESTATÍSTICA TRADICIONAL

Agora, se você precisa entender quais variáveis e os porquês dessas explicarem melhor o seu modelo, então teremos que partir para a estatística tradicional, pois só assim conseguiremos essas justificativas através de algumas métricas mais definidas. Por exemplo, em um modelo de regressão linear bem ajustado, o erro tende a ter uma distribuição normal, e também consegue definir intervalos de confiança para os seus “Betas”.

Dessa maneira, apenas com a clareza de duas informações (analisar objetivo e para que será usado seu estudo), você já consegue definir qual metodologia utilizar: se for para explicar outros fatores que vão além da simples estimativa da quantidade de pontos, melhor usar a estatística tradicional (ex: quanto maior a renda e maior a idade do cliente, maior é o volume de pontos acumulados no programa de fidelidade); se interessar apenas o mínimo erro e maior precisão, sem necessidade de explicar as variáveis, então o mais adequado é o algoritmo de machine learning.

Em suma, a principal mensagem desse breve texto e exemplificar que não existe uma metodologia melhor ou mais eficaz que a outra, mas sim, metodologias mais adequadas às necessidades para atingir os objetivos do negócio ou do estudo.

Vale ainda um ponto de atenção que para determinados tipos e volumes de dados não é possível talvez utilizar uma metodologia tradicional devido à capacidade computacional necessária. Por outro lado, para problemas mais simples, não é preciso usar algo tão robusto computacionalmente como machine learning para resolver.

2 comentários em “Estatística Tradicional e Machine Learning, qual a melhor?”

  1. Parabéns pelo texto. Bem esclarecedor e instigante para nós , que usamos estatística Tradicional , conhecer Machine Learning.

Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *