Como é a rotina de um cientista de dados?

Essa pergunta é muito comum. Eu mesmo já fiz algumas vezes em entrevista. Bom, não exatamente ela, mas já perguntei como era a típica rotina do analista da área. É interessante saber exatamente o que é feito. Passam o dia programando? Passam o dia vendo modelos estatísticos? Se você tem essa curiosidade, aqui vai a rotina de um cientista de dados. Claro, a resposta ideal e que realmente serviria era: “depende”. Mas para não ficar em cima do muro, vou tentar encontrar o que seria o mais usual.

Vamos lá então, a primeira parte é a obtenção dos dados. Quando digo a obtenção, é realmente sair atrás dos dados. Vasculhar bases que você tem acesso, falar com as pessoas, analisar os campos necessários, dentre outras coisas. Isso, claro, depois de uma boa conversa com o gestor da sua área para saber qual é a tarefa, né?

Quem trabalha com dados gasta um tempo razoável correndo atrás dos dados necessários para o estudo em questão. Isso envolve conversas com muitas pessoas/áreas, fuçar bases e documentos – esses últimos podem não existir em algumas situações. (~1.5/10)

Em seguida, você vai consolidar a informação que precisa. Como cada coisa está em um canto diferente (e.g.: o estado do cliente está na base “cadastro” e o valor da compra feita está na base “compras”), você precisa unir as informações. Mais do que isso, a idade do cliente pode estar no formato texto, a data vir invertida, em suma, os campos precisam vir tratados. Então podemos dizer que o segundo passo é fazer as manutenções nas bases, limpeza dos dados, enfim, chame como preferir. Essa segunda parte – bom, essa e a seguinte talvez – representam a maior parte do nosso dia. (~3/10)

Feitas as devidas tratativas, você vai ter lá algumas bases nos moldes que imaginou quando o estudo foi pedido. Agora, entra a análise dos dados. Análise exploratória, retirar algumas descritivas. Talvez você queira fazer um Boxplot para checar a distribuição da variável, obter os quartis, fazer gráficos de dispersão para entender correlações, mapas de calor, comparar as médias, etc. Você continua lá no seu Python, R ou SAS extraindo informação. Ou talvez você prefira transferir para o Power BI ou Tableau e facilitar a construção dos gráficos. De qualquer forma, aqui é a obtenção de insights do que você tem de informação. (~3/10)

Alguns estudos poderiam parar no passo anterior. Outros, avançam para a modelagem estatística. A parte que mais atrai a galera. Você precisa fazer os modelos, testá-los, verificar acurácia, curva ROC, enfim, todas as métricas. E a partir do modelo, você começa a fazer as predições. Com base nas predições, você toma alguma ação (e.g.: mandar mais propagandas para os clientes que compram pouco). (~2.5/10)

Poderíamos incluir um quinto passo aqui que seriam as formalidades como reuniões, documentação de modelos/bases e estudos, relatórios, dentre outras coisas. Neste caso, eu tiraria 0.25 de cada um dos passos anteriores e colocaria 1/10 aqui.

Mais uma vez, isso varia muito de empresa (tanto segmento quanto tamanho), momento da empresa (está crescendo ou já está bem estruturada?), desenho dos times, dentre outras coisas. Mesmo assim, creio que é um bom apanhado geral e espero que você goste da rotina!

Gostou do conteúdo? Se inscreva para receber as novidades! Deixe seu e-mail em INSCREVA-SE na barra à direita, logo abaixo de pesquisar. E, por favor, não deixe de comentar, dar seu feedback e compartilhar com seus amigos. De verdade, isso faz toda a diferença. Você também pode acompanhar mais do meu trabalho seguindo a conta de Twitter @EstatSite ou por alguma das redes que você encontra em Sobre o Estatsite / Contato.

Bons estudos!

2 comentários em “Como é a rotina de um cientista de dados?”

  1. Parabéns Yukio pelo site. Te acompanho recentemente pelo twitter e agora pelo site. Tenho aprendido bastante e recomendado para colegas de faculdade e trabalho. Excelente sua divulgação de conteúdo e obrigado.

Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *