Data Leakage, o erro que até os grandes cometem

Para criar um modelo de machine learning, temos uma etapa crucial na qual dividimos os dados em treino e teste. Isso ocorre porque queremos avaliar nosso modelo e evitar problemas de overfitting – que você pode ler mais sobre nos posts OverfittingExplicando overfitting com uma anedota e Overfitting e Cross Validation.  Hoje, quero falar de um problema muito comum que ocorre nesta etapa, o “vazamento” de dados para o teste. Bora falar de data leakage, o erro que até os grandes cometem.

Continuar a ler “Data Leakage, o erro que até os grandes cometem”

Quer estagiar na área de Ciência de Dados?

Para quem não tem experiência nenhuma, mas quer começar a atuar na área, este post é para você! Continuar a ler “Quer estagiar na área de Ciência de Dados?”

Como começar na área de Ciência de Dados?

Como entrar na área de ciência de dados sem ter experiência é provavelmente a pergunta que mais recebo na DM. Sempre respondo com prazer porque sei como é difícil para quem é jovem e está atrás do primeiro estágio ou quem já é mais velho e está em transição. Pensando nisso, fiz uma thread com algumas dicas, coisas que chamariam a atenção minha e de meus colegas quando precisamos trazer alguém para o time. Peço que perdoem as abreviações, no Twitter precisamos economizar caracteres e isso aqui é só um copia e cola da thread. Continuar a ler “Como começar na área de Ciência de Dados?”

Entrevista com Diego Camacho, CDO e Fundador da Trieduc

Hoje, trago um bate-papo com Diego Camacho, estatístico, cientista de dados, ampla experiência no varejo e em pesquisas eleitorais, CDO e fundador da Trieduc, e tudo mais que vocês podem encontrar no Linkedin dele. Falamos sobre a carreira de cientista de dados, sobre o cargo de CDO nas empresas, dentre muitas outras coisas. Continuar a ler “Entrevista com Diego Camacho, CDO e Fundador da Trieduc”

Gabarito do Desafio

Finalmente chegamos com o gabarito do desafio lançado. Para quem não lembra ou não o fez, basta clicar neste link. São vários exercícios para você praticar análise exploratória, estatística descritiva, limpeza de dados, joins, wheres, ifs, etc. Abaixo, estão as respostas! Continuar a ler “Gabarito do Desafio”

Desafio do EstatSite

E finalmente chegou o grande dia! O desafio está lançado! Não esqueça, os dados que serão utilizados estão todos aqui. Se precisar entrar em contato por conta de alguma dúvida, o ideal é através da DM do Twitter, que é o @EstatSite. Lá é o local onde eu estou mais ativo.

O desafio ficará aberto por uma semana. Se estiver demorando, não se preocupe, é assim mesmo. Não é desafio de uma ou duas horas, vai levar tempo. Não desanime, lembre-se de que tem prêmio por participação (além do aprendizado que você vai ganhar!). Aceitarei entregas até o domingo dia 07/06/2020.

E, não se esqueça, assim que terminar envie a solução para estatsite@gmail.com! Boa sorte!!! Continuar a ler “Desafio do EstatSite”

A primeira (mini)competição do EstatSite chegou!

Estive pensando em formas de divulgar o blog e o canal do Youtube. No começo, pensei em fazer aqueles posts pedindo para marcar um amigo e sortear alguém nos comentários. Só que isso ia ser meio chato e não ajudaria tanto os participantes, a não ser o ganhador. Então resolvi promover essa mini-competição, de nível básico/intermediário. Por favor, leia o post até o final para saber todas as regras. Continuar a ler “A primeira (mini)competição do EstatSite chegou!”

Datasets para Praticar Modelos de Machine Learning

Você estuda, estuda, estuda, e estuda um pouco mais, mas é isso. Lê livros, vê vídeos no Youtube, mas permanece somente na teoria. Chega uma hora que você precisa colocar seu conhecimento em prática. Aplicar Árvore de Decisão, Random Forest, Regressão Linear, Regressão Logística e por aí vai. Abaixo, uma lista de datasets populares e quais técnicas você pode testar neles. Continuar a ler “Datasets para Praticar Modelos de Machine Learning”

Teste seus Conhecimentos em Data Science!

Quase que semanalmente, tenho feito alguns quizzes no twitter do EstatSite – você pode seguir indo em @EstatSite – sobre ciência de dados. As perguntas variam e vão desde questões sobre interpretação de gráficos até premissas utilizadas em modelos bastante comuns. Veja uns exemplos: Continuar a ler “Teste seus Conhecimentos em Data Science!”