Data Leakage, o erro que até os grandes cometem

Para criar um modelo de machine learning, temos uma etapa crucial na qual dividimos os dados em treino e teste. Isso ocorre porque queremos avaliar nosso modelo e evitar problemas de overfitting – que você pode ler mais sobre nos posts OverfittingExplicando overfitting com uma anedota e Overfitting e Cross Validation.  Hoje, quero falar de um problema muito comum que ocorre nesta etapa, o “vazamento” de dados para o teste. Bora falar de data leakage, o erro que até os grandes cometem.

Continuar a ler “Data Leakage, o erro que até os grandes cometem”

Analisando os dados do Instagram com Python

O mais legal de trabalhar com análise de dados é que você pode analisar absolutamente TUDO que você quiser. Já analisei dados do Twitter no post Analisando o Twitter com o R, já me aventurei em dados ambientais (mencionei neste tweet aqui) e, agora, resolvi abrir os dados do Instagram. Se você quer saber como andam seus likes, quem comenta suas fotos, pare de pagar aqueles apps que fazem isso e rode você mesmo um script que traga tudo isso! Continuar a ler “Analisando os dados do Instagram com Python”

Hot take sobre a Lei Geral de Proteção aos Dados

Depois de muita bagunça, a lei mais relevante dos últimos anos para  nós analistas e cientistas de dados foi aprovada. Seu caminho foi confuso e tortuoso, com idas e vindas. Por conta disso, escrevi um hot take sobre ela, a Lei Geral de Proteção aos Dados, no meu Linkedin. São breves pontos, muito breves mesmo, mas que achei que valia a pena trazer ao blog. Continuar a ler “Hot take sobre a Lei Geral de Proteção aos Dados”

XGBoost em Python

Hoje é dia de seguir com a minha promessa de abordar mais Machine Learning em Python, algo que acabei negligenciando nos últimos meses. Dessa vez, você vai aprender como rodar um XGBoost em Python. Tal qual ocorreu em Regressão Logística em Python e Random Forest em Python, a ideia é você ter um esqueleto para apenas inserir seu dataset e correr para o abraço. Vamos lá! Continuar a ler “XGBoost em Python”

Classificador Random Forest em Python

Conforme tenho dito nos últimos posts, estou entrando numa fase de voltar a escrever sobre Machine Learning. Logo, não poderia deixar de falar de um dos modelos que ainda vejo como um dos mais utilizados no mercado, que é a Random Forest. Se você nunca ouviu falar desse modelo, recomendo o vídeo do StatQuest Random Forest Part 1. Após ver o vídeo, volte para aprender como rodar uma random forest, como classificador, em Python! Continuar a ler “Classificador Random Forest em Python”

Formatação condicional em Python

E vamos de mais um post hoje para quem está migrando de Excel para Python. Na verdade, serve para cada um, mas sinto que saber a função deste post é algo que ex-usuários do Excel gostariam de saber. Vamos aprender a formatar a tabela, mudar cor de fundo, cor das letras, dentre outras coisas. Todas essas mudanças vão ser motivadas por alguns condicionais. Logo, o título, formatação condicional em Python! Continuar a ler “Formatação condicional em Python”

Pipeline usando Scikit-Learn: Exemplos Práticos

No post Introdução aos Pipelines no Scikit-Learn, mostrei alguns exemplos de pipelines utilizando a biblioteca mais famosa para machine learning no Python. Hoje, quero mostrar alguns exemplos de pipelines com diferentes funcionalidades. Sendo assim, será um post bastante direto e prático, mas que deve ajudar bastante o leitor. Bora ver logo exemplos práticos de pipelines usando scikit-learn! Continuar a ler “Pipeline usando Scikit-Learn: Exemplos Práticos”

Dividindo o dataset em treino e teste no Python

Quem está começando os primeiros modelos estatísticos sabe que uma coisa padrão é dividir a base em duas: treino e teste. A primeira é utilizada para construção do modelo e a segunda para testá-lo, verificar sua performance e entender se ele está overfittando – para overfitting, ler Overfitting e Explicando overfitting com uma anedota. Hoje, vamos ver como fazer essa divisão no Python. Bora! Continuar a ler “Dividindo o dataset em treino e teste no Python”

Gabarito do Desafio

Finalmente chegamos com o gabarito do desafio lançado. Para quem não lembra ou não o fez, basta clicar neste link. São vários exercícios para você praticar análise exploratória, estatística descritiva, limpeza de dados, joins, wheres, ifs, etc. Abaixo, estão as respostas! Continuar a ler “Gabarito do Desafio”