Data Leakage, o erro que até os grandes cometem

Para criar um modelo de machine learning, temos uma etapa crucial na qual dividimos os dados em treino e teste. Isso ocorre porque queremos avaliar nosso modelo e evitar problemas de overfitting – que você pode ler mais sobre nos posts OverfittingExplicando overfitting com uma anedota e Overfitting e Cross Validation.  Hoje, quero falar de um problema muito comum que ocorre nesta etapa, o “vazamento” de dados para o teste. Bora falar de data leakage, o erro que até os grandes cometem.

Continuar a ler “Data Leakage, o erro que até os grandes cometem”

Regressão Ridge e Lasso

Regressão linear é o primeiro algoritmo que aprendemos quando estudamos ciência de dados e machine learning. Apesar de muito útil, o algoritmo buscará sempre minimizar a soma dos quadrados de forma que se obtenha um modelo com o menor erro possível. Isso pode levar ao problema de overfitting (já explicado em posts como Overfitting e Cross Validation e Explicando overfitting com uma anedota). Uma forma de resolver isso é utilizando a regressão ridge ou lasso!
Continuar a ler “Regressão Ridge e Lasso”

Os melhores podcasts de ciência de dados!

Se você é uma pessoa antenada, provavelmente já escutou que 2020 é o ano dos podcasts. Com o investimento mais pesado nos últimos anos de grandes empresas como a Rede Globo, na produção de conteúdo, e o Spotify, como plataforma de distribuição, o produto ganha cada vez mais espaço na vida do brasileiro. E é claro que a nossa área não ficou de fora do hype. Sendo assim, o post de hoje vai trazer uma lsita com os melhores podcasts de ciência de dados! Continuar a ler “Os melhores podcasts de ciência de dados!”

Regularização: Introdução ao conceito e sua importância

Adicionar viés ao modelo estatístico é uma coisa estranha de se escutar. Na verdade, não parece fazer muito sentido. Um modelo ter mais viés que outro e ainda ser melhor soa esquisito. Mas acredite, isso é possível. E é com base nisso que entra um tema importantíssimo em machine learning chamado REGULARIZAÇÃO. Continuar a ler “Regularização: Introdução ao conceito e sua importância”

Dividindo o dataset em treino e teste no Python

Quem está começando os primeiros modelos estatísticos sabe que uma coisa padrão é dividir a base em duas: treino e teste. A primeira é utilizada para construção do modelo e a segunda para testá-lo, verificar sua performance e entender se ele está overfittando – para overfitting, ler Overfitting e Explicando overfitting com uma anedota. Hoje, vamos ver como fazer essa divisão no Python. Bora! Continuar a ler “Dividindo o dataset em treino e teste no Python”

Quer estagiar na área de Ciência de Dados?

Para quem não tem experiência nenhuma, mas quer começar a atuar na área, este post é para você! Continuar a ler “Quer estagiar na área de Ciência de Dados?”

Como começar na área de Ciência de Dados?

Como entrar na área de ciência de dados sem ter experiência é provavelmente a pergunta que mais recebo na DM. Sempre respondo com prazer porque sei como é difícil para quem é jovem e está atrás do primeiro estágio ou quem já é mais velho e está em transição. Pensando nisso, fiz uma thread com algumas dicas, coisas que chamariam a atenção minha e de meus colegas quando precisamos trazer alguém para o time. Peço que perdoem as abreviações, no Twitter precisamos economizar caracteres e isso aqui é só um copia e cola da thread. Continuar a ler “Como começar na área de Ciência de Dados?”

Entrevista com Diego Camacho, CDO e Fundador da Trieduc

Hoje, trago um bate-papo com Diego Camacho, estatístico, cientista de dados, ampla experiência no varejo e em pesquisas eleitorais, CDO e fundador da Trieduc, e tudo mais que vocês podem encontrar no Linkedin dele. Falamos sobre a carreira de cientista de dados, sobre o cargo de CDO nas empresas, dentre muitas outras coisas. Continuar a ler “Entrevista com Diego Camacho, CDO e Fundador da Trieduc”

Gabarito do Desafio

Finalmente chegamos com o gabarito do desafio lançado. Para quem não lembra ou não o fez, basta clicar neste link. São vários exercícios para você praticar análise exploratória, estatística descritiva, limpeza de dados, joins, wheres, ifs, etc. Abaixo, estão as respostas! Continuar a ler “Gabarito do Desafio”