Continuar a ler “Data Leakage, o erro que até os grandes cometem”
Categoria: Ciência de Dados
Conteúdo sobre ciência de dados
Regressão Ridge e Lasso
Regressão linear é o primeiro algoritmo que aprendemos quando estudamos ciência de dados e machine learning. Apesar de muito útil, o algoritmo buscará sempre minimizar a soma dos quadrados de forma que se obtenha um modelo com o menor erro possível. Isso pode levar ao problema de overfitting (já explicado em posts como Overfitting e Cross Validation e Explicando overfitting com uma anedota). Uma forma de resolver isso é utilizando a regressão ridge ou lasso!
Continuar a ler “Regressão Ridge e Lasso”
Os melhores podcasts de ciência de dados!
Se você é uma pessoa antenada, provavelmente já escutou que 2020 é o ano dos podcasts. Com o investimento mais pesado nos últimos anos de grandes empresas como a Rede Globo, na produção de conteúdo, e o Spotify, como plataforma de distribuição, o produto ganha cada vez mais espaço na vida do brasileiro. E é claro que a nossa área não ficou de fora do hype. Sendo assim, o post de hoje vai trazer uma lsita com os melhores podcasts de ciência de dados! Continuar a ler “Os melhores podcasts de ciência de dados!”
Regularização: Introdução ao conceito e sua importância
Adicionar viés ao modelo estatístico é uma coisa estranha de se escutar. Na verdade, não parece fazer muito sentido. Um modelo ter mais viés que outro e ainda ser melhor soa esquisito. Mas acredite, isso é possível. E é com base nisso que entra um tema importantíssimo em machine learning chamado REGULARIZAÇÃO. Continuar a ler “Regularização: Introdução ao conceito e sua importância”
Dividindo o dataset em treino e teste no Python
Quem está começando os primeiros modelos estatísticos sabe que uma coisa padrão é dividir a base em duas: treino e teste. A primeira é utilizada para construção do modelo e a segunda para testá-lo, verificar sua performance e entender se ele está overfittando – para overfitting, ler Overfitting e Explicando overfitting com uma anedota. Hoje, vamos ver como fazer essa divisão no Python. Bora! Continuar a ler “Dividindo o dataset em treino e teste no Python”
Quer estagiar na área de Ciência de Dados?
Para quem não tem experiência nenhuma, mas quer começar a atuar na área, este post é para você! Continuar a ler “Quer estagiar na área de Ciência de Dados?”
Como começar na área de Ciência de Dados?
Como entrar na área de ciência de dados sem ter experiência é provavelmente a pergunta que mais recebo na DM. Sempre respondo com prazer porque sei como é difícil para quem é jovem e está atrás do primeiro estágio ou quem já é mais velho e está em transição. Pensando nisso, fiz uma thread com algumas dicas, coisas que chamariam a atenção minha e de meus colegas quando precisamos trazer alguém para o time. Peço que perdoem as abreviações, no Twitter precisamos economizar caracteres e isso aqui é só um copia e cola da thread. Continuar a ler “Como começar na área de Ciência de Dados?”
Entrevista com Diego Camacho, CDO e Fundador da Trieduc
Hoje, trago um bate-papo com Diego Camacho, estatístico, cientista de dados, ampla experiência no varejo e em pesquisas eleitorais, CDO e fundador da Trieduc, e tudo mais que vocês podem encontrar no Linkedin dele. Falamos sobre a carreira de cientista de dados, sobre o cargo de CDO nas empresas, dentre muitas outras coisas. Continuar a ler “Entrevista com Diego Camacho, CDO e Fundador da Trieduc”
Gabarito do Desafio
Finalmente chegamos com o gabarito do desafio lançado. Para quem não lembra ou não o fez, basta clicar neste link. São vários exercícios para você praticar análise exploratória, estatística descritiva, limpeza de dados, joins, wheres, ifs, etc. Abaixo, estão as respostas! Continuar a ler “Gabarito do Desafio”
5 Livros que Todo Cientista de Dados Deveria Ler!