Há várias formas de se obter estatísticas descritivas no Python. A mais comum é utilizando o describe(). Porém, essa função não é tão útil quando precisamos de resumos por grupo. Imagine, por exemplo, tentar obter a idade média dos clientes por estado, ou por gênero. Além dessa flexibilização, seria interessante também poder fazer um resumo de alguma métrica criada por você. O post de hoje é, claro, sobre isso. Vamos obter um resumo estatístico agrupando por categoria, além de incluir funções criadas por nós mesmos, em Python. Continuar a ler “Resumo Estatístico Agrupando por Categoria em Python”
Como começar na área de Ciência de Dados?
Como entrar na área de ciência de dados sem ter experiência é provavelmente a pergunta que mais recebo na DM. Sempre respondo com prazer porque sei como é difícil para quem é jovem e está atrás do primeiro estágio ou quem já é mais velho e está em transição. Pensando nisso, fiz uma thread com algumas dicas, coisas que chamariam a atenção minha e de meus colegas quando precisamos trazer alguém para o time. Peço que perdoem as abreviações, no Twitter precisamos economizar caracteres e isso aqui é só um copia e cola da thread. Continuar a ler “Como começar na área de Ciência de Dados?”
Como renomear colunas no SQL
Post rápido, sem muita enrolação, só para facilitar a vida de quem quer dar uma ajustada nas tabelas, consertar um nome que acha que não está muito legal, coisas do tipo. Vamos ver como alterar o nome das colunas no SQL! Continuar a ler “Como renomear colunas no SQL”
Resolvendo UnicodeDecodeError no Python
Mais uma vez vamos lidar com um erro comum no Python, mais especificamente do Pandas, quando importamos um arquivo. Se você precisa lidar com arquivos em português, em algum momento já se deparou com esse erro:
UnicodeDecodeError: 'utf-8' codec can't decode byte 0x8d in position 8: invalid start byte
Vencedores do Desafio do EstatSite!
Primeiramente, queria dizer que estou MUITO feliz com o desafio. Recebi muitos feedbacks positivos, pessoal agradecendo pela iniciativa, elogiando o blog. Sério, isso deixa qualquer um muito feliz. É isso que move um nerd tão fascinado por data science como eu. Enfim, sem mais blá blá blá, os vencedores dos prêmios: Continuar a ler “Vencedores do Desafio do EstatSite!”
Introdução ao SQL + Left Join + Case When
Como sempre digo, aprender SQL é fundamental para um cientista de dados. Apesar de focarmos muito em Python, R e SAS, nenhuma linguagem é tão comum às empresas quanto SQL. Então não deixe de estudá-la. Abaixo, vou te introduzir à linguagem, ensinar como unir tabelas da mesma forma que você faria com o PROCV no Excel, e ensinar a utilizar condicionais. Bora! Continuar a ler “Introdução ao SQL + Left Join + Case When”
Entrevista com Diego Camacho, CDO e Fundador da Trieduc
Hoje, trago um bate-papo com Diego Camacho, estatístico, cientista de dados, ampla experiência no varejo e em pesquisas eleitorais, CDO e fundador da Trieduc, e tudo mais que vocês podem encontrar no Linkedin dele. Falamos sobre a carreira de cientista de dados, sobre o cargo de CDO nas empresas, dentre muitas outras coisas. Continuar a ler “Entrevista com Diego Camacho, CDO e Fundador da Trieduc”
Gabarito do Desafio
Finalmente chegamos com o gabarito do desafio lançado. Para quem não lembra ou não o fez, basta clicar neste link. São vários exercícios para você praticar análise exploratória, estatística descritiva, limpeza de dados, joins, wheres, ifs, etc. Abaixo, estão as respostas! Continuar a ler “Gabarito do Desafio”
Conversão de texto para data no Python
Como sempre digo, lidar com data é uma dor de cabeça em qualquer linguagem. Com o tempo a gente se acostuma, mas no começo é bem chato e trabalhoso lembrar de todas as formas de converter. Sempre tem aquele rolo da data vir com hora, ou com mês abreviado, ou com mês completo. Pensando nisso, este post vai mostrar como converter alguns formatos de data que chegam em texto no seu dataframe. Continuar a ler “Conversão de texto para data no Python”
Como usar comandos de SQL no Python? (Bônus: Comando QUERY do Pandas)
Se tem uma linguagem que eu admiro muito é o SQL. Prático, não é case-sensitive, não tem problema de tabulação e às vezes nem precisa de ponto e vírgula. Além disso, é muito intuitiva, parece que você está falando em inglês o que a máquina deve fazer. Por isso, sempre é uma boa se aproveitar dessa linguagem. Abaixo, temos exemplos de como utilizá-la no Python. Continuar a ler “Como usar comandos de SQL no Python? (Bônus: Comando QUERY do Pandas)”