Tabela dinâmica no Python

Seguindo a linha de posts feitos para ajudar quem está migrando do Excel para o Python, hoje aprenderemos como fazer a famosa tabela dinâmica. Não tem muito segredo, você verá que o Pandas ajuda muito quem veio do Excel. Qualquer dúvida, deixe seu comentário. Se tiver elogios ou críticas, manda bala também! Continuar a ler “Tabela dinâmica no Python”

Filtros e seleções no Pandas

Sendo o Pandas a principal biblioteca do Python para fazer tratamentos nos dados, saber como localizar, selecionar e filtrar elementos nos dataframes dela é essencial. No vídeo de hoje, temos todas as formas de filtrar colunas e linhas, localizar a célula de acordo com a posição da linha e coluna ou a posição da linha e nome da coluna, dentre outras coisas. Abaixo, você encontra um vídeo contemplando as funções loc e iloc, o uso de pandasql, query, filter, e por aí vai. Bora pra mais um vídeo! Continuar a ler “Filtros e seleções no Pandas”

Introdução aos Pipelines no Scikit-Learn

Não vou mentir, pipeline sempre foi um tema negligenciado por mim. Não usava sempre que possível e, quando usava, era no automático. Usava somente por usar, mas nunca prestando atenção no seu potencial. De uns tempos para cá isso mudou. Neste post, vou introduzir o tema pela primeira vez aqui no EstatSite. Continuar a ler “Introdução aos Pipelines no Scikit-Learn”

Jupyter Notebook: Introdução e dicas

O post de hoje é sobre uma das ferramentas mais utilizadas por cientistas de dados que utilizam o Python: o Jupyter Notebook. Aqui, vou te mostrar alguns passos da instalação (embora já tenha abordado de forma mais completa em Primeiros passos em Python), como utilizar a ferramenta e algumas dicas de uso. Bora! Continuar a ler “Jupyter Notebook: Introdução e dicas”

Gráficos no Seaborn – Parte 1 e 2

No post de hoje, você vai aprender a fazer gráficos utilizando um dos meus pacotes preferidos no Python, o Seaborn. Ele é um dos meus preferidos porque apesar de algumas customizações serem difíceis, o modo padrão dele é muito bom. Abaixo, você tem o tutorial de gráficos de dispersão – ou seja, para verificar a relação entre duas variáveis – e o gráfico de barras para medidas de tendência central – como a média de cada grupo, por exemplo. Continuar a ler “Gráficos no Seaborn – Parte 1 e 2”

Dividindo o dataset em treino e teste no Python

Quem está começando os primeiros modelos estatísticos sabe que uma coisa padrão é dividir a base em duas: treino e teste. A primeira é utilizada para construção do modelo e a segunda para testá-lo, verificar sua performance e entender se ele está overfittando – para overfitting, ler Overfitting e Explicando overfitting com uma anedota. Hoje, vamos ver como fazer essa divisão no Python. Bora! Continuar a ler “Dividindo o dataset em treino e teste no Python”

Uma introdução a Python orientado a objetos: Construção de classes

Comentei no Twitter do Estatsite (sigam lá @EstatSite) que estava estudando Python orientado a objetos. É uma forma ainda complicada de pensar o código para mim, mas vejo que é muito útil, principalmente pela forma com que muitos sistemas e modelos são construídos hoje em dia. Como o blog é para compartilhar o que aprendo, aqui vai uma introdução a esse estilo de programação. Continuar a ler “Uma introdução a Python orientado a objetos: Construção de classes”

Análise exploratória SUPER-fácil no Python!

Fazer gráficos no Python não é a coisa mais fácil do mundo. Não que seja mega difícil, mas não é tão trivial. Construir dashboards menos ainda. Bom, era até um tempo atrás. Hoje você vai aprender sobre uma biblioteca no Python capaz de construir dashboards com apenas UMA linha de código. Continuar a ler “Análise exploratória SUPER-fácil no Python!”

Como aumentar a largura da célula do Jupyter Notebook

Aí você vai rodar seu código no Jupyer e precisa ficar mexendo a barra de rolagem para poder ver tudo. Seja para o lado ou para baixo, a saída do código no Jupyter fica limitada. Enquanto uns podem achar bom, outros podem achar ruim, pois não consegue visualizar as informações que gostaria de comparar. Hoje, vou ensinar como ajustar tamanho de célula no Jupyter, de modo que a saída do código tenha mais espaço, e como deixar a saída do código totalmente aberta, sem precisar ficar descendo a barra de rolagem. Continuar a ler “Como aumentar a largura da célula do Jupyter Notebook”

Resumo Estatístico Agrupando por Categoria em Python

Há várias formas de se obter estatísticas descritivas no Python. A mais comum é utilizando o describe(). Porém, essa função não é tão útil quando precisamos de resumos por grupo. Imagine, por exemplo, tentar obter a idade média dos clientes por estado, ou por gênero. Além dessa flexibilização, seria interessante também poder fazer um resumo de alguma métrica criada por você. O post de hoje é, claro, sobre isso. Vamos obter um resumo estatístico agrupando por categoria, além de incluir funções criadas por nós mesmos, em Python. Continuar a ler “Resumo Estatístico Agrupando por Categoria em Python”