ESTATSITE.COM.BR - Falando de Ciência de Dados desde 2016

Jupyter Notebook: Introdução e dicas

O post de hoje é sobre uma das ferramentas mais utilizadas por cientistas de dados que utilizam o Python: o Jupyter Notebook. Aqui, vou te mostrar alguns passos da instalação (embora já tenha abordado de forma mais completa em Primeiros passos em Python), como utilizar a ferramenta e algumas dicas de uso. Bora! Continuar a ler “Jupyter Notebook: Introdução e dicas”

Gráficos no Seaborn – Parte 1 e 2

No post de hoje, você vai aprender a fazer gráficos utilizando um dos meus pacotes preferidos no Python, o Seaborn. Ele é um dos meus preferidos porque apesar de algumas customizações serem difíceis, o modo padrão dele é muito bom. Abaixo, você tem o tutorial de gráficos de dispersão – ou seja, para verificar a relação entre duas variáveis – e o gráfico de barras para medidas de tendência central – como a média de cada grupo, por exemplo. Continuar a ler “Gráficos no Seaborn – Parte 1 e 2”

Como remover espaços em branco ou qualquer caractere no SQL?

Mais uma vez, vamos atacar o problema de lidar com conjuntos de dados mal formatadOs. Dessa vez, aqueles com espaços em branco ou outro caractere indesejado. Pois bem, vamos aprender como remover espaços em branco ou qualquer caractere no SQL; seja porque você não quer que eles apareçam ou porque está fazendo um join e quer garantir que o campo da tabela 1 é igual a tabela 2. Continuar a ler “Como remover espaços em branco ou qualquer caractere no SQL?”

Regularização: Introdução ao conceito e sua importância

Adicionar viés ao modelo estatístico é uma coisa estranha de se escutar. Na verdade, não parece fazer muito sentido. Um modelo ter mais viés que outro e ainda ser melhor soa esquisito. Mas acredite, isso é possível. E é com base nisso que entra um tema importantíssimo em machine learning chamado REGULARIZAÇÃO. Continuar a ler “Regularização: Introdução ao conceito e sua importância”

Dividindo o dataset em treino e teste no Python

Quem está começando os primeiros modelos estatísticos sabe que uma coisa padrão é dividir a base em duas: treino e teste. A primeira é utilizada para construção do modelo e a segunda para testá-lo, verificar sua performance e entender se ele está overfittando – para overfitting, ler Overfitting e Explicando overfitting com uma anedota. Hoje, vamos ver como fazer essa divisão no Python. Bora! Continuar a ler “Dividindo o dataset em treino e teste no Python”

Quer estagiar na área de Ciência de Dados?

Para quem não tem experiência nenhuma, mas quer começar a atuar na área, este post é para você! Continuar a ler “Quer estagiar na área de Ciência de Dados?”

Uma introdução a Python orientado a objetos: Construção de classes

Comentei no Twitter do Estatsite (sigam lá @EstatSite) que estava estudando Python orientado a objetos. É uma forma ainda complicada de pensar o código para mim, mas vejo que é muito útil, principalmente pela forma com que muitos sistemas e modelos são construídos hoje em dia. Como o blog é para compartilhar o que aprendo, aqui vai uma introdução a esse estilo de programação. Continuar a ler “Uma introdução a Python orientado a objetos: Construção de classes”

Análise exploratória SUPER-fácil no Python!

Fazer gráficos no Python não é a coisa mais fácil do mundo. Não que seja mega difícil, mas não é tão trivial. Construir dashboards menos ainda. Bom, era até um tempo atrás. Hoje você vai aprender sobre uma biblioteca no Python capaz de construir dashboards com apenas UMA linha de código. Continuar a ler “Análise exploratória SUPER-fácil no Python!”

Como aumentar a largura da célula do Jupyter Notebook

Aí você vai rodar seu código no Jupyer e precisa ficar mexendo a barra de rolagem para poder ver tudo. Seja para o lado ou para baixo, a saída do código no Jupyter fica limitada. Enquanto uns podem achar bom, outros podem achar ruim, pois não consegue visualizar as informações que gostaria de comparar. Hoje, vou ensinar como ajustar tamanho de célula no Jupyter, de modo que a saída do código tenha mais espaço, e como deixar a saída do código totalmente aberta, sem precisar ficar descendo a barra de rolagem. Continuar a ler “Como aumentar a largura da célula do Jupyter Notebook”

Função coealesce do SQL

Hoje vamos de uma função do SQL bastante presente nos códigos e de certa forma acho que até subestimada quando a vemos pela primeira vez, o coalesce(). Assim como a linguagem, essa função acaba sendo deixada de lado, parecendo algo simples e banal, mas que direto acaba sendo útil. Ao menos, para mim. Sem mais delongas, vamos ao post! Continuar a ler “Função coealesce do SQL”