Tudo sobre valores missing no Pandas!

Lidar com valores nulos não é difícil para quem usa Pandas. Porém, é legal que o usuário tenha em mente todas as possibilidades, formas de identificar missing, como preenchê-los ou excluí-los, a depender da estratégia, dentre outras coisas. Se você está precisando de dicas para lidar com valores nulos no Pandas, este post é para você! Abaixo, temos diversas estratégias e comandos que serão úteis para quem está tendo que lidar com esse problema. Continuar a ler “Tudo sobre valores missing no Pandas!”

Missing no Python: Como Localizar e Substituir

Na vida real, as bases são bem diferentes do que costumamos ver na academia ou até mesmo em sites como o Kaggle. Sendo assim, é importante saber como lidar quando se deparar com um conjunto de dados em que haja algo faltando, em que existam campos missing. Vamos aprender como localizar linhas e colunas com missing, além de preencher essas células com algum valor. Bora aprender como tratar missing no python! Continuar a ler “Missing no Python: Como Localizar e Substituir”

Tutorial: Limpeza e Análise de Dados com Python

Hoje vamos aprender algumas coisas que podem ser feitas quando se trabalha com dataframes no Python. Como filtrar uma base? Como converter textos para números? Como extrair um valor de moeda no formato texto para o formato numérico? Como obter as estatísticas descritivas?  Como criar novas colunas? Como traçar um histograma? Como localizar valores nulos e preenchê-los com a média da coluna? Tudo isso e muito mais no post abaixo! Continuar a ler “Tutorial: Limpeza e Análise de Dados com Python”

Tutorial: Lidando com Missing no SAS

Já falei sobre missing em alguns posts aqui (ver post Verificar se alguma das colunas é missing no SAS e Formas de deletar linhas com Missing no SAS), mesmo assim, notei que faltaram algumas coisas. Este post é para dar conta do que não foi abordado no assunto. Ou seja, pode considerar o TUTORIAL como sendo a soma destes 3 posts. Continuar a ler “Tutorial: Lidando com Missing no SAS”

Verificar se alguma das colunas é missing no SAS

Já vimos algumas formas de lidar com variáveis missing, tanto no post Tutorial: Proc Sql (SAS), quando no Formas de deletar linhas com Missing no SAS. Mas essas são formas de olhar para uma variável e excluir a linha. E se quisermos olhar para todas as variáveis? Continuar a ler “Verificar se alguma das colunas é missing no SAS”

Tutorial: Proc Sql (SAS)

Como já disse algumas vezes aqui, o SQL é uma linguagem própria para trabalhar com bases de dados. Logo, é de se esperar que alguns softwares utilizem funções semelhantes, ou até iguais, a ela. Isso porque (i) muitas pessoas que utilizam base de dados já estão acostumadas com o SQL, e (ii) é muito mais fácil se basear nessas funções já existentes do que ficar tentando criar algo novo mirabolante. O SAS, assim como outros softwares estatísticos Continuar a ler “Tutorial: Proc Sql (SAS)”

Entendendo seus dados em Python

Quando você importa alguma tabela em ambientes como o R e o Python, diferente de um Excel que está escancarado na sua cara, é preciso ter um conhecimento mínimo de algumas funções para entender o que há na tabela. Por exemplo, o que está nas primeiras linhas, o que está nas últimas ou qual o tipo de cada elemento. Este post é para isso.

Leia mais…

Substituindo missing pela média no R

Já mencionei aqui como excluir os valores missing dos seus cálculos no R, e aqui explico como excluir as linhas contendo valores missing. Porém, como vocês bem sabem, ao excluirmos a linha inteira temos perda de informação, afinal, uma coluna pode estar missing mas todo o restante da linha conter informação. Sendo assim, alguns estatísticos podem preferir não excluir a linha e fazer a escolha de substituir esses missing por outro valor, aqui vamos substituir pela média:

Leia mais…

Excluindo linhas missing no R

Essa é bem curtinha. Já expliquei como tirar os missings de seus cálculos no post Evitando “NA” nos cálculos do R, mas às vezes a gente quer construir uma base sem esses valores. Para fazer isso no R é simples, basta usar a função na.omit():

matriz_teste
      [,1] [,2]
 [1,]  10    5
 [2,]  NA    2
matriz_teste_sem_na = na.omit(matriz_teste)
matriz_teste_sem_na
      [,1] [,2]
 [1,]  10    5
E aí, curtiu o post?

E aí? Gostou do conteúdo? Se inscreva para receber todas as novidades. Deixe seu e-mail em INSCREVA-SE na barra à direita, logo abaixo de pesquisar. E, por favor, não deixe de comentar, dar seu feedback e, principalmente, compartilhar com seus amigos. De verdade, isso faz toda a diferença. Além disso, você também pode acompanhar mais do meu trabalho seguindo a conta de Twitter @UniDosDados, no Instagram @universidadedosdados ou por alguma das redes que você encontra em Sobre o Estatsite / Contato, como meu canal de Youtube Canal Universidade dos Dados.

Aproveite e adquira sua camiseta de data science na LOJA DA UNIVERSIDADE DOS DADOS. Vai ficar estiloso e me ajudar neste projeto!

BONS ESTUDOS!