Entendendo seus dados em Python

Quando você importa alguma tabela em ambientes como o R e o Python, diferente de um Excel que está escancarado na sua cara, é preciso ter um conhecimento mínimo de algumas funções para entender o que há na tabela. Por exemplo, o que está nas primeiras linhas, o que está nas últimas ou qual o tipo de cada elemento. Este post é para isso.

Não se esqueça de que no Rodeo, ao executar todas as linhas de uma vez, o console omite algumas saídas. Portanto, recomendo que você execute linha a linha do código abaixo. Ou acrescente o print() para cada output.

Inicialmente, ao invés de importarmos os dados (porque isso já foi explicado em Primeiros Passos em Python COLOCAR LINK), criaremos um data frame com 5 colunas chamadas A, B, C, D e E. Note que utilizamos pd.DataFrame() para criar um data frame, mas dentro da função precisamos utilizar outras funções para que o programa crie cada sequência que queremos – Data, Série e Categórica.

# importa a biblioteca
import pandas as pd

# cria data frame
dtf = pd.DataFrame({'A' : pd.date_range('20130102', periods=7),
'B' : pd.Series([1,2,3,4,5,6,7],index=list(range(7)),dtype='float32'),
'C' : pd.Categorical(["azul","azul","verde", "verde", "cinza", "marrom","azul"])});

Agora, vamos explorar o conteúdo da tabela:

# Ver as 3 primeiras linhas
dtf.head(3)

# Ver as 3 ultimas linhas
dtf.tail(3)

# Tipos dos objetos
dtf.dtypes

# Nome das colunas
list(dtf.columns.values)

Se você quiser localizar possíveis valores missing:

dtf.apply(lambda x: sum(x.isnull()),axis=0)

Agora, se você quiser mexer um pouco na ordem apresentada:

# reorganiza as colunas
dtf.sort_index(axis=1)

#ordena linhas de acordo com coluna B decrescente
dtf.sort_values(by='B', ascending=False)

Se você quiser visualizar apenas algumas linhas ou colunas específicas:

# seleciona da linha 2 a linha 4
dtf[2:4]
# seleciona somente coluna B
dtf["B"]

E, por fim, se você quiser selecionar as linhas de acordo com uma condição (e.g.: todas as pessoas do sexo feminino, todos os clientes inadimplentes, etc.):

# selecionar somente quando coluna C for azul
dtf.loc[(dtf['C'] == "azul")]

# selecionar quando coluna C for azul e B menor que 2
dtf.loc[(dtf['C'] == "azul") & (dtf['B'] < 2)]

# selecionar quando coluna C for azul e A menor que 8 de janeiro de 2013
dtf.loc[(dtf['C'] == "azul") & (dtf['A'] < '2013-01-08')

Com isso, você dificilmente passará apuros tentando entender os seus dados.

Em breve postarei sobre inferência e análise exploratória. Mas se quiser ter uma ideia sobre os temas, há uma pequena introdução em Primeiros Passos em Python.

E aí, curtiu o post?

E aí? Gostou do conteúdo? Se inscreva para receber todas as novidades. Deixe seu e-mail em INSCREVA-SE na barra à direita, logo abaixo de pesquisar. E, por favor, não deixe de comentar, dar seu feedback e, principalmente, compartilhar com seus amigos. De verdade, isso faz toda a diferença. Além disso, você também pode acompanhar mais do meu trabalho seguindo a conta de Twitter @UniDosDados, no Instagram @universidadedosdados ou por alguma das redes que você encontra em Sobre o Estatsite / Contato, como meu canal de Youtube Canal Universidade dos Dados.

Aproveite e adquira sua camiseta de data science na LOJA DA UNIVERSIDADE DOS DADOS. Vai ficar estiloso e me ajudar neste projeto!

BONS ESTUDOS!

Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *