Análise exploratória SUPER-fácil no Python!

Fazer gráficos no Python não é a coisa mais fácil do mundo. Não que seja mega difícil, mas não é tão trivial. Construir dashboards menos ainda. Bom, era até um tempo atrás. Hoje você vai aprender sobre uma biblioteca no Python capaz de construir dashboards com apenas UMA linha de código.

Sweetviz é uma biblioteca bastante poderosa no Python, pois te possibilita criar análises exploratórias incríveis com uma linha de comando. Vejamos as coisas que ela é capaz de fazer, vamos começar importante a biblioteca e os dados do dataset iris:

import sweetviz as sv
import pandas as pd
iris = pd.read_csv('iris.csv')
iris.head()

Começamos então com a função analyze():

my_report = sv.analyze(iris)
my_report.show_html() 

O print acabou cortando parte do output, mas veja que incrível o resultado dessa simples função. Você obteve diversas estatísticas descritivas, valores missing e o histograma para todas as colunas da tabela. Lembrando mais uma vez, com UMA linha de código (duas se contarmos o show_html()).

Mais do que isso, se você passar o mouse em qualquer variável, abre uma nova janela ao lado contendo outras informações, como correlação no caso de variáveis numéricas, frequência de valores no caso de variáveis categóricas, dentre outras coisas:

Há ainda outras duas funções principais, a compare() e a compare_intra().

No caso do compare(), você deve passar dois datasets para a função que ela realizará uma análise comparativa. Para facilitar a identificação de cada dataset, recomenda-se passar um nome para cada um deles, dessa forma:

sv.compare([dataset1, 'nome do dataset1'], [dataset1, 'nome do dataset2'])

Veja um exemplo comparando o dataset filtrando somente a espécie Setosa com o dataset filtrando somente a espécie Virgínica:

# Compara dois datasets
my_report = sv.compare([iris[iris['Species']=='Iris-setosa'], "Setosa"], [iris[iris['Species']=='Iris-virginica'], "Virginica"])
my_report.show_html()

Caso você tenha muitas variáveis e não queira um output gigante, basta acrescentar como parâmetros a variável que você deseja examinar que ela será destacada:

# Compara dois datasets
my_report = sv.compare([iris[iris['Species']=='Iris-setosa'], "Setosa"], [iris[iris['Species']=='Iris-virginica'], "Virginica"], 'SepalLengthCm')

my_report.show_html()

O que eu fiz acima foi um improviso com a função compare(). Digo isso porque essa função serve para comparar datasets diferentes. No caso de comparar subconjuntos de um mesmo dataset, como fiz acima, você poderia usar direto a função compare_intra() que é muito parecida com a função acima. Você passa um booleano, no nosso caso vamos passar quando a espécie for igual a Setosa e, novamente, o nome para cada grupo:

my_report = sv.compare_intra(iris, iris["Species"] == "Iris-setosa",["Iris-setosa", "Others"])

my_report.show_html()

Fácil, ein?

Prometo trazer outras funcionalidades no futuro. Mas se você quiser explorar mais da biblioteca, você encontra tudo sobre ela clicando aqui.

Gostou do conteúdo? Se inscreva para receber as novidades! Deixe seu e-mail em INSCREVA-SE na barra à direita, logo abaixo de pesquisar. E, por favor, não deixe de comentar, dar seu feedback e compartilhar com seus amigos. De verdade, isso faz toda a diferença. Você também pode acompanhar mais do meu trabalho seguindo a conta de Twitter @EstatSite ou por alguma das redes que você encontra em Sobre o Estatsite / Contato.

Bons estudos!

Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *