Introdução ao Text Mining com Python

Ainda não fiz nenhum post sobre text mining neste blog, o que é um pecado. Analisar textos, agora que muita informação está no Twitter, Facebook, comentários, discussões online, dentre tantas outras coisas, é essencial. Por isso, hoje vou fazer um breve post, no melhor estilo github, deixando somente o código e os comentários. Penso que é tudo bem auto-explicativo aqui, mas fiquem à vontade de me questionar nos comentários ou em qualquer outro lugar, caso tenham dúvidas com relação a algum trecho. Continuar a ler “Introdução ao Text Mining com Python”

Join / Merge no Python (Usando Pandas)

Assim como aprendemos no SQL, ou qualquer linguagem para manipulação de bases de dados, como unir bases de dados de diferentes maneiras, o Pandas nos permite fazer estas tratativas no Python. Abaixo, vamos aprender como fazer as uniões de tabelas e algumas táticas que podem facilitar sua vida. Continuar a ler “Join / Merge no Python (Usando Pandas)”

Só existem 4 grandes clubes no Brasil!

Há um tempo, um jornalista levantou o ponto de que só existem 4 grandes clubes no Brasil. Comentei isto numa thread no meu Twitter, mas antes havia iniciado este post aqui porque eu queria argumentar um pouco mais. O post ficou como rascunho por várias semanas até que hoje eu acidentalmente o vi. Achei válido finalizá-lo, só por diversão, mesmo não tendo nada a ver com o EstatSite. A fonte se resume ao Wikipedia, mas vou colocar alguns links ao fim do post. Continuar a ler “Só existem 4 grandes clubes no Brasil!”

Correlação / Causalidade + RDD: Educação Impacta na Criminalidade?

Este post já está ficando cada vez mais batido aqui no blog, mas toda vez que eu encontro um bom exemplo, me sinto na obrigação de trazê-lo. Desta vez, a análise é sobre correlação e criminalidade. Afinal de contas, parece que alunos repetentes estão mais propensos ao crime. Ou seja, a repetência teria algum efeito sobre a criminalidade. Será? Continuar a ler “Correlação / Causalidade + RDD: Educação Impacta na Criminalidade?”

Exercício: Analisar Gráficos que Induzem ao Erro na Interpretação

Resolvi compartilhar um exercício que tive que fazer, no qual o objetivo era analisar um gráfico e localizar suas falhas. Isto tudo com base num trabalho de Alberto Cairo, chamado Graphics Lies, Misleading Visuals (recomendadíssimo!). Recebi 15/15 pontos de três avaliadores, mas fica aí aberto para quem tiver críticas ou sugestões. Recomendo também que façam este tipo de exercício, ainda que não tenham um avaliador. Só o fato de parar para pensar no tema já traz uma boa evolução. Continuar a ler “Exercício: Analisar Gráficos que Induzem ao Erro na Interpretação”

Variáveis Aleatórias Contínuas

Dando continuidade aos posts sobre variáveis aleatórias (se você ainda não leu os demais, vá em Variáveis: Definição e Classificação e Variáveis Aleatórias Discretas), vamos falar agora das variáveis aleatórias contínuas. Vamos entender a definição destas variáveis, entender suas funções e como calcular o valor médio e a variância. Continuar a ler “Variáveis Aleatórias Contínuas”

Variáveis Aleatórias Discretas

No passado, foi introduzido o conceito de variáveis no post Variáveis: Definição e Classificação. Agora, vamos introduzir o conceito de variável aleatória e derivados, como função de probabilidade, função de distribuição, além da forma de se calcular a média e a variância para estas variáveis. Continuar a ler “Variáveis Aleatórias Discretas”

Tabela Dinâmica no Python

Todo mundo já se complicou tentando fazer uma tabela dinâmica (pivot table) fora do Excel. No Python, você não precisa criar uma função ou fazer algum tipo de manipulação com a tabela para chegar numa visão semelhante ao que fazemos nas tabelas dinâmicas do Excel. Vamos entender então como utilizar a função pivot_table – se você estiver iniciando e não sabe ainda o que é uma tabela dinâmica, recomendo que vá ao Youtube, faça uma pesquisa rápida e volte em seguida. Continuar a ler “Tabela Dinâmica no Python”

Tutorial: Strings em Python

Trabalhar com variáveis texto não é a coisa mais difícil do mundo, mas nem sempre é trivial. Como contar a quantidade de caracteres (i.e. o comprimento) de uma variável? Como converter uma variável minúscula para maiúscula? Como pegar um trecho (~substring) de uma variável texto? Como concatenar dois campos e criar uma nova coluna com base neles? Tudo isso é essencial para a sobrevivência de um cientista de dados. Neste post, vamos conhecer alguns comandos essenciais para quando se trabalha com variáveis strings no Python. Continuar a ler “Tutorial: Strings em Python”

Tutorial: Tratando sua Tabela no Python (com Pandas)

Este Tutorial deveria se chamar “Selecionando e Filtrando Elementos em um Dataframe no Python”, entretanto, para não confundir ninguém, exclui o termo “Dataframe”. De maneira formal, Dataframe é um objeto formado por séries bidimensionais. De forma esdrúxula, é o que normalmente lemos como uma tabela. Neste post, trabalhando com a biblioteca Pandas, vou mostrar como localizar elementos, fazer filtros, excluir colunas, ordenar os dados, dentre outras tarefas que realizamos em Dataframes. Continuar a ler “Tutorial: Tratando sua Tabela no Python (com Pandas)”