GGPLOT( ) é o Puro Creme dos Gráficos em R

Ok, o título é brega, mas eu tinha que chamar a atenção ao ggplot(). Embora já tenha falado do pacote ggplot2 em outros posts, a função ggplot() e todo seu poder de fogo mereciam um espaço inteiramente à eles. Aqui você vai aprender a fazer mais uma vez gráficos em barras, de dispersão, de linha, dentre outros, mas vai ver também várias formas de demonstrar a relação de 3 ou mais variáveis e de visualizar essas diferentes saídas. Como é um post mais específico e não tem aquele título para um objetivo específico, é possível que poucos o vejam. Se você está aqui, não feche a janela, sério, você não vai se arrepender. São só alguns minutinhos! Continuar a ler “GGPLOT( ) é o Puro Creme dos Gráficos em R”

Desenhando Gráficos de Diversas Variáveis no R

Algo muito útil para qualquer análise exploratória é poder traçar vários gráficos de uma vez só, num mesmo quadro. Tanto a possibilidade de traçar um histograma e um boxplot de uma determinada variável lado a lado, quanto a de traçar o histograma de todas as variáveis da base são muitos úteis na análise exploratória. Neste post, veremos algumas das possibilidades existentes no R: Continuar a ler “Desenhando Gráficos de Diversas Variáveis no R”

Histograma no R Agrupando 1 e 0?

Recentemente, recebi um e-mail pedindo uma ajuda para montar um histograma no R. O problema que a pessoa enfrentava era o seguinte: ao usar a função hist(), o R estava agrupando as quantidades que estavam na barra 1 e 0. Ou seja, se a pessoa tivesse 5 ocorrências do valor 0 e outras 3 com valor 1, o gráfico apresentaria só uma barra, registrando 8 ocorrências. Veja o exemplo abaixo: Continuar a ler “Histograma no R Agrupando 1 e 0?”

Equivalente ao Proc Sql Group By no R

Suponha que você tenha uma tabela analítica com as informações de compras dos seus clientes. Cada linha da tabela equivale a uma compra diferente que o cliente fez. O que você quer é saber o valor médio das compras de cada cliente. Como você conseguiria fazer isso no R? Continuar a ler “Equivalente ao Proc Sql Group By no R”

Merge (Join) no R

No post Como combinar tabelas no SAS utilizando left join e full join ensinei como unir tabelas no SAS, utilizando o PROC SQL. Agora, como podemos fazer essa união no R? Como utilizar os clássicos inner join, left join, right join, etc., no R? É bem simples, você vai ver que consegue fazer tudo isso com menos linhas que no SQL. Continuar a ler “Merge (Join) no R”

Geolocalização: Plotando os pontos em um mapa no R

Trabalhando com uma base de dados de vendas do e-commerce brasileiro, me deparei com uma lista dos locais onde as compras foram feitas e outra com os locais de onde eram os compradores. Pensei comigo que uma forma bacana de demonstrar onde as compras eram feitas, seria marcando os locais das lojas ou dos compradores, no próprio mapa. Neste momento, descobri alguns pacotes novos no R e gostaria de compartilhar com vocês. A base utilizada pode ser baixada no Kaggle neste link aqui.

Continuar a ler “Geolocalização: Plotando os pontos em um mapa no R”

Sumifs e Countifs no R

A maioria das pessoas que usa Excel já utilizou as funções sumif() e countif(), em português soma.se() e cont.se(). Estas funções tem como retorno a soma de determinada coluna condicionada a alguma regra qualquer. Imagine, por exemplo, que você é dono de uma loja e queira saber qual foi o gasto total em compras dos clientes acima de 50 anos na sua loja. Mais do que a soma, você pode querer a média ou a contagem do número de clientes. Para entender como se obter isso no R, dê uma olhada na tabela abaixo, composta por uma chave de identificação do cliente (id_cliente), o valor gasto em compras (vlr_compra), a idade e a UF: Continuar a ler “Sumifs e Countifs no R”

Média por Grupo no R

Imagine que você tenha uma base contendo informações de diversos grupos ou categorias diferentes. Pode ser que você tenha a informação de idade para cada indivíduo e queira saber a média por sexo, por região ou até por separação de grupo tratamento e controle. No R, o pacote plyr facilita bastante esta análise. Não tenho certeza se já postei isso antes, mas como utilizei o código agora a pouco durante um curso de Data Science, acho válido compartilhar. Continuar a ler “Média por Grupo no R”

Regressão Logística no R

Regressão logística é uma técnica estatística muito poderosa, utilizada para modelagem de saídas binárias (sim ou não). Quando se quer medir a relação de uma variável dependente binária com uma ou mais variáveis independentes, é comum utilizar esta técnica. Pense, por exemplo, numa empresa que empresta dinheiro para um cliente. Com base nas informações deste cliente (idade, profissão, etc.), é interessante a empresa tentar prever se o cliente vai pagar a dívida ou não. Uma forma de tentar prever isso é utilizando a regressão logística.  Continuar a ler “Regressão Logística no R”

Análise de Componentes Principais (PCA) no R

Estava fazendo um curso de machine learning, quando reparei que as minhas notas com o código R para rodar PCA, estavam até que bem didáticas. Ainda não falei do conteúdo aqui no site, mas acho que compartilhar esse código já deve ajudar algumas pessoas. Continuar a ler “Análise de Componentes Principais (PCA) no R”