Frequência cruzada no R

Analisar as variáveis da sua base é tarefa fundamental para qualquer analista de dados, cientista de dados, estatístico, etc. No R, é possível fazer isso usando o pacote Hmisc. Outra forma fácil de se fazer isso, com uma saída levemente diferente da explicada anteriormente, é utilizar a função table(). Continuar a ler “Frequência cruzada no R”

Gráfico no R, colorindo pontos por categoria

Normalmente, quando fazemos gráficos, estamos analisando duas variáveis em conjunto. Posso estar analisando renda salarial vs. anos de estudo, peso vs. altura, e por aí vai. Sempre o tradicional gráfico com dois eixos. Prático e de fácil leitura. Mas e se você precisasse incluir mais uma dimensão? Sendo esta dimensão uma variável categórica, que tal colocar um pouco mais de cor no seu gráfico? Continuar a ler “Gráfico no R, colorindo pontos por categoria”

Separando a base treino e teste no R

Como a maioria aqui já sabe, quando temos um conjunto de dados para utilizar na construção de um modelo, precisamos fazer uma separação entre o que chamamos de treino teste. O que costumamos chamar de base treino, é o conjunto de dados que utilizaremos na construção do modelo. Continuar a ler “Separando a base treino e teste no R”

Loop no R

Quando falamos de loop em computação, estamos nos referindo a uma sequência de comandos que são especificados uma vez no código, mas executados repetidas vezes sucessivamente. Saber como executar um loop significa economizar linhas de código e aumentar a eficiência do seu programa. Por isso, hoje vamos falar de loops no R. Continuar a ler “Loop no R”

Criando dataframes e gerando amostras no R

Muitas vezes, se queremos praticar algo no R (ou outra linguagem), é interessante criarmos um conjunto de dados de mentira ou retirar uma amostra de um conjunto real. Se o dataset falso ou a amostra tiver menos observações, você não vai precisar demorar alguns longos minutos testando o que criou, você vai ver aquilo rodando rapidinho com seus exemplos. Sendo assim, vamos aprender como criar esses dados falsos e como seria retirar uma amostra dos seus dados. Continuar a ler “Criando dataframes e gerando amostras no R”

Unindo tabelas no R (Join/Merge)

Quem trabalha muito com bases de dados com certeza já usou algum comando com o nome merge ou os famosos joins. Esse eu acho que é de longe o tipo de comando que eu mais uso quando trabalho com base de dados. Como você nunca tem todas as informações possíveis em uma tabela, você sempre vai precisar enriquecer suas bases com informações de outros locais.  Continuar a ler “Unindo tabelas no R (Join/Merge)”

Como retirar duplicidades no R

Sempre que você trabalha com um conjunto de dados é importante saber se ele tem alguma duplicidade. I.e., se algum elemento aparece mais de uma vez, sendo que não deveria. No R, a função mais trivial para retirar duplicidade na sua tabela, vetor, data frame, é a unique(). Continuar a ler “Como retirar duplicidades no R”

Como obter a moda no R

Moda é uma medida de tendência central. A definição é simples: é o valor que aparece com maior frequência nos seus dados. Exemplo: a moda do conjunto {1,1,2,2,3,3,3,4} é 3. Hoje, vamos ver como obter essa métrica no R!

Leia mais…

Séries Temporais: Gráficos para Sazonalidade

Além da decomposição apresentada no post Séries Temporais: Introdução e Decomposição dos Componentes em R, há outras formas de se visualizar a sazonalidade da série. A série utilizada aqui é a a10 do pacote fpp. Ela contém as informações de venda de antibióticos na Austrália no período de 1991 a 2008.

Leia mais…