Equivalente ao Proc Sql Group By no R

Suponha que você tenha uma tabela analítica com as informações de compras dos seus clientes. Cada linha da tabela equivale a uma compra diferente que o cliente fez. O que você quer é saber o valor médio das compras de cada cliente. Como você conseguiria fazer isso no R? Continuar a ler “Equivalente ao Proc Sql Group By no R”

Diferença entre duas datas no SAS (em dias, meses ou anos)

Calcular a diferença entre duas datas no SAS é simples, basta subtrair uma data pela outra. Porém, se você quiser fazer a diferença em meses, anos, semanas ou alguma unidade do tipo, há duas escolhas: (1) realizar a subtração e depois dividir o valor pelo número de dias correspondentes ao período (ex.: dividir por 30 no caso de mês) ou (2) utilizar a função intck(). É desta segunda que vou falar neste post. Continuar a ler “Diferença entre duas datas no SAS (em dias, meses ou anos)”

Loop no R

Quando falamos de loop em computação, estamos nos referindo a uma sequência de comandos que são especificados uma vez no código, mas executados repetidas vezes sucessivamente. Saber como executar um loop significa economizar linhas de código e aumentar a eficiência do seu programa. Por isso, hoje vamos falar de loops no R. Continuar a ler “Loop no R”

Criando dataframes e gerando amostras no R

Muitas vezes, se queremos praticar algo no R (ou outra linguagem), é interessante criarmos um conjunto de dados de mentira ou retirar uma amostra de um conjunto real. Se o dataset falso ou a amostra tiver menos observações, você não vai precisar demorar alguns longos minutos testando o que criou, você vai ver aquilo rodando rapidinho com seus exemplos. Sendo assim, vamos aprender como criar esses dados falsos e como seria retirar uma amostra dos seus dados. Continuar a ler “Criando dataframes e gerando amostras no R”

Como retirar duplicidades no R

Sempre que você trabalha com um conjunto de dados é importante saber se ele tem alguma duplicidade. I.e., se algum elemento aparece mais de uma vez, sendo que não deveria. No R, a função mais trivial para retirar duplicidade na sua tabela, vetor, data frame, é a unique(). Continuar a ler “Como retirar duplicidades no R”

Formatação de Datas no SAS

Sim, continuamos aprendendo a lidar com formatações no SAS. Como sabemos, os dados nem sempre chegam no formato certo. Pode ter número em formato de texto, data em formato de número, além de outras complicações. Hoje, vamos complementar o post Formatando Datas no SAS com mais algumas dicas de como formatar os campos de data no SAS. Continuar a ler “Formatação de Datas no SAS”

Como converter caractere para número no SAS

E vamos de mais formatação de colunas no SAS. Hoje, quero complementar o post Tutorial: Trabalhando com Variáveis Texto no SAS. Abaixo, estão duas formas de converter caractere para número no SAS. Você vai ver que não tem segredo nenhum e que é super fácil de decorar a sintaxe. Vamos nessa!

Leia mais…

Tutorial: Trabalhando com Variáveis Texto no SAS

Trabalhar com variáveis texto (aka string, var char) é muito comum e sempre necessário. Seja porque a variável não é em sua essência uma string – pode ser uma variável numérica que foi inserida como texto -, seja porque você quer retirar somente algumas partes desejáveis do campo, você sempre precisa dar uma trabalhada nelas.

Este post ensinará como algumas dicas do que pode ser feito com variáveis texto no SAS. Como extrair uma parte da string? Como deixar o campo com a letra inicial maiúscula? Como excluir espaços em branco? Essas e outras funções você encontrará logo abaixo.

Leia mais…

Gráfico de Dispersão no Python

O gráfico de dispersão, ou scatterplot, é um gráfico no qual se traçam os diferentes pares de pontos (x, y) para entender como duas variáveis se relacionam. Em outras palavras, queremos saber se quando x, também observamos um aumento em y. Ou qualquer outra relação, claro. Nos exemplos abaixo, utilizaremos a biblioteca numpy para criar uma série aleatória e matplotlib para gerar o gráfico.

Leia mais…