Nova linguagem para Cientistas de Dados: Julia

Uma nova linguagem, que promete ter a agilidade do C++ com a intuição do R e Python, vem agitando o mercado de data science. Com sua primeira versão, Julia 1.0, lançada recentemente, alguns se perguntam se é hora de trocar o R e o Python pelo novo software. Continuar a ler “Nova linguagem para Cientistas de Dados: Julia”

Análise de Componentes Principais (PCA) no R

Estava fazendo um curso de machine learning, quando reparei que as minhas notas com o código R para rodar PCA, estavam até que bem didáticas. Ainda não falei do conteúdo aqui no site, mas acho que compartilhar esse código já deve ajudar algumas pessoas. Continuar a ler “Análise de Componentes Principais (PCA) no R”

Como pular a primeira linha no SAS

Criar, ou “setar”, uma base no SAS, tirando uma variável específica, é até que bem manjado. Basta utilizar o famoso DROP. No código abaixo, criamos a base_new, pegando a base_old e tirando as variáveis var_1 e var_2: Continuar a ler “Como pular a primeira linha no SAS”

Frequência cruzada no R

Analisar as variáveis da sua base é tarefa fundamental para qualquer analista de dados, cientista de dados, estatístico, etc. No R, é possível fazer isso usando o pacote Hmisc. Outra forma fácil de se fazer isso, com uma saída levemente diferente da explicada anteriormente, é utilizar a função table(). Continuar a ler “Frequência cruzada no R”

Gráfico no R, colorindo pontos por categoria

Normalmente, quando fazemos gráficos, estamos analisando duas variáveis em conjunto. Posso estar analisando renda salarial vs. anos de estudo, peso vs. altura, e por aí vai. Sempre o tradicional gráfico com dois eixos. Prático e de fácil leitura. Mas e se você precisasse incluir mais uma dimensão? Sendo esta dimensão uma variável categórica, que tal colocar um pouco mais de cor no seu gráfico? Continuar a ler “Gráfico no R, colorindo pontos por categoria”

Separando a base treino e teste no R

Como a maioria aqui já sabe, quando temos um conjunto de dados para utilizar na construção de um modelo, precisamos fazer uma separação entre o que chamamos de treino teste. O que costumamos chamar de base treino, é o conjunto de dados que utilizaremos na construção do modelo. Continuar a ler “Separando a base treino e teste no R”

Usando dia, mês e ano para formar uma data no SAS

Alguns dos posts mais visitados aqui são os de formatação de datas no SAS. Você pode ver Formatação de Datas no SAS e esse Convertendo diferentes formatos de data no SAS, como exemplos. Agora, vou mostrar uma outra função que eu desconhecia, a MDY( ). Ela é útil, pois além de intuitiva, serve para quando você tem que lidar com os campos dia, mês e ano, separados. No exemplo abaixo, temos uma coluna com o dia, outra com o mês e uma última com o ano. Vamos criar um campo no formato de data, na ordem mês, dia e ano: Continuar a ler “Usando dia, mês e ano para formar uma data no SAS”

Importando Arquivos no SAS

Nem sempre os arquivos que você receberá, estarão no formato desejado. É comum recebermos arquivos em .txt, ou até mesmo em Excel, e precisarmos utilizá-los junto com bases em SAS. Felizmente, o SAS tem o PROC IMPORT para facilitar muito nossa vida. A sintaxe é bem simples, não tem muito segredo: Continuar a ler “Importando Arquivos no SAS”

Filtro e Criação de Variáveis com IF no SAS

O if é provavelmente o comando mais utilizado no SAS, junto com o JOIN (ou MERGE para os fãs de data step). Isso tudo porque é ele que vai te ajudar a fazer filtros, criar alguma variável de acordo com uma condição, criar mútiplas variáveis de acordo com uma condição ou até criar múltiplas variáveis de acordo com múltiplas condições. Continuar a ler “Filtro e Criação de Variáveis com IF no SAS”