Minha Trilha para Se Tornar um Cientista de Dados

A pergunta que mais recebo é de longe, mas disparado MESMO, quais livros alguém deve seguir para sair do zero e se tornar um cientista de dados. Pensando nisso, resolvi fazer esse post com uma trilha do que considero o ideal para alguém partir do zero e se tornar um cientista de dados. Claro, pode … Continuar a ler “Minha Trilha para Se Tornar um Cientista de Dados”

Dicas: Processos Seletivos para Cientistas de Dados

Recentemente, fiz uma breve thread no Twitter com algumas breves dicas para quem vai participar de processos seletivos na área de Cientista de Dados. Não precisa levar como uma verdade absoluta, processos variam de empresa para empresa. Apenas imaginei que poderia ajudar com o que já experienciei sendo candidato e recrutador. Peguei os tweets e … Continuar a ler “Dicas: Processos Seletivos para Cientistas de Dados”

Mini Curso de SAS

Acabou de chegar em uma nova empresa e vai precisar usar o SAS, mas você nunca teve uma aula sequer na faculdade e quer impressionar o chefe? Nos links abaixo, você vai encontrar uma sequência das funções e métodos essenciais que você precisa ter conhecimento na linguagem.

Join / Merge no Python (Usando Pandas)

Assim como aprendemos no SQL, ou qualquer linguagem para manipulação de bases de dados, como unir bases de dados de diferentes maneiras, o Pandas nos permite fazer estas tratativas no Python. Abaixo, vamos aprender como fazer as uniões de tabelas e algumas táticas que podem facilitar sua vida.

Tutorial: Lidando com Missing no SAS

Já falei sobre missing em alguns posts aqui (ver post Verificar se alguma das colunas é missing no SAS e Formas de deletar linhas com Missing no SAS), mesmo assim, notei que faltaram algumas coisas. Este post é para dar conta do que não foi abordado no assunto. Ou seja, pode considerar o TUTORIAL como sendo … Continuar a ler “Tutorial: Lidando com Missing no SAS”

Merge (Join) no R

No post Como combinar tabelas no SAS utilizando left join e full join ensinei como unir tabelas no SAS, utilizando o PROC SQL. Agora, como podemos fazer essa união no R? Como utilizar os clássicos inner join, left join, right join, etc., no R? É bem simples, você vai ver que consegue fazer tudo isso … Continuar a ler “Merge (Join) no R”

Localizando Outliers Através do Intervalo Interquartil (+ Boxplot + Código SAS)

Recentemente, estava trabalhando com uma base de mais ou menos 500 mil linhas, onde a maior parte dos dados de uma determinada variável estava no intervalo de 0 a 1.000. Esta mesma variável, no entanto, possuía algumas linhas em que o valor dela era 5.000, 10.000 e até 15.000. Ou seja, haviam alguns outliers. Isto … Continuar a ler “Localizando Outliers Através do Intervalo Interquartil (+ Boxplot + Código SAS)”

Como marcar o percentil no SAS?

Matemáticos, estatísticos e cientistas de dados em geral, gostam de trabalhar com percentil. Faz mais sentido do que dividir uma variável contínua em faixas de valor quaisquer, escolhidas de forma subjetiva. No SAS, eu costumo criar essas faixas com o PROC UNIVARIATE. Eu crio uma tabela auxiliar com os valores de cada percentil e depois … Continuar a ler “Como marcar o percentil no SAS?”

Verificar se alguma das colunas é missing no SAS

Já vimos algumas formas de lidar com variáveis missing, tanto no post Tutorial: Proc Sql (SAS), quando no Formas de deletar linhas com Missing no SAS. Mas essas são formas de olhar para uma variável e excluir a linha. E se quisermos olhar para todas as variáveis?

Média Geométrica no SAS

A média é uma medida de tendência central muito utilizada, mas com vários problemas. Se temos outliers, geralmente preferimos utilizar a mediana. Outras vezes vamos preferir médias ponderadas. Em outros casos, quando temos medidas que crescem de forma exponencial, ou casos de distribuições assimétricas, vamos falar da média geométrica.