Como retirar duplicidades no R

Sempre que você trabalha com um conjunto de dados é importante saber se ele tem alguma duplicidade. I.e., se algum elemento aparece mais de uma vez, sendo que não deveria. No R, a função mais trivial para retirar duplicidade na sua tabela, vetor, data frame, é a unique(). Continuar a ler “Como retirar duplicidades no R”

Estatística Tradicional e Machine Learning, qual a melhor?

Junto ao crescimento exponencial de informações e tipos de dados, surgem atualmente, de maneira acelerada, novas tecnologias e metodologias capazes de suportar, processar e analisar todo esse volume de informações. Com isso, alguns temas e discussões acabam vindo à tona no mundo do cientista de dados e dois dos que causam mais polêmica são justamente o que é melhor usar e como usar determinadas técnicas de análise de dados.  Continuar a ler “Estatística Tradicional e Machine Learning, qual a melhor?”

Artigos que utilizam o Diff-in-Diff

Falei pouco sobre Diff-in-Diff aqui, somente nos posts Regressão Diff-In-Diff com Efeitos Fixos no R e Diferenças em Diferenças (Diff-in-Diff). Porém, é um modelo muito interessante para quem vai fazer pesquisa, principalmente quando se avalia políticas públicas. Continuar a ler “Artigos que utilizam o Diff-in-Diff”

Amostra: Definição e Exemplo Prático

População é o conjunto de todos os indivíduos, coisas ou eventos do problema em questão. Em um estudo médico sobre obesidade, a população são todos os indivíduos obesos. Em uma análise sobre acidentes de trânsito, a população é composta por todos os acidentes de trânsito. Continuar a ler “Amostra: Definição e Exemplo Prático”

Variáveis: Definição e Classificação

Se você já estudou algo de estatística, com certeza já ouviu muito a palavra variável. Esse nome importante aparece desde a introdução da matéria até quando falamos de modelos robustos em ciência de dados e machine learning. Hoje, vamos abordar sua definição formal, classificar os diferentes tipos e ver alguns exemplos.

Continuar a ler “Variáveis: Definição e Classificação”

Formatação de Datas no SAS

Sim, continuamos aprendendo a lidar com formatações no SAS. Como sabemos, os dados nem sempre chegam no formato certo. Pode ter número em formato de texto, data em formato de número, além de outras complicações. Hoje, vamos complementar o post Formatando Datas no SAS com mais algumas dicas de como formatar os campos de data no SAS. Continuar a ler “Formatação de Datas no SAS”

Artigo Científico sobre Experimentos Aleatórios Controlados

No meu texto de segunda feira escrito para o Portal Deviante, chamado Qual o tamanho da influência de seus amigos?, mencionei um ótimo artigo para quem quer estudar RCT (Randomized Controlled Trials). O artigo se chama How Does Peer Pressure Affect Educational Investments e é altamente recomendável para quem está estudando a matéria. Leia o meu texto e as indicações ao final dele!

Abraços!

Um exemplo prático de Viés de Seleção

Errar na hora de selecionar a amostra de um estudo pode causar vários problemas no experimento. Escrevi recentemente um texto no Portal Deviante sobre o assunto. Para ler clique no link: Amostra que perde guerra!

Leia também: Viés de Seleção: Seus resultados podem estar te enganando