Sempre importante valorizar o trabalho dos colegas de profissão. Como eu sou fã de podcasts, segue uma nova recomendação: Pizza de Dados
Big Data vs. Freud
Mais um texto no Portal Deviante. E ai, você consegue imaginar Continuar a ler “Big Data vs. Freud”
Formas de deletar linhas com Missing no SAS
Neste post, vamos ver algumas formas de se deletar uma linha no SAS, caso tenhamos campos missing. Para os exemplos abaixo, utilizar os seguintes dados: Continuar a ler “Formas de deletar linhas com Missing no SAS”
Loop no R
Quando falamos de loop em computação, estamos nos referindo a uma sequência de comandos que são especificados uma vez no código, mas executados repetidas vezes sucessivamente. Saber como executar um loop significa economizar linhas de código e aumentar a eficiência do seu programa. Por isso, hoje vamos falar de loops no R. Continuar a ler “Loop no R”
Criando dataframes e gerando amostras no R
Muitas vezes, se queremos praticar algo no R (ou outra linguagem), é interessante criarmos um conjunto de dados de mentira ou retirar uma amostra de um conjunto real. Se o dataset falso ou a amostra tiver menos observações, você não vai precisar demorar alguns longos minutos testando o que criou, você vai ver aquilo rodando rapidinho com seus exemplos. Sendo assim, vamos aprender como criar esses dados falsos e como seria retirar uma amostra dos seus dados. Continuar a ler “Criando dataframes e gerando amostras no R”
Média Geométrica no SAS
A média é uma medida de tendência central muito utilizada, mas com vários problemas. Se temos outliers, geralmente preferimos utilizar a mediana. Outras vezes vamos preferir médias ponderadas. Em outros casos, quando temos medidas que crescem de forma exponencial, ou casos de distribuições assimétricas, vamos falar da média geométrica.
Continuar a ler “Média Geométrica no SAS”
SAS: Representatividade de cada linha e Soma Cumulativa
Recentemente me pediram ajuda com o SAS, para que fosse possível colocar, para determinada coluna, o quanto cada linha representava (%) da soma total dessa coluna. Na sequência, seria preciso colocar a soma cumulada desses percentuais. Continuar a ler “SAS: Representatividade de cada linha e Soma Cumulativa”
Signo no modelo, vale?
Certo dia, uma amiga, da área de modelagem também, me disse a seguinte frase “se eu colocar signo, e for significativo, então eu uso no meu modelo”. Eu esperaria esse comentário de uma pessoa com zero conhecimento em econometria, ou um terraplanista, mas escutar isso de alguém envolvido com data science, me surpreendeu muito. Convenhamos, achar que a posição dos planetas no momento em que a pessoa nasce, significa algo, é muito leviano. Para não dizer outra coisa.
Sobre o viés de variável omitida e estudos observacionais
Para quem leu Viés de Variável Omitida: Um exemplo prático e Viés de Variável Omitida: Prova Matemática, mas ainda tem dúvidas, segue um episódio Continuar a ler “Sobre o viés de variável omitida e estudos observacionais”
Unindo tabelas no R (Join/Merge)
Quem trabalha muito com bases de dados com certeza já usou algum comando com o nome merge ou os famosos joins. Esse eu acho que é de longe o tipo de comando que eu mais uso quando trabalho com base de dados. Como você nunca tem todas as informações possíveis em uma tabela, você sempre vai precisar enriquecer suas bases com informações de outros locais. Continuar a ler “Unindo tabelas no R (Join/Merge)”