Getting back in the game

Ainda longe de estar totalmente recuperado, mas já apto a escrever um pouco vou usar o tempo que o médico liberou para escrever um pouco aqui… Hoje já consegui escrever dois posts curtinhos e uma introdução ao Python para quem quer aprender essa ferramenta bacana.

Spoiler alert: qualquer um que queira ser um data scientist vai ter que aprender python!

Bons estudos!

Causalidade Reversa

Um dos maiores cuidados que devemos ter ao elaborarmos um experimento, um RCT (randomized controlled trial), é a causalidade reversa.

Causalidade reversa se refere à inversão da direção causa-efeito em um experimento. Isto é, ocorre quando há confusão entre o que é a causa e o que é o efeito. Os modelos estatísticos servem para dizer que X causa Y, porém, quando há causalidade reversa, o autor corre o risco de concluir que Y causa X.

Leia mais…

Outra forma de criar variável dummy no R

Além do método explicado em Criando variáveis dummy no R, podemos utilizar a função tslm() para criar uma dummy que será incluída diretamente na regressão linear.

Por exemplo, se você tiver a variável dia da semana nos seus dados, ao invés de fazer várias colunas (cada uma para um dia da semana) que recebe 0 e 1, basta você acrescentar a variável season dentro da função tslm(). Vejamos no exemplo abaixo a regressão com os dados da série uschange do pacote fpp2:

Leia mais…

Árvore de Decisão com Probabilidade em R

Uma continuação do post Árvore de Decisão no R, agora vou incluir a probabilidade do cliente ser mau pagador na saída da árvore. Para isso, precisamos apenas complementar o código com a função rpart.plot(), do pacote com mesmo nome:

Leia mais…

5 modelos básicos de forecast no R

Há algumas formas básicas de se fazer projeções para valores futuros (forecast), diferentes dos modelos geralmente falados nesse blog, mas que podem ser úteis. A seguir, temos 5 métodos simples que fazem parte do pacote fpp do R (na verdade são parte do pacote forecast que é carregado junto).

Leia mais…

Séries Temporais: Correlograma (Interpretação e Código em R)

Em séries temporais, é importante realizar uma análise da autocorrelação de uma série, para entender, principalmente sua aleatoriedade, já que várias técnicas partem dessa premissa. Autocorrelação é simplesmente a correlação entre uma série e ela mesma defasada. Ou seja, é a correlação entre os valores da série em um determinado período de tempo, e os valores da mesma série em um outro momento no tempo.

Leia mais…

Séries Temporais: Introdução e Decomposição dos Componentes em R

Esse post vai ensinar de forma sucinta como inputar seus dados de séries temporais no R e separar graficamente o que é a sazonalidade, a tendência e a aleatoriedade dos seus dados. Se você já conhece o conceito de séries, pode pular os dois próximos parágrafos. Continuar a ler “Séries Temporais: Introdução e Decomposição dos Componentes em R”

Clusterização na Prática

Introduzi a noção de técnicas de agrupamento no post: Técnicas de Clustering: K-Means. Porém, ficou faltando um exemplo prático de construir o algoritmo por conta própria. Aqui, vou apresentar uma aplicação da técnica utilizando distâncias euclidianas no software Excel.

Leia mais…