Uma das premissas do método de mínimos quadrados para regressão linear é a linearidade dos parâmetros. Algumas pessoas confundem o que é linearidade nos parâmetros. Então, para ficar bem claro, veja os exemplos a seguir:
Getting back in the game
Ainda longe de estar totalmente recuperado, mas já apto a escrever um pouco vou usar o tempo que o médico liberou para escrever um pouco aqui… Hoje já consegui escrever dois posts curtinhos e uma introdução ao Python para quem quer aprender essa ferramenta bacana.
Spoiler alert: qualquer um que queira ser um data scientist vai ter que aprender python!
Bons estudos!
GDP Forecast
Veio a calhar depois de tantos posts com projeções. Olha só que modelo simples e preciso.
Causalidade Reversa
Um dos maiores cuidados que devemos ter ao elaborarmos um experimento, um RCT (randomized controlled trial), é a causalidade reversa.
Causalidade reversa se refere à inversão da direção causa-efeito em um experimento. Isto é, ocorre quando há confusão entre o que é a causa e o que é o efeito. Os modelos estatísticos servem para dizer que X causa Y, porém, quando há causalidade reversa, o autor corre o risco de concluir que Y causa X.
Outra forma de criar variável dummy no R
Além do método explicado em Criando variáveis dummy no R, podemos utilizar a função tslm() para criar uma dummy que será incluída diretamente na regressão linear.
Por exemplo, se você tiver a variável dia da semana nos seus dados, ao invés de fazer várias colunas (cada uma para um dia da semana) que recebe 0 e 1, basta você acrescentar a variável season dentro da função tslm(). Vejamos no exemplo abaixo a regressão com os dados da série uschange do pacote fpp2:
Árvore de Decisão com Probabilidade em R
Uma continuação do post Árvore de Decisão no R, agora vou incluir a probabilidade do cliente ser mau pagador na saída da árvore. Para isso, precisamos apenas complementar o código com a função rpart.plot(), do pacote com mesmo nome:
5 modelos básicos de forecast no R
Há algumas formas básicas de se fazer projeções para valores futuros (forecast), diferentes dos modelos geralmente falados nesse blog, mas que podem ser úteis. A seguir, temos 5 métodos simples que fazem parte do pacote fpp do R (na verdade são parte do pacote forecast que é carregado junto).
Séries Temporais: Correlograma (Interpretação e Código em R)
Em séries temporais, é importante realizar uma análise da autocorrelação de uma série, para entender, principalmente sua aleatoriedade, já que várias técnicas partem dessa premissa. Autocorrelação é simplesmente a correlação entre uma série e ela mesma defasada. Ou seja, é a correlação entre os valores da série em um determinado período de tempo, e os valores da mesma série em um outro momento no tempo.
Séries Temporais: Introdução e Decomposição dos Componentes em R
Esse post vai ensinar de forma sucinta como inputar seus dados de séries temporais no R e separar graficamente o que é a sazonalidade, a tendência e a aleatoriedade dos seus dados. Se você já conhece o conceito de séries, pode pular os dois próximos parágrafos. Continuar a ler “Séries Temporais: Introdução e Decomposição dos Componentes em R”
Clusterização na Prática
Introduzi a noção de técnicas de agrupamento no post: Técnicas de Clustering: K-Means. Porém, ficou faltando um exemplo prático de construir o algoritmo por conta própria. Aqui, vou apresentar uma aplicação da técnica utilizando distâncias euclidianas no software Excel.