Recentemente, retomei os estudos de séries temporais. É um ponto fraco que eu tenho, nunca dei muita atenção porque não precisei em nenhuma das empresas pelas quais passei. Na última aula do curso online que eu peguei, do professor Fernando Amaral, acabei replicando o conteúdo e aplicando um modelinho bem simples na ação PETR4. O script é bastante intuitivo e autoexplicativo. Qualquer dúvida, não hesite em entrar em contato. Aqui, além de aprender a fazer um modelo preditivo com média móvel, tem lições legais de como importar um arquivo de séries temporais, tratar campo data, filtrar dataframe com base no índice, dentre outras coisas. Continuar a ler “Modelo de Média Móvel para Previsão em Python”
Etiqueta: séries temporais
Separando a base treino e teste no R
Como a maioria aqui já sabe, quando temos um conjunto de dados para utilizar na construção de um modelo, precisamos fazer uma separação entre o que chamamos de treino e teste. O que costumamos chamar de base treino, é o conjunto de dados que utilizaremos na construção do modelo. Continuar a ler “Separando a base treino e teste no R”
Séries Temporais: Gráficos para Sazonalidade
Além da decomposição apresentada no post Séries Temporais: Introdução e Decomposição dos Componentes em R, há outras formas de se visualizar a sazonalidade da série. A série utilizada aqui é a a10 do pacote fpp. Ela contém as informações de venda de antibióticos na Austrália no período de 1991 a 2008.
Outra forma de criar variável dummy no R
Além do método explicado em Criando variáveis dummy no R, podemos utilizar a função tslm() para criar uma dummy que será incluída diretamente na regressão linear.
Por exemplo, se você tiver a variável dia da semana nos seus dados, ao invés de fazer várias colunas (cada uma para um dia da semana) que recebe 0 e 1, basta você acrescentar a variável season dentro da função tslm(). Vejamos no exemplo abaixo a regressão com os dados da série uschange do pacote fpp2:
5 modelos básicos de forecast no R
Há algumas formas básicas de se fazer projeções para valores futuros (forecast), diferentes dos modelos geralmente falados nesse blog, mas que podem ser úteis. A seguir, temos 5 métodos simples que fazem parte do pacote fpp do R (na verdade são parte do pacote forecast que é carregado junto).
Séries Temporais: Correlograma (Interpretação e Código em R)
Em séries temporais, é importante realizar uma análise da autocorrelação de uma série, para entender, principalmente sua aleatoriedade, já que várias técnicas partem dessa premissa. Autocorrelação é simplesmente a correlação entre uma série e ela mesma defasada. Ou seja, é a correlação entre os valores da série em um determinado período de tempo, e os valores da mesma série em um outro momento no tempo.
Séries Temporais: Introdução e Decomposição dos Componentes em R
Esse post vai ensinar de forma sucinta como inputar seus dados de séries temporais no R e separar graficamente o que é a sazonalidade, a tendência e a aleatoriedade dos seus dados. Se você já conhece o conceito de séries, pode pular os dois próximos parágrafos. Continuar a ler “Séries Temporais: Introdução e Decomposição dos Componentes em R”
A estrutura dos dados em Econometria
Os dados com os quais trabalhamos em econometria, podem estar estruturados de diversas formas. Podemos ter informações dos clientes de uma loja extraídas em um determinado momento, podemos ter dados mensais de crescimento do PIB de um país com histórico de alguns anos e podemos ter também dados de pais de família que participaram de um experimento e foram acompanhados por alguns anos. Cada informação mencionada deve ser tratada de uma maneira diferente. Embora algumas técnicas sejam aplicadas para os três casos com pequenas mudanças apenas, é importante saber como seus dados estão estruturados para saber como a técnica deve ser utilizada e que tipo de características específicas devem ser consideradas. As estruturas mais importantes são:
- Dados Cross-Section (Dados de corte transversal): São dados extraídos em um determinado momento no tempo. Embora as informações possam ser coletadas em diferentes momentos no tempo, isso não é levado em consideração. Vamos supor que você trabalha em uma empresa que vende roupas e gostaria de saber qual o perfil do cliente que compra online. Ao coletar as informações dos clientes que compraram online no último ano, montar aquela sua tabela cheia de informações como idade, salário, emprego, número de peças compradas, valor gasto, etc. Você está estruturando dados no formato cross-section.
- Séries Temporais: Consiste em informações observadas ao longo do tempo. Em determinados casos, faz-se necessário considerar que o passado influencia o presente, por isso utilizamos essa estrutura de dados e as técnicas correspondentes a ela para análises. Quando pensamos em índices de preços, PIB, vendas ao longo do ano, preços de ações, estamos sempre (ou quase sempre) utilizando técnicas de séries temporais. Nos casos mencionados, as informações não são independentes ao longo do tempo. Essa é a chave para se compreender séries temporais.
- Dados em Painel: É uma mescla de séries temporais com cross-section. São séries para cada cross-section do indivíduo em análise. Por exemplo, suponha que tenhamos o histórico de diversas informações de um mesmo grupo de indivíduos ao longo do tempo, como salário, emprego, distância ao trabalho e horas extras realizadas. Você tem diversas “fotos” dessas mesmas informações para os mesmos indivíduos durante 10 anos. Ou então, você tem as informações dos estados do Brasil, como índice de desemprego, índice de homicídios, número de habitantes e número de parques. Esses dois casos consistem em dados em painel. Esse tipo de informação é bastante utilizada em experimentos controlados e análises de políticas adotadas por governantes.
Você vai ver que alguns mercados utilizam mais uma estrutura de dados do que outra. Isso pode ser importante também para você entender quais técnicas deve se aprofundar mais, dado o seu trabalho atual ou a área em que você pretende atuar!