Avaliando intervenções: Variáveis Instrumentais

Já adiantando, esse post é para discutir alguns métodos econométricos. A discussão sobre o tema dos artigos utilizados não é relevante no contexto do post. Sugiro ainda a leitura do artigo Using Terror Alert Levels to Estimate the Effect of Police on Crime e do livro Freakonomics: O Lado Oculto e Inesperado de Tudo que nos Afeta (além dos que serão mencionados).

A polícia é bastante defendida e atacada pelas pessoas. De um lado os que acreditam na sua efetividade em combater o crime, do outro os mais céticos que acreditam que a polícia não é eficiente e é, muitas vezes, até pior para uma comunidade. Eu não estou aqui para discutir o que é certo e o que é errado, e sim mostrar como a estatística e a econometria são úteis na decisão de políticas que melhorem o bem estar geral e a não sermos enganados por qualquer correlação apresentada por aí.

Encontrar essa causalidade entre polícia e criminalidade não é fácil. Samuel Cameron, 1988, analisou 22 papers, desses, 18 indicavam uma relação positiva entre aumento policial e aumento de criminalidade ou então nenhuma relação. Nenhum conseguiu concluir que o aumento no número de policiais diminuía a criminalidade. Esses estudos, porém, não trataram o problema de endogeneidade. Endogeneidade ocorre quando seu erro e uma variável regressora estão correlacionados. Quando ela ocorre você não tem ideia de quem causa o que. E isso ocorre no nosso caso. Pense em um prefeito cuja cidade tem uma taxa de criminalidade alta. É bem provável que ele contrate mais policiais. Ou seja, muitos policiais em uma área de alta criminalidade, ou o contrário. Isso acaba enviesando nosso modelo.

E o que os estudos mais recentes nos dizem?

No artigo Panic on the Streets of London: Police, Crime, and the July 2005 Terror Attacks, Mirko Draca, Stephen Machin, and Robert Witt, utilizando diversas técnicas econométricas buscam explicar a causalidade entre policiamento e criminalidade.

Utilizando principalmente Difference in Differences eVariáveis Instrumentais, o paper analisa esse efeito utilizando o aumento do policiamento que ocorreu na Inglaterra após um ataque terrorista. É um material bem completo e uma análise cuidadosa, que considera efeitos de tendência (e se o bairro já estiver passando por uma redução de crimes?), teste de Placebo (análogo ao placebo quando falamos de remédios, mas para nossos grupos tratados) , dentre outras coisas.

Variáveis Instrumentais

Essa variáveis são utilizadas no estudo para lidar com o problema de endogeneidade que fazem com que nossos parâmetros de OLS sejam inconsistentes.

Para encontrar uma variável instrumental, precisamos de uma variável que impacta a variável resposta y através da variável explicativa x. Um exemplo famoso, citado no livro Mostly Harmless Econometrics, Angrist e Pischke, é de um estudo que buscava encontrar a relação entre anos de escolaridade e salário, que possuía a variável habilidade dentro do erro do modelo. A variável instrumental utilizada foi trimestre de nascimento, que impactava o salário, porém, através da variável escolaridade.

Para o estudo citado no início desse post, a variável encontrada foi o ataque terrorista. Note que essa variável de nada adiantaria para explicar a redução de criminalidade, porém, ao afetar o efetivo policial, ela acaba impactando a criminalidade. Essa é a intuição que eu acredito ser necessária para você entender o que é uma variável instrumental.

O resultado do estudo?

We find strong evidence that more police lead to reductions in what we refer to as susceptible crimes (i.e., those that are more likely to be prevented by police visibility, including street crimes like robberies and thefts)

Ou seja, eles conseguiram evidenciar, que o aumento no policiamento causa redução em crimes que eles chamam de “crimes suscetíveis”, que são os crimes que seriam mais visíveis aos policiais, como roubos, furtos e violência. Isso tudo mesmo com aquela correlação que observamos entre polícia e criminalidade.

Apenas para concluir, o modelo apresentado pelos autores demonstra que outros crimes, como os sexuais, não apresentaram diferenças significativas.

Leia também: Do Police Reduce Crime? Estimates Using the Allocation of Police Forces After a Terrorist Attack

O câmbio e a cointegração

Em um excelente post em seu blog, Marcelo Curado fala da aposta de muitos economistas em uma recuperação da economia brasileira graças a desvalorização do real. Em um texto curto e bem bacana ele acaba com esse pensamento.

O que é mais intuitivo é que o câmbio quando desvaloriza eleva nossa exportações (porque os produtos ficam mais baratos para os gringos), ou seja, mais money entrado para a gente, e também aumenta a produção local, já que a gente não vai importar porque vai estar tudo caro.

Ele dá diversas evidências de que esse pensamento que parece tão óbvio não é tão verdade assim. Vale a leitura, não é complexo e o professor, como de costume, faz uma análise interessante.

Como estou aqui para falar de econometria, o que me chamou a atenção foi o teste de cointegração feito no post. O que seria isso?

Cointegração serve para indicar se duas séries temporais possuem uma relação de longo prazo. Colocada da forma mais simples possível, cointegração indica se as duas variáveis estão se movendo numa mesma tendência.

Uma história bem comum que você vai ouvir quando ler explicações sobre cointegração é a do bêbado e seu cachorro. Pense que os dois andam de forma aleatória, mas há aí uma relação, porque eles sempre estarão perto. Apesar de cada um andar de forma aleatória, os dois tem uma conexão, o cachorro vai seguir o dono, ou o contrário. Eles tem uma certa conexão e a distância de um ao outro é previsível de certa forma. O bêbado e o cachorro formam um par cointegrado. Embora tenham passeios aleatórios, conseguimos prever a distância entre os dois e aí nasce a cointegração.

Qual a importância disso?

Primeiro porque podemos estudar essas relações de pares. Pensando para o lado de finanças, ficaria muito mais fácil você bolar estratégias de negociação de pares de ações. Você sabe como as duas se comportam entre si, fazendo com que você possa por exemplo comprar uma e vender outra a determinados preços de forma que você ganhe uma grana, já que você sabe a distância entre os preços das duas.

E o principal é que muitas de nossas técnicas falham quando lidamos com dados não estacionários, por isso esse teste é melhor. Estamos evitando relações espúrias.

E o que é estacionário?

Um processo estacionário é aquele que a média, variância e autocorrelação não muda ao longo do tempo. Mas falamos mais sobre isso em um post futuro!✌️

Viés de Seleção: Seus resultados podem estar te enganando

Imagine que você queira saber se pessoas que vão ao médico vivem melhor do que pessoas que não vão, ou vão pouco, ao médico. Aí você monta um experimento, pega 100 pessoas que vão ao médico semanalmente e outras 100 que quase não vão. Ao final de um período você analisa os dois grupos e olhe só, quem menos foi ao médico está mais saudável. É suficiente para você concluir que ir ao médico faz mal à saúde?

Você pode levantar diversas hipóteses aí. Talvez ir ao médico seja ruim porque você pega doenças de outros pacientes, ou então os médicos não tratam direito os pacientes, ou quem vai ao médico toma muitos remédios e os efeitos colaterais são ruins.

É bem possíve que você tenha sido mais uma vítima do viés de seleção.

O viés de seleção ocorre quando o grupo estudado não foi escolhido de forma aleatória. Mesmo que não intencional, afinal, nesse caso você não escolheu os seus pacientes, mas nem por isso a escolha foi aleatória.

Pense no exemplo mencionado. Pessoas que vão ao médico constantemente, na maioria das vezes, vão porque possuem uma saúde mais debilitada que pessoas que não vão tanto ao médico. Sendo assim, é muito provável que elas possuam uma saúde pior mesmo indo ao médico.

Outro exemplo poderia ser algumas pesquisas antigamente que eram feitas por telefone. Imagine que uma empresa ligue para diversas pessoas para fazer uma determinada pesquisa. Mesmo que ela ligue para pessoas de diversas cidades, essa amostra possivelmente está viesada, já que muitas pessoas não possuíam telefone em casa no Brasil.

Sempre que ler um estudo, ou fizer seu próprio estudo, pense bem em como sua amostra foi selecionada, isso vai fazer toda a diferença!

Para os que possuem inglês de nível avançado ou fluente, recomendo a leitura do livro Mostly Harmless Econometrics de Joshua Angrist, os capítulos 1 e 2 dão uma boa ideia desse tipo de problema.

Análise dos Resíduos de uma Regressão Linear

Conforme já foi falado neste blog, os resíduos de uma regressão linear são as diferenças entre os pontos observados e a curva que estimamos. Ou seja, você tem lá valores reais que você observou do fenômeno que está analisando e tem a equação da reta que você estimou através de um método qualquer. A diferença entre esses dois valores é o seu resíduo.

Por exemplo, suponha que você queira saber quanto o imposto sobre bebidas alcoólicas e o limite de velocidade de uma via afetam o número de acidentes. Utilizando um método qualquer, você obtém a equação abaixo.

Onde yi é o número de acidentes na via i, β1 é o imposto sobre bebidas alcoólicas e β2 é o limite de velocidade nesta via.

Se tivermos a avenida XPTO em uma cidade em que o imposto sobre as bebidas é de 20% e o limite de velocidade desta via for 60 km/h, nossa equação nos diz que o número de acidentes da via X deve ser de 100 – 14*0,2 + 0,5* 60 = 127,2.

Observamos que na avenida X, o número de acidentes no mês foi 130. Ou seja, nosso resíduo aqui é de 2,8.

Por enquanto tudo tranquilo, certo?

Agora que já entendemos claramente o que é o resíduo, precisamos saber como analisá-lo. Lembre-se que o resíduo deve ter esperança zero. Colocado de maneira prática, o que você precisa, é plotar os valores o seu resíduo com sua variável resposta e obter este gráfico:

Veja que nossos resíduos estão transitando ao redor de zero e que independente do número de acidentes ser alto ou baixo, os resíduos tem esperança zero. É isso que buscamos para ter um modelo mais preciso possível.

Abaixo mais alguns exemplos de resíduos plotados com as variáveis respostas, note que o gráfico maior a esquerda possui resíduos bem comportados, enquanto os da direita não parecem ter esperança zero e possuem uma tendência, eles variam de acordo com a grandeza da variável resposta:


Leia também: Regressão Linear Simples – Parte 1 e Resíduos de uma Regressão Linear no R

Problemas com R? Que tal começar em Primeiros passos no R Studio!

Erros vs. Resíduos

É comum cometermos o equívoco de chamar erros de resíduos e vice-versa. A definição é próxima mesmo, então não se preocupe se você já cometeu esse erro. Enfim, qual a diferença entre o que chamamos de erros e dos chamados resíduos?

O erro é a diferença entre o valor real, que não observamos, e o valor estimado. Já o resíduo é a diferença entre o valor estimado e o valor observado.

Confuso? Eu sempre achei, então vamos tentar de novo.

Quando realizamos nossa regressão, estamos tentando estimar uma reta que melhor se aproxima do conjunto de pontos que temos observado, mas nós nunca sabemos qual é a reta real que explicaria esse conjunto de pontos. O que nós conseguimos é uma estimativa dessa reta.

Vamos supor que tenhamos uma população onde o peso médio é 70kg e temos um indivíduo retirado aleatoriamente dessa população que pesa 65kg. Então o erro desse indivíduo é -5kg.

Em contrapartida, quando falamos de resíduos, estamos buscando uma estimativa do erro não observado. Nesse caso, estamos falando, por exemplo, de retirar uma amostra aleatória de uma população e tiramos a média amostral. A diferença entre a média amostral e algum indivíduo retirado dela, isso sim é o resíduo!

Facilitou?

Regressão Linear Múltipla

A diferença para a regressão linear simples é que a palavra múltipla aqui faz referência às múltiplas variáveis explicativas, ou seja, teremos duas ou mais variáveis independentes explicando nossa variável dependente, também chamada de variável resposta.

Colocando de uma forma bem simples, lembra que tínhamos uma equação da reta? Aquela equaçãozinha y = a*x + b? Então, agora a diferença é que temos mais x, que serão acompanhados de mais a:

Ou seja, temos um monte de x para explicar nosso y.

E aí você leu e releu, mas…

CALMA! Eu prometi estatística e econometria fácil, e a gente vai ter! Vamos tentar enxergar através de um exemplo:

Recapitulando, uma regressão linear simples é a equação de uma reta, onde o valor de y é o valor de algo que queremos explicar, e o valor de x é o que vai nos ajudar a explicar y. Até aí tranquilo, você vai observar certos valores e tenta obter uma equação que vai mostrar, dado esses valores, qual é o valor do y que você busca.

Por exemplo, digamos que a nota do aluno seja afetada pela distância da casa dele até a escola e o valor da sua mesada. Se o aluno recebe uma baita mesada, ele é mais feliz, ele come melhor, ele está mais disposto a estudar, então sua nota fica alta a medida que a mesada aumenta. Se o aluno mora perto do colégio, ele tira uma nota maior do que se morasse longe, ou seja, quanto maior a distância de um aluno ao colégio, menor a nota. Uma regressão linear múltipla nos dá uma equação que, observado um certo valor de mesada e uma distância, vamos estimar a nota de um aluno.

Vamos supor que você rodou a regressão em um software qualquer e chegou em:

nota do testão = 2 * mesada – 3 * distância,

onde a mesada é em unidade de reais e a distância é em unidade de km.

Ou seja, se um aluno ganha 15 reais de mesada, e mora a 2km de distância, a nota dele nessa equação será 2 * 15 – 3 * 2 = 24.

É isso que queremos obter quando falamos de uma regressão linear múltipla, queremos essa equação com múltiplas variáveis independentes (no caso a mesada e a distância) que explica uma variável dependente (no caso a nota do testão).

Agora apenas para os guerreiros. Vamos detalhando um pouquinho mais, mas sem exagerar porque esse é apenas o primeiro post sobre regressão linear múltipla.

As premissas para uma regressão linear múltipla são:

  1. A variável dependente e as variáveis independentes possuem uma relação linear, ou seja, assim como para regressão linear simples, temos uma equação linear que explica nossa variável dependente. Ou como alguns livros dizem, é linear nos parâmetros (parâmetros são as variáveis que você vai usar para explicar a variável resposta).

Você vai ter algo assim:

Onde cada a é um coeficiente e x a variável explicativa.

Veja bem, a linearidade está nos parâmetros. Isto é uma regressão linear nos parâmetros:

Isto não é uma regressão linear nos parâmetros:

  1. X são fixos ou covariância dos x e erros é zero. Se você não está trabalhando com regressores pré-determinados ( fixos), então a covariância deles com os erros deve ser zero. Por que? Porque não queremos dependência entre as variáveis explicativas e os erros.
  2. A esperança do erro é zero. Análogo ao que ocorre com a regressão linear simples. Lembra daquela intuição? Erramos um pouquinho para cima, um pouquinho para baixo e fechou!
  3. A variância do erro é constante. Dá para perceber que os erros são importantes aqui, certo? O que é até fácil de intuir, se eles possuem um comportamento como alguma tendência, por exemplo de uma reta, ou eles explodem, então é provável que tenhamos variáveis que expliquem a variável resposta e não foram incluídas. Veja as fotos abaixo.
  4. Não há autocorrelação entre os erros. More on that later!

Regressão Linear Simples – Parte 3

Vamos interpretar de forma rápida e prática a saída de uma Regressão Linear Simples no R e como utilizar a informação:

  1. Residuals: São os resíduos da nossa equação. Você traçará um gráfico dos resíduos contra a variáve independente para verificar que eles são aleatoriamente distribuídos e aí seus resultados serão mais confiáveis.  Mas não confunda erro com resíduos! É confuso, mas farei um post só sobre isso futuramente!
  2. Coefficients: a coluna estimate nada mais é do que os valores que formarão nossa reta. O do intercept é o valor que representa a constante. Enquanto o valor que vem em seguida, logo abaixo, é o que acompanha nossa variável independente. Ou seja, no nosso caso, para se obter o valor da nota do testão você deve multiplicar a mesada do aluno por 1,66339 e somar a constante 5,39290. E as outras colunas? Por enquanto vamos apenas considerar que podemos usar os coeficientes caso o p-valor sera menor que 5%. Em outros posts entraremos mais a fundo no assunto.
  3. Multiple R-squared: O R quadrado é o quanto nossa variável independente é capaz de representar nossa variável dependente. Ou seja, 97,38% da nota do testão é explicada pela mesada (lembrem-se que esses dados são fictícios!).
  4. F-statistic: Será muito mais importante para quando falarmos de regressão múltipla.
  5. Adjusted R-squared: Também será mais relevante ao falarmos de regressão múltipla. Fiquem tranquilos por enquanto.

Leia também: Resíduos de uma Regressão Linear no R

Problemas com R? Que tal começar em Primeiros passos no R Studio!

Regressão Linear Simples – Parte 2

Vamos tentar entender a Regressão Linear Simples de forma visual (e já aproveitamos para aprender R!).

Em nosso exemplo, nós temos dados dos alunos do terceiro colegial da Escola X, suas mesadas em reais e as respectivas notas no Testão contendo todas as matérias.

Acreditamos que o desempenho do aluno melhore com uma mesada a mais, devido ao aumento do bem estar do aluno. Mas será que é verdade? Podemos fazer um modelo para a escola X e verificar isso.

Começamos apresentando os dados e um gráfico de dispersão nas figuras 1 e 2 respectivamente:

E como vamos saber exatamente quanto que um aumento na mesada impacta a nota dos alunos? Vamos rodar uma regressão no R da variável Mesada (variável independente) em Nota_Testão (nossa variável dependente) e verificar os resultados:

O que nos importa do resultado acima?

Com certeza tudo! O R não soltaria tanta coisa para nada.

Mas deixemos “tudo” de lado e hoje vamos apenas focar nos valores em estimate. Esses valores são os chamados BETAS da nossa regressão, e nada mais são do que os valores de a e b da nossa reta, mencionada no post anterior.

Ou seja, o que estamos querendo dizer aqui, é que a nota de um aluno no Testão será 5.39290 somado a 1.66339 multiplicado pela sua mesada. Ou seja, nossa equação da reta, onde y é a nota do Testão e x é a mesada, seria:

y = 5.39290 + 1.66339 * x

Ou seja, para cada 1 real adicionado na mesada, o aluno tira – em média – uma nota 1.66339 maior. Um aluno que ganha 10 reais a mais que seu colega, tira uma nota ~ 16 pontos a mais que seu colega.

E como é essa aproximação visualmente? É exatamente assim:

Agora, para os iniciantes em R, aí vai 5 linhas de código que gera esses gráficos e essa regressão (para executá-los não colocar os números na frente!):

dados <-read.table("C:/Users/Yukio/Desktop/dados_alunos.txt",header=T)

plot(dados$Mesada,dados$Nota_Testao)

regressao <- lm(dados$Mesada ~ dados$Nota_Testao)

abline(lm(dados$Nota_Testao ~ dados$Mesada),col="red")

summary(regressao)

Em breve coloco o que faz cada uma dessas linhas!

Continue seus estudos em: Regressão Linear Simples – Parte 3

Leia também: Resíduos de uma Regressão Linear no R

Problemas com R? Que tal começar em Primeiros passos no R Studio!

Regressão Linear Simples – Parte 1

Nesse primeiro post falaremos, de uma forma mais direta, sem se aprofundar muito, na Regressão Linear Simples.

Digamos que você acredita que a nota do aluno é relacionada com a distância de sua casa até o colégio. Como você verifica se isso é verdade?

Uma regressão linear simples nada mais é do que uma relação linear entre duas variáveis. Ou seja, uma variável, chamada de independente, expressará (de forma linear, linha, reta, etc.)  uma outra variável, chamada de independente.

Você se lembra de quando aprendeu a equação de uma reta? Se não lembra, assista a este breve vídeo: Equação da Reta – O Kuadro. Caso não entenda com esse vídeo, há diversos vídeos relacionados no youtube, basta acessar o que for melhor para você.

Pois bem, a Regressão Linear Simples não tem nenhum segredo, ela nada mais é do que uma forma de escrever nosso y em função de x na forma de uma reta. Obviamente, essa equação dificilmente é perfeita, no sentido de que y e x se relacionam linearmente. Portanto, ao invés de escrevermos a famosa equação da reta y = a*x + b, em uma regressão linear simples nossa equação é y = a*x + b + ε, onde o último termo é o nosso erro.

Resumindo tudo que foi dito acima, temos um conjunto de pontos y e x que acreditamos que se relacionem de forma linear, ou seja, que formam uma reta. A regressão linear simples nos dá essa reta.

Continue seus estudos em: Regressão Linear Simples – Parte 2

Leia também: Resíduos de uma Regressão Linear no R

Problemas com R? Que tal começar em Primeiros passos no R Studio!

Regressão Linear vs. Mínimos Quadrados

Já parou para pensar qual a diferença entre Regressão Linear e Método dos Mínimos Quadrados?

Para a maioria das pessoas é a mesma coisa. E realmente são coisas próximas, mas não se confunda, são duas coisas diferentes.

De uma forma bem simples: o famoso método dos Mínimos Quadrados é uma maneira utilizada de se realizar uma Regressão Linear.

Colocado de outra maneira, uma Regressão Linear é uma equação (linear!) que explica a relação entre duas variáveis, uma independente e outra dependente.

Mínimos Quadrados é a minimização das somas, neste caso, dos erros da equação encontrada. Que fique claro que os Mínimos Quadrados podem ser utilizados para outros problemas de otimização!