Correlação e Causa: O Caso da Regressão Linear

Que correlação não implica causa já é algo que está ficando cada vez mais manjado. Não é mais necessário ser um estatístico ou economista para saber isso. Baste um pouco de conhecimento em análise de dados. O curioso é que para muitas pessoas, isso pode ser resolvido com uma regressão linear. Não é verdade. Continuar a ler “Correlação e Causa: O Caso da Regressão Linear”

Pacote no Python para Pesquisadores: Researchpy

A maioria dos pesquisadores ainda é adepta ao R. Ao menos quando consideramos o mundo acadêmico. Porém, não é novidade para ninguém que o Python vem tomando o mercado. Isso é refletido na academia também. Sendo assim, se você é desses pesquisadores que está começando a aprender Python, pode ser hora de conhecer a biblioteca Researchpy. Continuar a ler “Pacote no Python para Pesquisadores: Researchpy”

Correlação / Causalidade + RDD: Educação Impacta na Criminalidade?

Este post já está ficando cada vez mais batido aqui no blog, mas toda vez que eu encontro um bom exemplo, me sinto na obrigação de trazê-lo. Desta vez, a análise é sobre correlação e criminalidade. Afinal de contas, parece que alunos repetentes estão mais propensos ao crime. Ou seja, a repetência teria algum efeito sobre a criminalidade. Será? Continuar a ler “Correlação / Causalidade + RDD: Educação Impacta na Criminalidade?”

Correlação e Causalidade: Dois Exemplos Práticos

Como alguém que se interessa bastante por economia e estatística, estou sempre tentando entender alguns dados e o que eles significam. Como sempre, os dados podem ter várias interpretações, principalmente se forem somente alguns levantamentos mais simples com algumas correlações e não um estudo mais rebuscado. Neste post, quero mostrar duas maneiras com que as correlações podem nos enganar na hora de interpretar causalidades. Continuar a ler “Correlação e Causalidade: Dois Exemplos Práticos”

Correlação Parcial e Semiparcial: Definição e Código SAS

Além da correlação linear comumente utilizada na estatística, duas outras correlações podem ser interessantes para sua análise: parcial e semiparcial. Ambas dizem respeito à associação entre as variáveis, no entanto, agora trabalhamos com a ideia de manter outras variáveis controle constantes. Continuar a ler “Correlação Parcial e Semiparcial: Definição e Código SAS”

Causalidade Reversa

Um dos maiores cuidados que devemos ter ao elaborarmos um experimento, um RCT (randomized controlled trial), é a causalidade reversa.

Causalidade reversa se refere à inversão da direção causa-efeito em um experimento. Isto é, ocorre quando há confusão entre o que é a causa e o que é o efeito. Os modelos estatísticos servem para dizer que X causa Y, porém, quando há causalidade reversa, o autor corre o risco de concluir que Y causa X.

Leia mais…

Correlação igual a zero implica independência?

Já analisamos diversas vezes a correlação de Pearson, como nos posts Correlação vs. Casualidade, Correlação vs. Causalidade – Parte 2 e Correlação: Não implica causalidade, mas tem seu valor. Na maioria das vezes analisamos como podemos nos enganar ao observarmos uma alta correlação. Não vimos porém, como algumas vezes nos enganamos ao analisarmos baixas correlações. Mais especificamente, tente responder a uma pergunta antes de prosseguir com o post: é possível as variáveis terem alguma relação se a correlação entre elas é igual a zero?

Leia mais…

Análise Bidimensonal para Variáveis Quantitativas

Análise bidimensional (ou bivariada) é a análise de duas variáveis em conjunto. Quando utilizamos medidas resumo como média, mediana e variância (como no post Estatística Descritiva), estamos analisando a variável de forma isolada. Porém, em muitos casos, é interessante entender como as variáveis interagem entre si.

Leia mais…

Avaliando intervenções: Variáveis Instrumentais

Já adiantando, esse post é para discutir alguns métodos econométricos. A discussão sobre o tema dos artigos utilizados não é relevante no contexto do post. Sugiro ainda a leitura do artigo Using Terror Alert Levels to Estimate the Effect of Police on Crime e do livro Freakonomics: O Lado Oculto e Inesperado de Tudo que nos Afeta (além dos que serão mencionados).

A polícia é bastante defendida e atacada pelas pessoas. De um lado os que acreditam na sua efetividade em combater o crime, do outro os mais céticos que acreditam que a polícia não é eficiente e é, muitas vezes, até pior para uma comunidade. Eu não estou aqui para discutir o que é certo e o que é errado, e sim mostrar como a estatística e a econometria são úteis na decisão de políticas que melhorem o bem estar geral e a não sermos enganados por qualquer correlação apresentada por aí.

Encontrar essa causalidade entre polícia e criminalidade não é fácil. Samuel Cameron, 1988, analisou 22 papers, desses, 18 indicavam uma relação positiva entre aumento policial e aumento de criminalidade ou então nenhuma relação. Nenhum conseguiu concluir que o aumento no número de policiais diminuía a criminalidade. Esses estudos, porém, não trataram o problema de endogeneidade. Endogeneidade ocorre quando seu erro e uma variável regressora estão correlacionados. Quando ela ocorre você não tem ideia de quem causa o que. E isso ocorre no nosso caso. Pense em um prefeito cuja cidade tem uma taxa de criminalidade alta. É bem provável que ele contrate mais policiais. Ou seja, muitos policiais em uma área de alta criminalidade, ou o contrário. Isso acaba enviesando nosso modelo.

E o que os estudos mais recentes nos dizem?

No artigo Panic on the Streets of London: Police, Crime, and the July 2005 Terror Attacks, Mirko Draca, Stephen Machin, and Robert Witt, utilizando diversas técnicas econométricas buscam explicar a causalidade entre policiamento e criminalidade.

Utilizando principalmente Difference in Differences eVariáveis Instrumentais, o paper analisa esse efeito utilizando o aumento do policiamento que ocorreu na Inglaterra após um ataque terrorista. É um material bem completo e uma análise cuidadosa, que considera efeitos de tendência (e se o bairro já estiver passando por uma redução de crimes?), teste de Placebo (análogo ao placebo quando falamos de remédios, mas para nossos grupos tratados) , dentre outras coisas.

Variáveis Instrumentais

Essa variáveis são utilizadas no estudo para lidar com o problema de endogeneidade que fazem com que nossos parâmetros de OLS sejam inconsistentes.

Para encontrar uma variável instrumental, precisamos de uma variável que impacta a variável resposta y através da variável explicativa x. Um exemplo famoso, citado no livro Mostly Harmless Econometrics, Angrist e Pischke, é de um estudo que buscava encontrar a relação entre anos de escolaridade e salário, que possuía a variável habilidade dentro do erro do modelo. A variável instrumental utilizada foi trimestre de nascimento, que impactava o salário, porém, através da variável escolaridade.

Para o estudo citado no início desse post, a variável encontrada foi o ataque terrorista. Note que essa variável de nada adiantaria para explicar a redução de criminalidade, porém, ao afetar o efetivo policial, ela acaba impactando a criminalidade. Essa é a intuição que eu acredito ser necessária para você entender o que é uma variável instrumental.

O resultado do estudo?

We find strong evidence that more police lead to reductions in what we refer to as susceptible crimes (i.e., those that are more likely to be prevented by police visibility, including street crimes like robberies and thefts)

Ou seja, eles conseguiram evidenciar, que o aumento no policiamento causa redução em crimes que eles chamam de “crimes suscetíveis”, que são os crimes que seriam mais visíveis aos policiais, como roubos, furtos e violência. Isso tudo mesmo com aquela correlação que observamos entre polícia e criminalidade.

Apenas para concluir, o modelo apresentado pelos autores demonstra que outros crimes, como os sexuais, não apresentaram diferenças significativas.

Leia também: Do Police Reduce Crime? Estimates Using the Allocation of Police Forces After a Terrorist Attack