Viés de Variável Omitida: Um exemplo prático

Já mencionei o viés de variável omitida no post Quanto mais polícia, mais crimes? e Paradoxo de Simpson, vamos ver mais um exemplo prático.

Vamos supor que você queira analisar o impacto do número de professores em uma escola com as notas dos alunos. Ou seja, você gostaria de estimar os beta 1 da seguinte equação:

média das notas = β0 + β1*n° de professores + u

É de se esperar que β1 seja maior que 0, pois a expectativa é que um número maior de professores seja benéfico para os alunos por diversos motivos.

Entretanto, pensemos nas variáveis não utilizadas no modelo e que “alocamos” em u. Dentre essas variáveis, temos, por exemplo, o investimento do governo nessas escolas. Afinal, um governo que investe mais, tenderá a contratar mais professores para suprir todas as necessidades da escola. Ou seja, a correlação entre número de professores e investimento do governo é positiva, quanto maior o investimento feito, maior o número de professores. Note que a esperança do u dado o parâmetro n° de professores não é zero. Afinal, como já dissemos, quanto maior o investimento de um governo, maior o número de professores, sendo assim, violamos uma premissa da nossa regressão OLS (ordinal least squares).

Ε (u | n° de professores) ≠ 0

É provável que se calcularmos um coeficiente de valor 10, este valor seja na verdade um valor menor qualquer como 7 ou 5. Isso ocorre porque o parâmetro n° de professores está absorvendo parte do impacto que o investimento do governo causa. O resultado é que nosso coeficiente está com viés, superestimando o impacto da variável.

Este é o problema de se omitir uma variável relevante.

Baseado em: Omitted Variable Bias – Ben Lambert

Paradoxo de Simpson

O paradoxo de Simpson é um caso em que quando examinamos grupos diferentes observamos uma tendência que se altera quando combinamos estes grupos.

Um exemplo clássico é o caso de admissão de mulheres na Universidade de Berkeley. Acreditava-se que as mulheres estavam sendo discriminadas na admissão, pois o percentual de mulheres admitidas era muito menor que o percentual de homens, conforme podemos observar na tabela abaixo:

Entretanto, quando a análise era feita por departamento, isto não ocorria. A tabela abaixo apresenta os dados dos seis maiores departamentos da universidade, veja que dos 6, em apenas 2 o percentual de homens admitidos era menor:

A interpretação equivocada ocorreu porque havia maior concentração de mulheres aplicando em departamentos com menor taxa de admissão.

Isso ocorre simplesmente porque existe uma variável que se correlaciona tanto com a variável dependente quanto com a independente. Em outras palavras, é mais um caso de viés de variável omitida.

Obs.: Variável omitida é uma variável não considerada/avaliada por quem está fazendo a pesquisa. Esta variável é incorporada ao erro, porém, se uma variável importante é deixada de fora do modelo, o modelo poderá ter seus estimadores com viés e inconsistentes.