Tipos de vieses

Viés é um tipo de tendência, um peso desproporcional, que damos a alguma coisa. Quando alguém está enviesado, é porque sua visão está distorcida para algum dos lados do tema. Na estatística, obviamente, viés é um tema muito importante. Análises com algum tipo de viés, por mais que contenham dados, possuem conclusões equivocadas. No post de hoje, vou falar de 4 tipos de viés que você deve prestar atenção quando estiver fazendo alguma pesquisa ou avaliando algum artigo/estudo. Bora lá! Continuar a ler “Tipos de vieses”

Signo no modelo, vale?

Certo dia, uma amiga, da área de modelagem também, me disse a seguinte frase “se eu colocar signo, e for significativo, então eu uso no meu modelo”. Eu esperaria esse comentário de uma pessoa com zero conhecimento em econometria, ou um terraplanista, mas escutar isso de alguém envolvido com data science, me surpreendeu muito. Convenhamos, achar que a posição dos planetas no momento em que a pessoa nasce, significa algo, é muito leviano. Para não dizer outra coisa.

Continuar a ler “Signo no modelo, vale?”

Viés de Variável Omitida: Prova Matemática

Já expliquei o conceito de Omitted Variable Bias em Viés de Variável Omitida: Um exemplo prático. Agora, vou deixar aqui a “prova” matemática do problema. Isto é, o que acontece com nosso estimador quando deixamos de incluir uma variável relevante no modelo. Há bastantes rasuras. Pode me escrever se não entender – ou se achar que tem algum erro.

Leia mais…

Viés de Variável Omitida: Um exemplo prático

Já mencionei o viés de variável omitida no post Quanto mais polícia, mais crimes? e Paradoxo de Simpson, vamos ver mais um exemplo prático.

Vamos supor que você queira analisar o impacto do número de professores em uma escola com as notas dos alunos. Ou seja, você gostaria de estimar os beta 1 da seguinte equação:

média das notas = β0 + β1*n° de professores + u

É de se esperar que β1 seja maior que 0, pois a expectativa é que um número maior de professores seja benéfico para os alunos por diversos motivos.

Entretanto, pensemos nas variáveis não utilizadas no modelo e que “alocamos” em u. Dentre essas variáveis, temos, por exemplo, o investimento do governo nessas escolas. Afinal, um governo que investe mais, tenderá a contratar mais professores para suprir todas as necessidades da escola. Ou seja, a correlação entre número de professores e investimento do governo é positiva, quanto maior o investimento feito, maior o número de professores. Note que a esperança do u dado o parâmetro n° de professores não é zero. Afinal, como já dissemos, quanto maior o investimento de um governo, maior o número de professores, sendo assim, violamos uma premissa da nossa regressão OLS (ordinal least squares).

Ε (u | n° de professores) ≠ 0

É provável que se calcularmos um coeficiente de valor 10, este valor seja na verdade um valor menor qualquer como 7 ou 5. Isso ocorre porque o parâmetro n° de professores está absorvendo parte do impacto que o investimento do governo causa. O resultado é que nosso coeficiente está com viés, superestimando o impacto da variável.

Este é o problema de se omitir uma variável relevante.

Baseado em: Omitted Variable Bias – Ben Lambert

Paradoxo de Simpson

O paradoxo de Simpson é um caso em que quando examinamos grupos diferentes observamos uma tendência que se altera quando combinamos estes grupos.

Um exemplo clássico é o caso de admissão de mulheres na Universidade de Berkeley. Acreditava-se que as mulheres estavam sendo discriminadas na admissão, pois o percentual de mulheres admitidas era muito menor que o percentual de homens, conforme podemos observar na tabela abaixo:

Entretanto, quando a análise era feita por departamento, isto não ocorria. A tabela abaixo apresenta os dados dos seis maiores departamentos da universidade, veja que dos 6, em apenas 2 o percentual de homens admitidos era menor:

A interpretação equivocada ocorreu porque havia maior concentração de mulheres aplicando em departamentos com menor taxa de admissão.

Isso ocorre simplesmente porque existe uma variável que se correlaciona tanto com a variável dependente quanto com a independente. Em outras palavras, é mais um caso de viés de variável omitida.

Obs.: Variável omitida é uma variável não considerada/avaliada por quem está fazendo a pesquisa. Esta variável é incorporada ao erro, porém, se uma variável importante é deixada de fora do modelo, o modelo poderá ter seus estimadores com viés e inconsistentes.