Teorema de Bayes na Prática

Já expliquei sobre o Teorema de Bayes algumas vezes (Teorema de Bayes na prática: interpretando falso positivo e Probabilidade Condicional e o Teorema de Bayes). Para complementar o conteúdo, escrevi um texto no Portal Deviante com um pouco mais de contexto sobre o assunto, num tom bem informal: Deu positivo, mas tô de boa porque aprendi Bayes

Visualizando a assertividade do seu experimento

Este post é um complemento ao Teorema de Bayes na prática: interpretando falso positivo e Probabilidade Condicional e o Teorema de Bayes. Apresento aqui uma demonstração visual de algumas medidas muito utilizadas na estatística.

Dado um experimento em que queremos verificar se um exame é capaz de diagnosticar uma doença, temos os seguintes resultados possíveis:

 

  • True Positive (TP) ~ Verdadeiro Positivo: O paciente foi diagnosticado como portador da doença e ele realmente é portador dela;
  • False Positive (FP) ~ Falso Positivo: O paciente foi diagnosticado como portador da doença, porém, ele não é portador dela;
  • False Negative (FN) ~ Falso Negativo: O paciente foi diagnosticado como não sendo portador da doença, porém, ele é portador dela;
  • True Negative (TN) ~ Verdadeiro Negativo: O paciente foi diagnosticado como não sendo portador da doença, e ele realmente não é portador dela.

A partir deste quadro, temos as seguintes medidas:

  • Sensibilidade: Probabilidade do exame ser positivo, dado que o paciente é portador da doença. Ou seja, capacidade do exame de acertar o diagnóstico de um paciente portador da doença;
  • Especificidade: Probabilidade do exame ser negativo, dado que o paciente não é portador da doença. Ou seja, capacidade do exame de acertar o diagnóstico de um paciente saudável;
  • Acurácia: Probabilidade do diagnóstico do exame estar correto.

Colocando em fórmulas matemáticas:

  • Sensibilidade = TP / (TP+FN)
  • Especificidade = TN / (FP+TN)
  • Acurácia = (TP+TN) / (TP+FN+FP+TN)

Veja que estamos falando de exames e doenças, mas essas medidas são utilizadas de diversas formas. Por exemplo, se você fizer uma regressão logística para prever inadimplência, você pode calcular a sensibilidade do seu modelo, qual a probabilidade de identificar um mau pagador, dado que o indivíduo é realmente mau pagador.

Teorema de Bayes na prática: interpretando falso positivo

As pessoas, e eu me incluo nessa, fazem uma enorme confusão com probabilidades condicionais no cotidiano. Por exemplo, é considerada a mesma coisa a chance de um exame dar positivo se a pessoa não tem a doença e a chance de não se ter a doença se o exame dá positivo. Veja que não estamos falando da mesma coisa.

O livro “O andar do bêbado” de Leonard Mlodinow explica bem essa situação. O autor recebeu um exame de HIV com resultado positivo para a doença. Junto com o resultado, o médico lhe deu a notícia de que a chance de ele viver mais de uma década era de 1 em 1 mil.

Como o médico chegou nesse número?

Ele já sabia que o resultado do exame de HIV gera um resultado positivo com o sangue não infectado somente uma vez a cada mil amostras. Ou seja, Leonard tinha 1/1000 chance de não ter HIV. Certo?

Não. Novamente, havia 1/1000 de probabilidade de uma pessoa ter um exame positivo, sendo que ela não tinha a doença. Porém, isso não quer dizer que se o exame for positivo a chance de ela não ter a doença é 1/1000. Vamos verificar com números!

Tome uma população de 10 mil homens. Vamos considerar que o número de falsos negativos seja 0, ou seja, se o exame der negativo, a pessoa não tem HIV. Destes 10 mil, 1 possui HIV. Pelos dados do doutor, com uma simples regra de três, é fácil perceber que de 10 mil homens, com todos realizando o exame de HIV, temos 10 que terão exames com resultado positivo para a doença, mas que não estão infectados. Resumo: 1 homem com resultado positivo e com HIV, 10 com resultado positivo mas sem HIV e 9989 com exame negativo e sem HIV.

Voltando agora ao resultado de Leonard, se o exame foi positivo, ele está entre as 11 pessoas com resultado positivo. Porém, desses 11 somente 1 possui a doença. Logo, dado que o resultado foi positivo, a chance de Leonard ter a doença é de 1/11! E tudo isso graças a um pequeno erro de interpretação do teorema!

Para entender mais sobre o tema, leia o post Probabilidade Condicional e o Teorema de Bayes e o livro O andar do bêbado

Probabilidade Condicional e o Teorema de Bayes

Seguindo a linha de obtenção da probabilidade quando temos mais de um evento, muitas vezes vamos querer saber a probabilidade de algo acontecer, dada alguma condição. Por exemplo, em uma escola podemos querer calcular a probabilidade do aluno ter nota vermelha, dado que é menino. Essa probabilidade pode ser diferente da probabilidade de se ter nota vermelha, dado que é uma menina. Para melhor visualização, considere a tabela abaixo com os alunos aprovados e reprovados nas primeiras provas de cada disciplina (tabela gerada com o randbetween() do excel):

Se escolhermos aleatoriamente um aluno, qual a probabilidade dele estar aprovado em matemática dado que é um menino?

Temos um total de 13 meninos, sendo que 6 estão aprovados. Logo, a probabilidade é 6/13.

A mesma pergunta, aplicado ao caso de que tenha sido escolhida uma menina resultaria em 5/14.

Ou seja, precisamos fazer pequenos ajustes no que consideramos nosso espaço amostral.

Utilizando as notações adequadas, temos que dado dois eventos A e B, a probabilidade condicional de A dado B, denotada por P(A|B) é:

P(A|B) = P(A∩B) / P(B)

Ou seja, no nosso exemplo, queremos P(aprovado | menino) e a resposta será a interseção dos dois eventos dividido pela probabilidade de ser menino.

A probabilidade de ser homem e estar aprovado em matemática é 6/27, temos 6 meninos aprovados em matemática de um total de 27 alunos.

Como temos 13 meninos em uma sala de 27 alunos, a probabilidade de ser menino é 13/27.

Logo, P(aprovado|menino) = 6/27 ÷ 13/27 = 6/13.

Isso é o que chamamos de probabilidade condicional.

Um teorema muito importante quando se fala de probabilidade condicional é o Teorema de Bayes. O que este teorema nos fornece é uma forma de relacionar as probabilidades condicionais ao seu inverso. Por exemplo, se você precisa saber a probabilidade de um evento A ocorrer dado que ocorreu um evento B, e você sabe a probabilidade de um evento B ocorrer dado que o evento A ocorreu, o teorema vai te levar a resposta. A fórmula principal do teorema é:

P(A|B) = P(A) x P(B|A) /  P(B)

BÔNUS: Agora, e se quisermos saber a probabilidade de sair coroa em um lançamento de moeda, dado que no lançamento anterior saiu cara?

Essa é uma pergunta que confunde muitas pessoas. Nem todos responderiam 1/2, que é a resposta correta.

Pense comigo, se você está lançando uma moeda, independente do que já aconteceu no passado, a chance de cair coroa é 50%. O fato de ter saído cara, ou coroa, em um primeiro lançamento não alterou nada na moeda que faça com que ela agora tenha um peso diferente e provavelmente vai sair cara (ou coroa). Se você quiser saber a probabilidade de ocorrer coroa nos dois lançamentos consecutivos, isso sim altera nosso resultado final, pois estamos avaliando os dois eventos simultaneamente. Parece besta para quem entende, mas muita gente comete este erro.