Análise Bidimensional para Variáveis Qualitativas

Assim como podemos analisar bidimensionalmente variáveis quantitativas, podemos analisar variáveis qualitativas. Neste caso, ao invés de querer saber a relação entre duas quantidades, queremos saber a relação de duas categorias / características. Por exemplo, você pode estar interessado em saber a relação entre o grau de instrução do indivíduo e o sexo, cuja distribuição é apresentada na tabela abaixo:

Leia mais…

Análise Bidimensonal para Variáveis Quantitativas

Análise bidimensional (ou bivariada) é a análise de duas variáveis em conjunto. Quando utilizamos medidas resumo como média, mediana e variância (como no post Estatística Descritiva), estamos analisando a variável de forma isolada. Porém, em muitos casos, é interessante entender como as variáveis interagem entre si.

Leia mais…

Ponto percentual ou porcentagem?

Percentual implica mudança relativa, por exemplo, quando temos 10 elementos e adicionamos 3, temos um incremento de 30% com relação ao valor inicial. No entanto, quando comparamos duas quantidades em porcentagem, temos uma ambiguidade. Por exemplo, se você tem 30% em um primeiro instante, e 60% em um segundo momento, você cresceu 100% (pois duplicou) ou 30% (60%-30%)?

Leia mais…

Q-Q plot: Comparando duas distribuições

O Q-Q plot (ou gráfico Q-Q) é uma forma de comparar a distribuição de duas populações comparando seus quantis. Vamos comparar três gráficos com a distribuição de três conjuntos de dados distintos:

Ao que tudo indica, as duas distribuições são parecidas (normal).

Pensando numa comparação entre o conjunto de dados 1 e o conjunto de dados 2, seria interessante ordenar os dados e ir comparando, por exemplo, os menores valores de dados 1 – os 10 ou 50 primeiros menores – com os menores valores de dados 2. E depois, verificar os valores intermediários, e em seguida, fazer a mesma comparação com os valores superiores. Se fossem parecidos, não faria sentido terem a mesma distribuição?

Pois bem, isso é o que faz o Q-Q Plot!

Vamos visualizar o que estou querendo dizer utilizando 2 gráficos Q-Q:

Veja que interessante. No primeiro gráfico, você pode observar que os dados do conjunto dados_1 possuem, obviamente, a mesma distribuição dos dados do conjunto dados_1. Logo, o que vemos é uma diagonal bem formada no Q-Q plot. Entretanto, dados_2 possui os valores ligeiramente diferentes do conjunto de dados_1, logo, nossa diagonal distorce levemente. Porém, ainda podemos pressupor que eles partem da mesma distribuição. O que importa, ao final, é que estejamos o mais próximo possível de uma linha diagonal. Simples assim!

Muitas vezes você vai observar softwares com uma função Q-Q Normal. O que ela faz? Simplesmente verifica se a distribuição dos seus dados é normal, análogo ao que acabamos de estudar.

 

Média Truncada (Trimmed Mean)

Já falei de estatística descritiva algumas vezes (como em Estatística Descritiva), mas nunca mencionei a média truncada, principalmente porque eu quase não uso.

A média  truncada nada mais é do que a média desconsiderando algum percentil, o que a faz útil se você quer desconsiderar os outliers. Se você quiser calcular a média truncada de um conjunto de 10 observações, você vai retirar a primeira e a última observação, para depois calcular a média.

Por exemplo: Qual a média truncada de 10% de {1,2,2,2,2,2,2,2,2,10}?

Será (2+2+…+2)/8 = 2

E se quisermos calcular no R?

dados = c(1,2,2,2,2,2,2,2,2,10);
mean(dados, trim=.1);
[1] 2

Simples!

Visualizando a assertividade do seu experimento

Este post é um complemento ao Teorema de Bayes na prática: interpretando falso positivo e Probabilidade Condicional e o Teorema de Bayes. Apresento aqui uma demonstração visual de algumas medidas muito utilizadas na estatística.

Dado um experimento em que queremos verificar se um exame é capaz de diagnosticar uma doença, temos os seguintes resultados possíveis:

 

  • True Positive (TP) ~ Verdadeiro Positivo: O paciente foi diagnosticado como portador da doença e ele realmente é portador dela;
  • False Positive (FP) ~ Falso Positivo: O paciente foi diagnosticado como portador da doença, porém, ele não é portador dela;
  • False Negative (FN) ~ Falso Negativo: O paciente foi diagnosticado como não sendo portador da doença, porém, ele é portador dela;
  • True Negative (TN) ~ Verdadeiro Negativo: O paciente foi diagnosticado como não sendo portador da doença, e ele realmente não é portador dela.

A partir deste quadro, temos as seguintes medidas:

  • Sensibilidade: Probabilidade do exame ser positivo, dado que o paciente é portador da doença. Ou seja, capacidade do exame de acertar o diagnóstico de um paciente portador da doença;
  • Especificidade: Probabilidade do exame ser negativo, dado que o paciente não é portador da doença. Ou seja, capacidade do exame de acertar o diagnóstico de um paciente saudável;
  • Acurácia: Probabilidade do diagnóstico do exame estar correto.

Colocando em fórmulas matemáticas:

  • Sensibilidade = TP / (TP+FN)
  • Especificidade = TN / (FP+TN)
  • Acurácia = (TP+TN) / (TP+FN+FP+TN)

Veja que estamos falando de exames e doenças, mas essas medidas são utilizadas de diversas formas. Por exemplo, se você fizer uma regressão logística para prever inadimplência, você pode calcular a sensibilidade do seu modelo, qual a probabilidade de identificar um mau pagador, dado que o indivíduo é realmente mau pagador.

Paradoxo de Simpson

O paradoxo de Simpson é um caso em que quando examinamos grupos diferentes observamos uma tendência que se altera quando combinamos estes grupos.

Um exemplo clássico é o caso de admissão de mulheres na Universidade de Berkeley. Acreditava-se que as mulheres estavam sendo discriminadas na admissão, pois o percentual de mulheres admitidas era muito menor que o percentual de homens, conforme podemos observar na tabela abaixo:

Entretanto, quando a análise era feita por departamento, isto não ocorria. A tabela abaixo apresenta os dados dos seis maiores departamentos da universidade, veja que dos 6, em apenas 2 o percentual de homens admitidos era menor:

A interpretação equivocada ocorreu porque havia maior concentração de mulheres aplicando em departamentos com menor taxa de admissão.

Isso ocorre simplesmente porque existe uma variável que se correlaciona tanto com a variável dependente quanto com a independente. Em outras palavras, é mais um caso de viés de variável omitida.

Obs.: Variável omitida é uma variável não considerada/avaliada por quem está fazendo a pesquisa. Esta variável é incorporada ao erro, porém, se uma variável importante é deixada de fora do modelo, o modelo poderá ter seus estimadores com viés e inconsistentes.

 

 

Teorema de Bayes na prática: interpretando falso positivo

As pessoas, e eu me incluo nessa, fazem uma enorme confusão com probabilidades condicionais no cotidiano. Por exemplo, é considerada a mesma coisa a chance de um exame dar positivo se a pessoa não tem a doença e a chance de não se ter a doença se o exame dá positivo. Veja que não estamos falando da mesma coisa.

O livro “O andar do bêbado” de Leonard Mlodinow explica bem essa situação. O autor recebeu um exame de HIV com resultado positivo para a doença. Junto com o resultado, o médico lhe deu a notícia de que a chance de ele viver mais de uma década era de 1 em 1 mil.

Como o médico chegou nesse número?

Ele já sabia que o resultado do exame de HIV gera um resultado positivo com o sangue não infectado somente uma vez a cada mil amostras. Ou seja, Leonard tinha 1/1000 chance de não ter HIV. Certo?

Não. Novamente, havia 1/1000 de probabilidade de uma pessoa ter um exame positivo, sendo que ela não tinha a doença. Porém, isso não quer dizer que se o exame for positivo a chance de ela não ter a doença é 1/1000. Vamos verificar com números!

Tome uma população de 10 mil homens. Vamos considerar que o número de falsos negativos seja 0, ou seja, se o exame der negativo, a pessoa não tem HIV. Destes 10 mil, 1 possui HIV. Pelos dados do doutor, com uma simples regra de três, é fácil perceber que de 10 mil homens, com todos realizando o exame de HIV, temos 10 que terão exames com resultado positivo para a doença, mas que não estão infectados. Resumo: 1 homem com resultado positivo e com HIV, 10 com resultado positivo mas sem HIV e 9989 com exame negativo e sem HIV.

Voltando agora ao resultado de Leonard, se o exame foi positivo, ele está entre as 11 pessoas com resultado positivo. Porém, desses 11 somente 1 possui a doença. Logo, dado que o resultado foi positivo, a chance de Leonard ter a doença é de 1/11! E tudo isso graças a um pequeno erro de interpretação do teorema!

Para entender mais sobre o tema, leia o post Probabilidade Condicional e o Teorema de Bayes e o livro O andar do bêbado

Regressão a média e os feedbacks dos funcionários

Um fenômeno conhecido por muitos estatísticos, economistas e outros grupos de cientistas, e que deveria ser conhecido por todo mundo é a regressão à média. Nas palavras do Wikipedia “a regressão à média é o fenômeno que se apresenta quando uma variável extrema aparece na sua primeira medição, ela tenderá a ser mais próxima da média em sua segunda medição e, paradoxalmente, se é extrema na sua segunda medição, ela tenderá a ter sido mais próxima da média em sua primeira”.

Isso quer dizer que quando tivermos uma série de acontecimentos de um mesmo evento, embora os resultados variem ao longo do tempo, eles vão oscilar ao redor da média. Vamos pensar, por exemplo, em um trabalhador comum que exerce o trabalho da forma esperada em uma fábrica de sapatos. Ele não é o melhor trabalhador da fábrica, mas não é o pior. Dado que o normal é produzir 10 sapatos por dia, nós esperamos que ele produza 10 sapatos. Ou seja, se você tiver que adivinhar hoje como será o trabalho dele no dia seguinte, sem nenhuma informação adicional, é de se esperar que ele produza 10 sapatos. Você não chutaria que o trabalho dele seria muito bom nem muito ruim, afinal, a probabilidade desses eventos – “muito bom” ou “muito ruim” – ocorrerem é muito baixa. Se hoje ele produziu 15 sapatos, bem acima da sua média, isso não quer dizer que amanhã ele produzirá 15 sapatos novamente. Provavelmente a produção dele cairá e retornará para 10 sapatos.

Outro exemplo, citado no site explorable é o de medalhistas olímpicos que conquistam o ouro. Estes medalhistas tendem a ter uma queda na performance após os jogos. Do ponto de vista da regressão a média, o que ocorre é que estes medalhistas atingiram o seu pico de performance nos jogos olímpicos e, após isso, voltaram às suas atuações médias.

A regressão a média explica um fenômeno percebido por Daniel Kahneman, psicólogo ganhador do prêmio Nobel de economia em 2002. O psicólogo em uma de suas aulas relatou a alguns instrutores de voo que elogios seriam mais eficientes do que punição para o ensino. No entanto, foi questionado, pois o que os instrutores de voo observavam na prática era que um elogio era seguido de uma queda na qualidade e que a punição era seguida de uma melhora. Veja como isso é um exemplo prático de regressão à média. Vamos voltar ao nosso exemplo do trabalhador que produz 10 sapatos por dia. Se um dia ele produzir 15 sapatos, é provável que notem seu bom desempenho e ele seja elogiado. Porém, como já discutimos, no dia seguinte ele deve voltar a produzir 10 sapatos. Ou seja, o chefe dele vai observar um elogio seguido de uma queda de desempenho. O oposto também é verdade. Se um dia o trabalhador produzir 5 sapatos e receber uma punição, no dia seguinte ele voltará a produzir 10 sapatos não por conta da punição, e sim porque esse é o esperado independente dos fatores externos.

Para saber mais sobre o poder do acaso, leia O Andar do Bêbado

Probabilidade Condicional e o Teorema de Bayes

Seguindo a linha de obtenção da probabilidade quando temos mais de um evento, muitas vezes vamos querer saber a probabilidade de algo acontecer, dada alguma condição. Por exemplo, em uma escola podemos querer calcular a probabilidade do aluno ter nota vermelha, dado que é menino. Essa probabilidade pode ser diferente da probabilidade de se ter nota vermelha, dado que é uma menina. Para melhor visualização, considere a tabela abaixo com os alunos aprovados e reprovados nas primeiras provas de cada disciplina (tabela gerada com o randbetween() do excel):

Se escolhermos aleatoriamente um aluno, qual a probabilidade dele estar aprovado em matemática dado que é um menino?

Temos um total de 13 meninos, sendo que 6 estão aprovados. Logo, a probabilidade é 6/13.

A mesma pergunta, aplicado ao caso de que tenha sido escolhida uma menina resultaria em 5/14.

Ou seja, precisamos fazer pequenos ajustes no que consideramos nosso espaço amostral.

Utilizando as notações adequadas, temos que dado dois eventos A e B, a probabilidade condicional de A dado B, denotada por P(A|B) é:

P(A|B) = P(A∩B) / P(B)

Ou seja, no nosso exemplo, queremos P(aprovado | menino) e a resposta será a interseção dos dois eventos dividido pela probabilidade de ser menino.

A probabilidade de ser homem e estar aprovado em matemática é 6/27, temos 6 meninos aprovados em matemática de um total de 27 alunos.

Como temos 13 meninos em uma sala de 27 alunos, a probabilidade de ser menino é 13/27.

Logo, P(aprovado|menino) = 6/27 ÷ 13/27 = 6/13.

Isso é o que chamamos de probabilidade condicional.

Um teorema muito importante quando se fala de probabilidade condicional é o Teorema de Bayes. O que este teorema nos fornece é uma forma de relacionar as probabilidades condicionais ao seu inverso. Por exemplo, se você precisa saber a probabilidade de um evento A ocorrer dado que ocorreu um evento B, e você sabe a probabilidade de um evento B ocorrer dado que o evento A ocorreu, o teorema vai te levar a resposta. A fórmula principal do teorema é:

P(A|B) = P(A) x P(B|A) /  P(B)

BÔNUS: Agora, e se quisermos saber a probabilidade de sair coroa em um lançamento de moeda, dado que no lançamento anterior saiu cara?

Essa é uma pergunta que confunde muitas pessoas. Nem todos responderiam 1/2, que é a resposta correta.

Pense comigo, se você está lançando uma moeda, independente do que já aconteceu no passado, a chance de cair coroa é 50%. O fato de ter saído cara, ou coroa, em um primeiro lançamento não alterou nada na moeda que faça com que ela agora tenha um peso diferente e provavelmente vai sair cara (ou coroa). Se você quiser saber a probabilidade de ocorrer coroa nos dois lançamentos consecutivos, isso sim altera nosso resultado final, pois estamos avaliando os dois eventos simultaneamente. Parece besta para quem entende, mas muita gente comete este erro.