Personalizando seu gráfico do ggplot2 – Exports and Imports, William Playfair

O ggplot2 é muito bom para explorar visualmente, de forma dinâmica, sua base de dados.  Mas às vezes queremos editar cada detalhe do gráfico para uma publicação, é possível fazer isso?

Leia o post completo em: Personalizando seu gráfico do ggplot2 – Exports and Imports, William Playfair

Explicando overfitting com uma anedota

Uma anedota bem interessante foi sugerida por uma escritora do Quora chamada Divya Sharma:

O pequeno Bobby ama cookies. Sua mãe faz cookies de gotas de chocolate todos os domingos. Porém, o mundo não é o ideal e os cookies não possuem o mesmo sabor todo domingo. Alguns domingos eles estão mais saborosos, outros domingos eles não estão tão bons. Sendo o pequeno menino curioso que é, Bobby decide descobrir quando os cookies ficam mais saborosos e quando não ficam.

A primeira observação que ele faz é que o número de gotas de chocolate varia de cookie pra cookie e essa é praticamente a única coisa observável que varia entre os cookies.

Agora, Bobby começa a tomar notas todos os domingos.

Depois de sete domingos, as suas notas parecem com algo assim:

Domingo 1 – No. de Gotas de Chocolate: 7; Sabor: Ótimo
Domingo 2 – No. de Gotas de Chocolate: 4; Sabor: Bom
Domingo 3 – No. de Gotas de Chocolate: 2; Sabor: Ruim
Domingo 4 – No. de Gotas de Chocolate: 5; Sabor: Horrível
Domingo 5 – No. de Gotas de Chocolate: 3; Sabor: Mais ou menos
Domingo 6 – No. de Gotas de Chocolate: 6; Sabor: Horrível

Isso parece bem direto. Quanto maior o número de gotas de chocolates, mais saboroso o cookie, com exceção das anotações de domingo 4 e domingo 6, que contradizem esta hipótese. O que o pequeno Bobby não sabe é que sua mãe esqueceu de colocar açúcar nos cookies de domingo 4 e domingo 6.

Como Bobby é uma pequena criança inocente, ele não sabe que o mundo está longe do ideal e que coisas como aleatoriedade e ruído são parte integral dele. Ele também não sabe que há fatores que não são diretamente observáveis. Porém, eles afetam o resultado de nossos experimentos. Então, ele conclui que o cookies ficam mais gostosos na medida que o número de gotas de chocolate aumentam quando há menos que 5 gotas de chocolate e mais que 6, mas caem drasticamente quando o número de gotas de chocolate é 5 ou 6.

Ele levantou uma hipótese muito complexa, e, não vamos nos esquecer, incorreta, para explicar como o sabor dos cookies variam porque ele tentou explicar e justificar as anotações de cada um dos domingos. Isso é chamado sobreajuste. Tentar explicar/justificar o máximo de observações possíveis com uma hipótese extremamente complexa – e possivelmente incorreta.

Se ele tivesse escolhido tratar o domingo 4 e o domingo 6 como ruídos, a hipótese  dele teria sido mais simples e relativamente mais correta.

Traduzido de https://www.quora.com/What-is-an-intuitive-explanation-of-overfitting/answer/Divya-Sharma-2?srid=GcIk

Overfitting e Cross Validation

Um termo bem comum de se encontrar quando o assunto é modelagem é overfitting. É até bonito de se dizer. Overfitting ocorre quando o seu modelo se ajusta perfeitamente aos seus dados, ou seja, o modelo serve só para os dados da base que foi utilizada para a sua construção. O que ocorre é que nesse caso o modelo passa em diversos testes de precisão com o conjunto de dados utilizados, porém, não serve para predição. Em outras palavras, como alguns cientistas de dados costumam dizer, o seu modelo aprender os dados da base treino ao invés de aprender o todo e ser capaz de fazer previsões. A grosso modo, isso ocorre quando você possui uma alta complexidade e muitos parâmetros se comparado com a base de desenvolvimento. Nesse caso, o modelo serve somente para os dados utilizados no desenvolvimento e suas previsões serão fracas. Continuar a ler “Overfitting e Cross Validation”

Regressão a média e os feedbacks dos funcionários

Um fenômeno conhecido por muitos estatísticos, economistas e outros grupos de cientistas, e que deveria ser conhecido por todo mundo é a regressão à média. Nas palavras do Wikipedia “a regressão à média é o fenômeno que se apresenta quando uma variável extrema aparece na sua primeira medição, ela tenderá a ser mais próxima da média em sua segunda medição e, paradoxalmente, se é extrema na sua segunda medição, ela tenderá a ter sido mais próxima da média em sua primeira”.

Isso quer dizer que quando tivermos uma série de acontecimentos de um mesmo evento, embora os resultados variem ao longo do tempo, eles vão oscilar ao redor da média. Vamos pensar, por exemplo, em um trabalhador comum que exerce o trabalho da forma esperada em uma fábrica de sapatos. Ele não é o melhor trabalhador da fábrica, mas não é o pior. Dado que o normal é produzir 10 sapatos por dia, nós esperamos que ele produza 10 sapatos. Ou seja, se você tiver que adivinhar hoje como será o trabalho dele no dia seguinte, sem nenhuma informação adicional, é de se esperar que ele produza 10 sapatos. Você não chutaria que o trabalho dele seria muito bom nem muito ruim, afinal, a probabilidade desses eventos – “muito bom” ou “muito ruim” – ocorrerem é muito baixa. Se hoje ele produziu 15 sapatos, bem acima da sua média, isso não quer dizer que amanhã ele produzirá 15 sapatos novamente. Provavelmente a produção dele cairá e retornará para 10 sapatos.

Outro exemplo, citado no site explorable é o de medalhistas olímpicos que conquistam o ouro. Estes medalhistas tendem a ter uma queda na performance após os jogos. Do ponto de vista da regressão a média, o que ocorre é que estes medalhistas atingiram o seu pico de performance nos jogos olímpicos e, após isso, voltaram às suas atuações médias.

A regressão a média explica um fenômeno percebido por Daniel Kahneman, psicólogo ganhador do prêmio Nobel de economia em 2002. O psicólogo em uma de suas aulas relatou a alguns instrutores de voo que elogios seriam mais eficientes do que punição para o ensino. No entanto, foi questionado, pois o que os instrutores de voo observavam na prática era que um elogio era seguido de uma queda na qualidade e que a punição era seguida de uma melhora. Veja como isso é um exemplo prático de regressão à média. Vamos voltar ao nosso exemplo do trabalhador que produz 10 sapatos por dia. Se um dia ele produzir 15 sapatos, é provável que notem seu bom desempenho e ele seja elogiado. Porém, como já discutimos, no dia seguinte ele deve voltar a produzir 10 sapatos. Ou seja, o chefe dele vai observar um elogio seguido de uma queda de desempenho. O oposto também é verdade. Se um dia o trabalhador produzir 5 sapatos e receber uma punição, no dia seguinte ele voltará a produzir 10 sapatos não por conta da punição, e sim porque esse é o esperado independente dos fatores externos.

Para saber mais sobre o poder do acaso, leia O Andar do Bêbado

Probabilidade Condicional e o Teorema de Bayes

Seguindo a linha de obtenção da probabilidade quando temos mais de um evento, muitas vezes vamos querer saber a probabilidade de algo acontecer, dada alguma condição. Por exemplo, em uma escola podemos querer calcular a probabilidade do aluno ter nota vermelha, dado que é menino. Essa probabilidade pode ser diferente da probabilidade de se ter nota vermelha, dado que é uma menina. Para melhor visualização, considere a tabela abaixo com os alunos aprovados e reprovados nas primeiras provas de cada disciplina (tabela gerada com o randbetween() do excel):

Se escolhermos aleatoriamente um aluno, qual a probabilidade dele estar aprovado em matemática dado que é um menino?

Temos um total de 13 meninos, sendo que 6 estão aprovados. Logo, a probabilidade é 6/13.

A mesma pergunta, aplicado ao caso de que tenha sido escolhida uma menina resultaria em 5/14.

Ou seja, precisamos fazer pequenos ajustes no que consideramos nosso espaço amostral.

Utilizando as notações adequadas, temos que dado dois eventos A e B, a probabilidade condicional de A dado B, denotada por P(A|B) é:

P(A|B) = P(A∩B) / P(B)

Ou seja, no nosso exemplo, queremos P(aprovado | menino) e a resposta será a interseção dos dois eventos dividido pela probabilidade de ser menino.

A probabilidade de ser homem e estar aprovado em matemática é 6/27, temos 6 meninos aprovados em matemática de um total de 27 alunos.

Como temos 13 meninos em uma sala de 27 alunos, a probabilidade de ser menino é 13/27.

Logo, P(aprovado|menino) = 6/27 ÷ 13/27 = 6/13.

Isso é o que chamamos de probabilidade condicional.

Um teorema muito importante quando se fala de probabilidade condicional é o Teorema de Bayes. O que este teorema nos fornece é uma forma de relacionar as probabilidades condicionais ao seu inverso. Por exemplo, se você precisa saber a probabilidade de um evento A ocorrer dado que ocorreu um evento B, e você sabe a probabilidade de um evento B ocorrer dado que o evento A ocorreu, o teorema vai te levar a resposta. A fórmula principal do teorema é:

P(A|B) = P(A) x P(B|A) /  P(B)

BÔNUS: Agora, e se quisermos saber a probabilidade de sair coroa em um lançamento de moeda, dado que no lançamento anterior saiu cara?

Essa é uma pergunta que confunde muitas pessoas. Nem todos responderiam 1/2, que é a resposta correta.

Pense comigo, se você está lançando uma moeda, independente do que já aconteceu no passado, a chance de cair coroa é 50%. O fato de ter saído cara, ou coroa, em um primeiro lançamento não alterou nada na moeda que faça com que ela agora tenha um peso diferente e provavelmente vai sair cara (ou coroa). Se você quiser saber a probabilidade de ocorrer coroa nos dois lançamentos consecutivos, isso sim altera nosso resultado final, pois estamos avaliando os dois eventos simultaneamente. Parece besta para quem entende, mas muita gente comete este erro.

 

Probabilidade: E vs. OU

Exemplo 1: Vamos supor que você tenha um dado de seis faces e uma moeda honesta. Você decide realizar apostas e quem acertar o resultado de ambos ganhará um prêmio. Seu amigo aposta que sairá o número seis E cara. Qual a probabilidade dele estar certo? E qual seria a probabilidade se você facilitasse o jogo um pouco para ele, e deixasse que ele levasse um prêmio se acertasse um dos dois apenas?

Para responder a pergunta, você trabalhará com dois tipos de eventos.

O primeiro é uma intersecção (https://pt.wikipedia.org/wiki/Interse%C3%A7%C3%A3o), ou seja, quando ocorrem dois eventos simultaneamente, no caso o lançamento do dado resultar no número seis e o da moeda em cara.

O segundo caso, em teoria dos conjuntos, é uma união. Ou seja, se qualquer um dos eventos ocorrer, já satisfaço a condição.

Considerando o espaço amostral do experimento, temos:

Ω = {(c, 1), (c, 2), (c, 3), (c, 4), (c, 5), (c, 6), (k, 1), (k, 2), (k, 3), (k, 4), (k, 5), (k, 6)}

No caso da interseção, apenas o resultado (cara, 6) satisfaz. Ou seja, a probabilidade é 1/12.

No caso da união, há um conjunto de resultados que satisfazem, para ser mais preciso, 7 resultados satisfazem a condição para que o jogador ganhe:

{(c,1), (c, 2), (c, 3), (c, 4), (c, 5), (c, 6), (k, 6)}

Ou seja, no segundo jogo as chances do seu amigo ganhar aumentam muito, para 7/12.

Uma outra forma de fazer isso seria utilizando a multiplicação para o primeiro caso e a soma para o segundo.

Interseção: P(cara e 6) = P(cara) * P(6) = 1/2 * 1/6 = 1/12

União: P(cara ou 6) = P(cara) + P(6) = 1/2 + 1/6 = 7/12

Exemplo 2: Um dado foi lançado 3 vezes. Qual a probabilidade de sair 3 caras? E de sair ao menos uma cara?

P(3 caras) = 1/2 * 1/2 * 1/2 = 1/8

P(ao menos uma cara) = 1 – P (3 coroas) = 1 – (1/2 * 1/2 * 1/2) =

Essa de pelo menos uma cara pode confundir alguns, por isso resolvi colocar. Alguns poderiam fazer 1/2 + 1/2 + 1/2 = 3/2 = 150%. Mas como é possível uma probabilidade de 150%? Lembre-se de que probabilidade é um valor entre 0 e 1, escrevendo de outra forma, entre 0 e 100%. Isso não é possível porque aqui, se tivermos cara no primeiro caso, a nossa condição já está satisfeita para as demais. Para resolver este exercício, apresento aqui o conceito de complementar.

Sendo A um evento, o evento complementar de A são todos os eventos do espaço amostral que não estão contidos em A. Ou seja, se o evento é ocorrer cara, o complementar é ocorrer coroa. Se o que buscamos é que ocorra pelo menos uma cara, se considerarmos todas as opções que temos de eventos, o complementar do evento ‘ao menos uma cara’ é quando só ocorre coroa nos três lançamentos.

Visualmente: Wikipedia – Complementar

 

Primeiros Passos em Probabilidade

O QUE É PROBABILIDADE?

Produzi muito mais material de programação do que de estatística, por motivos óbvios: mais da metade do tempo gasto no trabalho é tratando as bases de dados. Isso é normal para qualquer um que trabalhe com modelagem estatística ou qualquer outro trabalho que utilize um volume grande de dados.

Por causa disso, acabei deixando um tema muito importante de fora: probabilidade!

Probabilidade é uma medida que varia de zero a um e que indica a chance de um evento ocorrer. Sendo que zero indica que não há chances do evento ocorrer e um indica que o evento ocorrerá com certeza.

Para se medir a probabilidade de um evento específico ocorrer devemos medir o número de vezes que este evento pode ocorrer pelo número total de eventos que podem ocorrer.

Exemplo 1: Qual a probabilidade de sair cara em um lançamento de uma moeda honesta?

Temos o evento cara, ou seja, um evento. E temos um total de dois eventos, pois o lançamento pode resultar em cara ou coroa. Logo, a resposta é:

1/2 = 0,5

Exemplo 2: Qual a probabilidade de tirarmos um número par no lançamento de um dado honesto?

O número de vezes que o evento ocorrer são 3, pois tiraremos um número par quando obtivermos o número 2, 4 ou 6 no lançamento.

O total de eventos que pode ocorrer é 6, pois podemos tirar 1, 2, 3, 4, 5 ou 6 no lançamento.

Sendo assim, a resposta é 3/6 = 1/2 = 0,5.

ESPAÇO AMOSTRAL

Note que você foi introduzido – sem notar – a um conceito novo que é amplamente utilizados na estatística: o espaço amostral.

Espaço amostral é o conjunto de todos eventos que podem ocorrer em um experimento. Por exemplo, o espaço amostral no lançamento de uma moeda é um conjunto de 2 elementos: cara e coroa. No caso do lançamento de um dado, o espaço amostral possui 6 elementos, os números 1, 2, 3, 4, 5 e 6.

O espaço amostral é usualmente denotado pela letra grega omega: Ω. Porém, em alguns casos você pode encontrar a letra U também, derivada do conceito de Universo.

Dado um espaço amostral Ω = {ω1, ω2, … , ωn}, onde ωi se refere ao evento i do experimento, P(ω) é a probabilidade do evento ω ocorrer.

Exemplo 3: Temos uma caixa com 3 bolas vermelhas, 5 bolas amarelas e 7 bolas verdes dentro. Qual o espaço amostral do experimento? Qual a probabilidade de eu tirar uma bola vermelha? E uma amarela? E uma verde? Qual cor tem mais chance de sair em uma retirada?

Ω = {vermelha, vermelha, vermelha, amarela, amarela, amarela, amarela, amarela, verde, verde, verde, verde, verde, verde, verde}

P(vermelho) = 3 / (3+5+7) = 3/15 = 1/5

P(amarela) = 5 / (3+5+7) = 5/15 = 1/3

P(verde) = 3 / (3+5+7) = 7/15

Note que a probabilidade de sair verde é maior que as demais. O que é bem intuitivo, afinal temos mais bolas verdes na caixa.

Simples não?

Lembre-se sempre da fórmula abaixo:

P(A) = N° de vezes que A ocorre / N° Total de Eventos que ocorrem