Curtose

A curtose é uma medida que, conforme falado no post anterior, aparece na sua estatística descritiva do excel. Porém, a maioria das pessoas não a conhece. Tranquilão, aqui vai um resumo deboas para você:

O que a curtose nos fornece é simplesmente o quão achatado é o “pico” da nossa distribuição de frequência.

Veja as três distribuições abaixo:

Elas mostram como nossos dados estão distribuídos. No primeiro caso, nossa curva parece uma normal. No segundo gráfico, nossos dados estão mais concentrados no ponto central. Já no último gráfico, nossos dados estão menos concentrados.

Beleza, agora já entendemos o motivo de estudarmos a curtose e o que é exatamente esse “achatamento” do pico. Queremos entender como nossos dados estão distribuídos, simples. E como utilizamos o número que o excel nos fornece?

Só para constar, o que o excel nos dá, colocando de uma forma mais formal, é o que chamamos de excesso de curtose.

Tá, blá blá blá, whatever… o que isso significa?

Significa que se o excel “cuspir” uma curtose próxima de 3, sua distribuição parecerá uma normal, se for menor que 3 então teremos um pico um pouco mais fino e se maior que 3 um pico mais achatado, parecido com aquele terceiro gráfico acima.

E aqueles nomes em cima dos gráficos? É só uma forma mais legal de chamar a nossa distribuição. Só para reforçar, mais uma vez:

Se a curtose for menor que 3, distribuição é leptocúrtica

Se a curtose for próxima de 3 a distribuição é mesocúrtica

Se a curtose for maior que 3  distribuição é platicúrtica.

Estatística Descritiva

Estatística descritiva, como o próprio nome já diz, é uma disciplina (ramo, técnica, etc.), que utilizamos para descrever dados de forma quantitativa.

Quando você está no excel e vai em análise de dados, você pode selecionar estatística descritiva e marcar a caixinha “resumo estatístico” para obter diversas informações a respeito dos seus dados. Farei aqui um breve resumo do que é cada uma das principais estatísticas fornecida pelo Excel.

Antes, vamos lembrar algumas definições básicas.

A média, mediana e moda, são chamadas de medidas de tendência central. Como o próprio nome diz, elas fazem referência ao centro da nossa distribuição. Ou seja, onde nossos dados estão centrados, qual o “meio” da nossa distribuição.

Em contrapartida, mediana, variância e desvio padrão são medidas de dispersão. Servem para mostrar o quanto nossos dados estão dispersos.

Por exemplo, suponha que a gente tenha duas cidades, A e B, com 10 moradores cada e com os seguintes salários:

Cidade A: $200, $200, $200, $200, $200, $200, $200, $200, $200, $200;

Cidade B: $10, $10, $10, $10, $10, $100, $100, $100, $100, $1550.

A média da cidade A e da cidade B é $200, mas o desvio padrão da cidade A é 0 e da cidade B é 451,99. Ou seja, os dados da cidade B estão bem mais dispersos. Podemos ver que os salários na cidade A são bem distribuídos, enquanto na cidade B há uma diferença significante entre os salários. Por esse motivo, é importante conhecermos tanto as medidas de tendência central, quanto as medidas de dispersão.

Vejamos agora as principais estatísticas fornecidas pelo Excel e o que significa cada uma:

  1. Média: Média aritmética da sua amostra, provavelmente a estatística mais conhecida e utilizada por todos, imagino que não precise de muita explicação. Nada mais é do que a soma das suas observações dividido pelo número de observações.
  2. Erro padrão: Estima a variabilidade de suas amostras, sua fórmula é o desvio padrão dividido pelo tamanho da amostra.
  3. Mediana: Valor que está no centro da sua amostra, metade dos valores está acima deste número e metade abaixo. Na cidade A a mediana é 200 e na cidade B é 55, pois (10+100)/2 = 55.
  4. Moda: Valor que aparece mais vezes nos seus dados. Na cidade A a moda é 200 e na cidade B é 10.
  5. Desvio padrão: Mede o quanto seus dados variam com relação a média.
  6. Variância: Essa medida vai te dar a dispersão dos seus dados com relação a média, mas em uma dimensão que será o quadrado da dimensão dos seus dados.
  7. Curtose: Também é uma medida para indicar a dispersão dos seus dados, mas nesse caso, a estatística nos dará o quão achatado é o gráfico da função de probabilidade dos nossos dados. Falaremos mais dessa medida em um post futuro, por enquanto, ficamos com a definição mais básica de que uma Curtose próxima de zero indica uma distribuição normal.
  8. Assimetria: Nos dá a simetria da distribuição dos nossos dados. Como assim? Bem, se você desenhar a curva de distribuição dos seus dados, você pode ter algo parecido com uma normal, uma curva um pouco mais concentrada a direita e caindo quando vai para a esquerda, ou o contrário. É isso que a essa medida do excel nos ajuda a entender. Uma distribuição simétrica, que tem o formato de um sino, terá assimetria igual a 0. No entanto, se a distribuição possuir uma maior concentração de dados a esquerda, o valor dessa estatística será negativo.
  9.