Expliquei o conceito de mediana nesse post quando falei de estatística descritiva. O que não falei é que a mediana pode ser chamada também de 50° percentil (ou p50).
O percentil é uma medida estatística que representa a posição de um número, ou melhor dizendo, representa a posição percentual de um número em uma determinada lista ordenada. A mediana é o valor que se encontra no 50° percentil, na posição em que 50% dos valores da amostra ordenada está abaixo dela. Se formos falar do p10, ou 10° percentil, estaremos falando do valor situado acima de 10% da amostra ordenada. O percentil vai lhe dar uma boa ideia de como seus dados estão distribuídos.
Exemplo: Suponha que a lista abaixo represente as notas dos alunos de uma determinada turma:
Você quer saber como estão distribuídos seus alunos. Se grande parte deles está com uma nota boa, acima da média da escola. Então, você resolve observar o p25, que mostrará um valor no qual 25% da sua turma está abaixo dele. Boa parte da turma tem nota acima de p25 (75% para sermos precisos), ou seja, se esse valor for alto pode indicar que sua turma tem boas notas.
Para nosso exemplo, veja que se ordenarmos os dados, o p25 da turma será 5.7, ou seja, 25% dos alunos tiraram menos que 5.7. E é isso que ocorre, veja que 25% de 12 é 3, e há exatamente 3 notas abaixo de 5.7.
Como encontrar esses valores no SAS?
Se você estiver com uma grande base de dados nas mãos, será complicado encontrar o percentil “na raça”. Então vamos ao código que solta uma tabela com todos os percentiles que você quiser no SAS:
PROC UNIVARIATE DATA=NOTAS_ALUNOS;
VAR NOTAS;
OUTPUT PCTLPRE=P_ PCTLPTS= 5, 25 to 100 by 5;
run;
Dá para ter uma boa ideia do que o código faz sem explicações, certo?
O proc univariate solta diversas medidas estatísticas da variável nota. Como queremos os percentiles de 25 a 100, de 5 em 5, nós criamos uma tabela com todos esses percentiles.
Faça o teste e, se houver dúvidas, fique a vontade para comentar o post!
0 comentários em “Percentil – Conceito e Código SAS”