Intervalo de Confiança: o que é e como estimar no SAS?

Intervalo de confiança nada mais é do que uma estimativa de um parâmetro de uma população.

Lembra de quando falamos de inferência estatística no post Estatística, Estatística Descritiva, Inferência Estatística?

Você tem uma amostra de uma população (um subgrupo) e a partir dela faz inferências a respeito da população. Os intervalos de confiança fazem isso para os parâmetros dessa população, eles inferem os valores reais e consideram um determinado grau de incerteza. Você vai conseguir, a partir de um parâmetro do seu subgrupo, estimar um parâmetro da população inteira.

Por exemplo, vamos supor que você tenha uma população de 100 milhões de pessoas e quer saber a altura média dessa população. Porém, para saber com certeza qual é a altura média da população inteira, você teria que medir todas as 100 milhões de pessoas, o que é praticamente impossível. Então, o que você faz?

Você pega uma amostra dessa população, de por exemplo 1.000 habitantes e calcula a altura delas. Você vai querer inferir a partir da altura média desses 1.000 habitantes, a altura média da sua população. Ou seja, você quer pegar essas 1.000 pessoas e com base nas informações delas, descobrir uma informação da população inteira de 100 milhões de pessoas.

Mas você sabe que a altura média das pessoas da amostra não vai ser exatamente a altura média da população, mas provavelmente algum valor próximo disso. Aí que entra o intervalo de confiança, ele é o intervalo no qual a altura da sua população estará contida, dado um grau de incerteza.

Se você chegar a conclusão que a altura da sua população está no intervalo de 1,70m a 1,75m com 95% de confiança, você quer dizer que se você coletar 100 amostras dessa população, 95 delas terão altura média no intervalo de 1,70m a 1,75m.

Simples, não?

E como calcular o intervalo de confiança no SAS?

Vejamos a amostra a seguir de uma população:

data amostra;
input altura;
cards;
1.70
1.68
1.80
1.72
1.55
1.66
1.78
1.90
2.00
1.57
2.70
1.78
1.59
1.54
1.53
1.70
;

proc print;
    var altura;
run;

Para calcular a média dessa população basta utilizar o proc summary com os parâmetros alpha, que será 1-nível de confiança, clm (confidence limits on the mean) e var seguido da variável em questão:

proc summary data=amostra print alpha=0.05 clm;
    var altura;
run;

Aqui temos um outro método que produz os mesmos resultados, porém com outros resultados que falaremos em futuros posts:

proc ttest data=amostra alpha=0.05; var altura; run;
Veja que o nosso exemplo o intervalo de confiança é relativamente amplo, ele é de 1,61 a 1,91. Isso parece bem intuitivo, afinal, temos poucas pessoas na amostra e um nível de confiança alto, seria como se nós estivéssemos querendo ter bastante certeza de que a média da população vai estar nesse intervalo. Parece razoável pensar que com poucas pessoas fica mais difícil ser preciso e como queremos ser bastante precisos (95%), só com um intervalo grande para “acertar” a média.

Estatística, Estatística Descritiva, Inferência Estatística

Para quem já é do ramo parece algo trivial, mas para quem nunca viu, os nomes acima não são tão triviais. Sendo assim, acho que vale a pena explicar rapidamente aqui o que é cada um.

Estatística é o estudo de como coletar, organizar, analisar e interpretar dados. Pense em uma pesquisa eleitoral. Não é possível entrevistar todos os eleitores de um país. Sendo assim, técnicas estatísticas vão nos ensinar como coletar dados de forma a pegar uma amostra que represente a população ou saber quais as falhas a coleta pode ter. Além disso, é preciso saber o que retirar desses dados. Quem vota em qual político, qual a característica dos eleitores que votam no político X e quais as características de quem vota no político Y. Esse é apenas um exemplo dentre tantos que mostram como a estatística é utilizada.

Estatística descritiva é uma forma de sumarizar seus dados de forma quantitativa. É uma forma de resumir a informação que você possui. Pensemos agora em uma sala de aula. A professora tem a nota de todos seus alunos e quer saber como a classe está se saindo. Para isso, ela pode calcular a média, o mínimo, o máximo e o desvio padrão das notas dos alunos. Esses valores são estatísticas descritivas e estão passando para a professora uma ideia, um resumo, de como a sala dela está se saindo.

Por fim, temos a inferência estatística, que é o conjunto de técnicas para tirar conclusões dos seus dados. A inferência estatística é a parte em que a estatística tirará conclusões e deduzirá propriedades da sua população. Após você coletar uma amostra da sua população, você pode tirar algumas estatísticas descritivas dessa amostra mas e depois? Suponha que você queira saber quanto a família brasileira gasta. Você não consegue entrevistar todas as famílias do Brasil. O que você faz? Entrevista algumas e a partir disso, utilizando as técnicas corretas, deduz o quanto a família brasileira gasta. Note que estatística descritiva te dá apenas as informações da sua amostra coletada, sem deduzir nada, diferente da inferência, que é quando você irá traçar conclusões de toda a população com base na sua amostra.