Amostra: Definição e Exemplo Prático

População é o conjunto de todos os indivíduos, coisas ou eventos do problema em questão. Em um estudo médico sobre obesidade, a população são todos os indivíduos obesos. Em uma análise sobre acidentes de trânsito, a população é composta por todos os acidentes de trânsito. Continuar a ler “Amostra: Definição e Exemplo Prático”

Variáveis: Definição e Classificação

Se você já estudou algo de estatística, com certeza já ouviu muito a palavra variável. Esse nome importante aparece desde a introdução da matéria até quando falamos de modelos robustos em ciência de dados e machine learning. Hoje, vamos abordar sua definição formal, classificar os diferentes tipos e ver alguns exemplos.

Continuar a ler “Variáveis: Definição e Classificação”

Podcasts

Você pega trânsito no trabalho? Já cansou dos programas de rádio? Quer fazer algo mais produtivo com esse tempo? Que tal tentar um podcast?

Fiz uma pequena lista de programas falando sobre estatística:

Podcasts que falam sobre Estatística

PS.: Depois de ouvir os programas sobre estatística, dê uma chance a essa mídia. Recomendo o Scicast e o Dragões de Garagem para quem gosta de ciência!

A probabilidade do outro filho ser menino ou menina é…

Assim como no post Qual a probabilidade de tirar o número 1 jogando um dado duas vezes? vamos olhar para mais uma pegadinha clássica nas questões de probabilidade. E, assim como no outro post, um dos erros cometidos é não pensar no conjuntos de resultados possíveis.

Se um casal tem duas crianças, e lhe foi dito que uma delas é um menino. Qual a probabilidade da outra criança ser também um menino?

Leia mais…

Qual a probabilidade de tirar o número 1 jogando um dado duas vezes?

Uma das perguntas mais comuns para quem estuda probabilidade ou é fã de jogos de azar: qual a probabilidade de sair o número X, pelo menos uma vez, ao jogarmos um dado n vezes?

Leia mais…

Média Truncada (Trimmed Mean)

Já falei de estatística descritiva algumas vezes (como em Estatística Descritiva), mas nunca mencionei a média truncada, principalmente porque eu quase não uso.

A média  truncada nada mais é do que a média desconsiderando algum percentil, o que a faz útil se você quer desconsiderar os outliers. Se você quiser calcular a média truncada de um conjunto de 10 observações, você vai retirar a primeira e a última observação, para depois calcular a média.

Por exemplo: Qual a média truncada de 10% de {1,2,2,2,2,2,2,2,2,10}?

Será (2+2+…+2)/8 = 2

E se quisermos calcular no R?

dados = c(1,2,2,2,2,2,2,2,2,10);
mean(dados, trim=.1);
[1] 2

Simples!

Proc Means

No SAS, uma das melhores formas de se obter estatísticas descritivas é através do proc means. Além de ser possível obter média, mediana e moda, você consegue diferentes faixas de percentil, observações missing e até mesmo gerar estatísticas cruzando variáveis.

Veja algumas maneiras de se utilizar o proc means com a nossa conhecida base german_credit_2:

1.  Primeiro, vamos obter algumas informações para a variável DurationOfCreditMonth utilizando o proc means da maneira mais simples possível:

proc means data= german_credit_21;
    var DurationOfCreditMonth;
run;

2. Em alguns momentos você pode precisar gerar as informações segregadas por diferentes grupos. Por exemplo, você pode precisar da mediana da dívida dos clientes por cada estado, ou a média das notas dos alunos por matéria. Em nosso exemplo, vamos observar como a variável DurationOfCreditMonth se diferencia entre clientes com Creditability = 1 e Creditability = 0:

proc means data=tmp.german_credit_21;
    class Creditability;
    var DurationOfCreditMonth;
run;

3. Média, mediana e desvio padrão são medidas interessantes e auxiliam na interpretação dos números. No entanto, você pode estar interessado em entender mais a respeito da distribuição desses números. Uma forma de entender isso, é através de algum percentil:

proc means n mean std p10 p25 p50 p75 data=tmp.german_credit_21;
    class Creditability;
    var DurationOfCreditMonth;
run;

4. Agora que você já possui alguns números para entender melhor a variável, pode ser uma boa ideia deixar o seu resultado mais limpo limitando a duas casas decimais com o maxdec:

proc means n mean std skew p10 p25 p50 p75 data=tmp.german_credit_21 maxdec=2;
    class Creditability;
    var DurationOfCreditMonth;
run;

5. Não é tão interessante quanto os primeiros itens, mas salvar seus resultados em uma tabela – que aqui chamamos de tabela_saida – pode ser útil, principalmente em processos mais automáticos:

proc means data=tmp.german_credit_21;
    class Creditability;
    var DurationOfCreditMonth;
    output out=tabela_saida sum=soma mean=media p50=mediana;
run;

6. Outra coisa que podemos fazer, semelhante ao que fizemos no item 2, é gerar essas medidas para mais variáveis dividindo todas pelo Creditability ou então, gerar as medidas da variável por outras classes:

proc means data=tmp.german_credit_21;
    class Creditability;
    var DurationOfCreditMonth Purpose;
    output out=tabela_saida sum=soma mean=media p50=mediana;
run;
proc means data=tmp.german_credit_21;
    class Creditability Purpose;
    var DurationOfCreditMonth;
    output out=tabela_saida sum=soma mean=media p50=mediana;
run;

BÔNUS:

Para incluir os dados missing e ainda contar o número de observações missing, acrescente missing e nmiss no proc means:

proc means  data= <nome da base> missing nmiss;
    class <classe - nao obrigatorio>;
    var <variavel>;
run;