Qual amostra mais confiável, uma de 90% da população ou uma de 5%?

Lembra daquelas pesquisas eleitorais de Twitter ou qualquer outra plataforma falando: entre aqui e marque em quem você vai votar, vamos fazer uma amostra de X milhões de pessoas, mais confiável que as pesquisas atuais? Eu lembro bem, pois é sofrível para alguém que adora estatística ouvir isso. Se você está minimamente próximo da estatística na sua vida profissional ou acadêmica e ainda acredita que é uma amostra de 1 milhão de pessoas é mais confiável do que uma de 5 mil, se você é desses que não desconfia de pesquisas feitas na internet onde participa quem se dispõe a clicar e preencher as respostas, então aconselho a leitura de uma discussão de hoje que aconteceu no Twitter. Continuar a ler “Qual amostra mais confiável, uma de 90% da população ou uma de 5%?”

Criando dataframes e gerando amostras no R

Muitas vezes, se queremos praticar algo no R (ou outra linguagem), é interessante criarmos um conjunto de dados de mentira ou retirar uma amostra de um conjunto real. Se o dataset falso ou a amostra tiver menos observações, você não vai precisar demorar alguns longos minutos testando o que criou, você vai ver aquilo rodando rapidinho com seus exemplos. Sendo assim, vamos aprender como criar esses dados falsos e como seria retirar uma amostra dos seus dados. Continuar a ler “Criando dataframes e gerando amostras no R”

Amostra: Definição e Exemplo Prático

População é o conjunto de todos os indivíduos, coisas ou eventos do problema em questão. Em um estudo médico sobre obesidade, a população são todos os indivíduos obesos. Em uma análise sobre acidentes de trânsito, a população é composta por todos os acidentes de trânsito. Continuar a ler “Amostra: Definição e Exemplo Prático”

Gerar amostras aleatórias simples no SAS

Em diversos estudos estatísticos, seja para fazer uma pesquisa de mercado ou um modelo estatístico, é necessário gerar uma amostra aleatória. No SAS, isso é bem simples:

/*Substitua os nomes: tabela_entrada, amostra_gerada *\
/*          e tamanho_da_amostra                     *\
proc surveyselect 
    data= tabela_entrada
    out= amostra_gerada
    n = tamanho_da_amostra method=SRS;
run;

Ps.: As amostras são sem reposição!

Seja mais ágil utilizando firstobs e inobs no SAS

Quando se trabalha com milhões de dados, qualquer tratamento vai consumir alguns bons minutos – ou até horas – do seu dia. Ou seja, se você escrever seu código, rodar e ele apresentar algum erro, lá se vai uma parte do seu dia. Como ninguém é perfeito, esse processo de escrever + executar + problemas se repete várias vezes ao longo do dia. Logo, você vai gastar horas para escrever um código, muitas vezes simples, e vai passar horas ocioso. Porque você vai escrever um trecho do código, vai colocar para rodar, vai esperar alguns minutos e aí sim vai resolver um problema. Para depois fazer isso de novo. E aí segue seu dia, chato e improdutivo.

Evitar o problema descrito é mais simples do que parece. Ao menos parte dele é solucionado testando em uma amostra. Por exemplo, você quer converter o formato de data da sua base. Não escreva o código e fique lá 20 minutos rodando enquanto você não faz nada, ou finge fazer. Teste essa conversão em 10 linhas da base de dados e veja o que ocorre. Se o processo for grande, envolver várias etapas, siga testando com essas 10 linhas fazendo todos os tratamentos, seja enriquecendo a base com dados de outras fontes, seja tratando os campos. Para pegar apenas 10 linhas, você tem as duas opções abaixo, uma para quem usa data step e outra para quem usa proc sql:

* primeira opcao via data step
* seleciona do primeiro ao decimo elemento
* util caso voce queira selecionar elementos do meio da tabela;
data seleciona_amostra;
    set base (firstobs = 1 obs = 10);
run;

* segunda opcao via proc sql;
proc sql inobs = 10;
    select * from base;
run;

Bem simples. Desta forma não precisa mais escrever um trecho, deixar rodando por 1h para só depois checar se deu certo.

Espero que tenha ajudado. Dúvidas, sugestões ou críticas é só escrever aí embaixo.

Estatística, Estatística Descritiva, Inferência Estatística

Para quem já é do ramo parece algo trivial, mas para quem nunca viu, os nomes acima não são tão triviais. Sendo assim, acho que vale a pena explicar rapidamente aqui o que é cada um.

Estatística é o estudo de como coletar, organizar, analisar e interpretar dados. Pense em uma pesquisa eleitoral. Não é possível entrevistar todos os eleitores de um país. Sendo assim, técnicas estatísticas vão nos ensinar como coletar dados de forma a pegar uma amostra que represente a população ou saber quais as falhas a coleta pode ter. Além disso, é preciso saber o que retirar desses dados. Quem vota em qual político, qual a característica dos eleitores que votam no político X e quais as características de quem vota no político Y. Esse é apenas um exemplo dentre tantos que mostram como a estatística é utilizada.

Estatística descritiva é uma forma de sumarizar seus dados de forma quantitativa. É uma forma de resumir a informação que você possui. Pensemos agora em uma sala de aula. A professora tem a nota de todos seus alunos e quer saber como a classe está se saindo. Para isso, ela pode calcular a média, o mínimo, o máximo e o desvio padrão das notas dos alunos. Esses valores são estatísticas descritivas e estão passando para a professora uma ideia, um resumo, de como a sala dela está se saindo.

Por fim, temos a inferência estatística, que é o conjunto de técnicas para tirar conclusões dos seus dados. A inferência estatística é a parte em que a estatística tirará conclusões e deduzirá propriedades da sua população. Após você coletar uma amostra da sua população, você pode tirar algumas estatísticas descritivas dessa amostra mas e depois? Suponha que você queira saber quanto a família brasileira gasta. Você não consegue entrevistar todas as famílias do Brasil. O que você faz? Entrevista algumas e a partir disso, utilizando as técnicas corretas, deduz o quanto a família brasileira gasta. Note que estatística descritiva te dá apenas as informações da sua amostra coletada, sem deduzir nada, diferente da inferência, que é quando você irá traçar conclusões de toda a população com base na sua amostra.