Como falei no post anterior sobre frequências (ver TUTORIAL: PROC FREQ NO SAS), é difícil entender bases grandes somente olhando para o analítico. Normalmente, vamos tentar obter algumas medidas que resumam o conteúdo em questão. Uma das formas de obter estas medidas, quando falamos de variáveis numéricas, é utilizando o proc means. Com o proc means você consegue encontrar a média, mediana, percentil, quartil e várias outras estatísticas no SAS. Veja abaixo como utilizar este procedimento para entender seus dados. Continuar a ler “Tutorial: PROC MEANS no SAS”
TUTORIAL: PROC FREQ NO SAS
Sempre que você for trabalhar com bases grandes, você provavelmente não vai conseguir dizer o que está dentro daquela base e/ou entender se seus dados fazem sentido, somente olhando para o analítico da base. Uma das formas de se analisar o conteúdo de uma base, é verificando as frequências com que aparecem algumas informações. Verificar a frequência é importante não só para validação das informações, como também para se obter insumos para tomada de decisão. No SAS, a principal forma de se obter as frequências é através do proc freq. Vamos verificar quais as diferentes formas de se usar este comando. Continuar a ler “TUTORIAL: PROC FREQ NO SAS”
20 pacotes de Machine Learning mais baixados do R
Se liga nesse gráfico que o KDnuggets postou hoje, com os 20 pacotes de Machine Learning mais baixados do R: Continuar a ler “20 pacotes de Machine Learning mais baixados do R”
Tchau regressão, eu sobrevivi!
Hahaha
As pesquisas eleitorais são compradas?
Muita gente critica as pesquisas eleitorais. Se aproveitando dessa brecha, ou simplesmente por desconhecerem estatística, algumas pessoas estão criando pesquisas alternativas. Sites e mais sites agora pedem que você marque em quem vai votar, pensando que essa é a forma ideal de prever o resultado das urnas. Não é. E as pesquisas também não são fraudadas. Alguns dos motivos, que envolvem tanto teoria econômica, quanto técnicas estatísticas: Continuar a ler “As pesquisas eleitorais são compradas?”
Overfitting
“Lembra daquelas crianças que eram fenomenais em memorização, mas nunca conseguiam aplicar os conceitos memorizados em um problema novo? Continuar a ler “Overfitting”
Regressão Logística: Conceitos Essenciais e Modelo
Regressão Logística, também chamada de Logit, é uma técnica de modelagem utilizada para lidar com variáveis binárias (0 ou 1). Para responder a questões como “qual o salário de um indivíduo, dado seus anos de estudos”, “qual o valor de uma casa, dadas suas características”, a regressão linear é suficiente. Entretanto, se quisermos responder a questões como “o indivíduo vai pagar uma dívida?”, “o consumidor vai comprar determinado produto?”, i.e., perguntas de sim (=1) ou não (=0), aí faz sentido usar outro modelo, dentre as diversas possibilidades temos a regressão logística. Continuar a ler “Regressão Logística: Conceitos Essenciais e Modelo”
Estatística Essencial em Forma de Anedota
Escrevi uma série de textos no Portal Deviante sobre experimentos, amostragem e outras formas de se fazer análises, além de explicar alguns conceitos estatísticos, todos em forma de historinhas, com exemplos bem claros. Cuidados que se deve ter e erros comuns. Todos bem leves e escritos de uma forma bem informal. Continuar a ler “Estatística Essencial em Forma de Anedota”
Modelo estatístico só erra!
Regressão Logística no R
Regressão logística é uma técnica estatística muito poderosa, utilizada para modelagem de saídas binárias (sim ou não). Quando se quer medir a relação de uma variável dependente binária com uma ou mais variáveis independentes, é comum utilizar esta técnica. Pense, por exemplo, numa empresa que empresta dinheiro para um cliente. Com base nas informações deste cliente (idade, profissão, etc.), é interessante a empresa tentar prever se o cliente vai pagar a dívida ou não. Uma forma de tentar prever isso é utilizando a regressão logística. Continuar a ler “Regressão Logística no R”