Tipos de vieses

Viés é um tipo de tendência, um peso desproporcional, que damos a alguma coisa. Quando alguém está enviesado, é porque sua visão está distorcida para algum dos lados do tema. Na estatística, obviamente, viés é um tema muito importante. Análises com algum tipo de viés, por mais que contenham dados, possuem conclusões equivocadas. No post de hoje, vou falar de 4 tipos de viés que você deve prestar atenção quando estiver fazendo alguma pesquisa ou avaliando algum artigo/estudo. Bora lá! Continuar a ler “Tipos de vieses”

Resolução de Exercícios de Probabilidade

Hoje é dia de mais resolução de exercícios! Dessa vez, vamos abordar probabilidade, Bayes, independência de eventos e outros assuntos predominantes em estatística básica. Então se você quer praticar, ver como fica a teoria dentro dos exercícios ou até encontrar exercícios parecidos com o que seu professor te passou, este post é para você. Continuar a ler “Resolução de Exercícios de Probabilidade”

Correlação e Causa: O Caso da Regressão Linear

Que correlação não implica causa já é algo que está ficando cada vez mais manjado. Não é mais necessário ser um estatístico ou economista para saber isso. Baste um pouco de conhecimento em análise de dados. O curioso é que para muitas pessoas, isso pode ser resolvido com uma regressão linear. Não é verdade. Continuar a ler “Correlação e Causa: O Caso da Regressão Linear”

Teste seus Conhecimentos em Data Science!

Quase que semanalmente, tenho feito alguns quizzes no twitter do EstatSite – você pode seguir indo em @EstatSite – sobre ciência de dados. As perguntas variam e vão desde questões sobre interpretação de gráficos até premissas utilizadas em modelos bastante comuns. Veja uns exemplos: Continuar a ler “Teste seus Conhecimentos em Data Science!”

O Problema dos Gráficos com Dois Eixos-Y

Gráficos com dois eixos-y são constantemente criticados por estatísticos e economistas, ao menos entre os mais experientes com análise exploratória. Para os leigos ou com pouco contato com esse tipo de análise é meio estranho essa implicância. Mas acredite em mim, não é em vão. Continuar a ler “O Problema dos Gráficos com Dois Eixos-Y”

Resumão dos Tweets

Muito do que posto no Twitter acaba não vindo parar aqui. Às vezes são coisas tão breves que nem conseguiria elaborar um post. Outras vezes, são threads que até caberiam aqui, mas que são mais fáceis de se postar por lá. E tem coisa também que são só reflexões aleatórias ou piadinhas. De qualquer forma, aqui vão alguns dos tweets recentes, para quem não acompanha a conta saber mais ou menos qual é a pegada por lá. No fim deste post, há uma thread que essa sim acho essencial para todos que estudam ciência de dados. Continuar a ler “Resumão dos Tweets”

Algoritmo de Classificação: KNN (K Nearest Neighbors)

O algoritmo KNN, abreviação de K Nearest Neighbors, é um algoritmo bastante utilizado por cientistas de dados, principalmente pela sua facilidade de implementação (além de ser um lazy learner*). É um algoritmo supervisionado de machine learning, utilizado para problemas de classificação e regressão. Hoje, o foco é na parte de classificação. A ideia é simples, separar os indivíduos em grupos (ou classes) de acordo com a semelhança existente. Vamos entender o que isso quer dizer… Continuar a ler “Algoritmo de Classificação: KNN (K Nearest Neighbors)”

Everest Regression

Alguém postou recentemente um comentário sobre Everest Regression no Twitter – não me recordo, mas creio que tenha sido o @lmonasterio. Acabei me recordando desse termo maravilhoso que ouvi somente umas duas vezes, mas que acho bem divertido e interessante. Sendo assim, vamos entender o que ele significa! Continuar a ler “Everest Regression”

Gráficos com ou sem muitos detalhes?

Sempre tive um pé atrás com relação ao exagero em qualquer tipo de apresentação. Seja na minha dissertação de mestrado, que teve 33 páginas, ou nas apresentações no trabalho, onde evitava encher slides com muitas informações, preferia apresentar algo enxuto que focava no que importava. Por estes motivos, meus gráficos sempre foram os mais simples possíveis. Achava inclusive que encher de detalhes, legendas e outras anotações, iria tirar o foco do leitor. Mas o que diz a literatura sobre isso? Continuar a ler “Gráficos com ou sem muitos detalhes?”

Qual amostra mais confiável, uma de 90% da população ou uma de 5%?

Lembra daquelas pesquisas eleitorais de Twitter ou qualquer outra plataforma falando: entre aqui e marque em quem você vai votar, vamos fazer uma amostra de X milhões de pessoas, mais confiável que as pesquisas atuais? Eu lembro bem, pois é sofrível para alguém que adora estatística ouvir isso. Se você está minimamente próximo da estatística na sua vida profissional ou acadêmica e ainda acredita que é uma amostra de 1 milhão de pessoas é mais confiável do que uma de 5 mil, se você é desses que não desconfia de pesquisas feitas na internet onde participa quem se dispõe a clicar e preencher as respostas, então aconselho a leitura de uma discussão de hoje que aconteceu no Twitter. Continuar a ler “Qual amostra mais confiável, uma de 90% da população ou uma de 5%?”