10 livros de Data Science disponíveis online!

Se tem uma coisa boa dos tempos modernos é a facilidade em aprender absolutamente QUALQUER coisa pela internet. E o melhor de tudo é a qualidade do conteúdo. Não só temos bons canais e blogs, como também temos conteúdos de universidades de ponta e de editoras renomadas. Pensando nisso, hoje eu resolvi trazer uma lista de 10 livros de Data Science disponíveis online e totalmente gratuitos! Continuar a ler “10 livros de Data Science disponíveis online!”

Os maiores desafios em Machine Learning

Como qualquer área, a Ciência de Dados e o Machine Learning estão cheio de desafios, coisas que complicam a obtenção de um bom modelo preditivo. Pensando nisso, compilei aqui os maiores desafios em Machine Learning, baseado principalmente nos livros The Hundred-Page Machine Learning Book e Hands-on Machine Learning with Scikit-Learn & Keras. Já adiantando, este post teve início em uma thread que fiz no Twitter, sobre conceitos de Machine Leanring. Você pode acessá-la clicando aqui. Continuar a ler “Os maiores desafios em Machine Learning”

Exercícios de SQL

Como disse no Twitter do blog, @Estatsite, SQL é uma linguagem que acaba sendo difícil de adaptar nos cursos as tarefas que vemos no dia à dia. Pensando nisso, resolvi separar uma série de exercícios com desafios que já enfrentei em algum momento. Não são mega difíceis, mas a resolução é bem menos direta do que vemos em alguns tutoriais. Bora! Continuar a ler “Exercícios de SQL”

Machine Learning do Zero em Python (Classificador)

Já mostrei algumas vezes como construir um modelo preditivo, como nos posts Machine Learning do Zero no Python e Modelo de Classificação de Estilo Musical. Ambos foram bons posts, mas enquanto um foi mais simples e teve como saída uma variável contínua; o outro lidou com pipelines e teve como saída uma variável binária. Agora, ficou faltando conciliar um modelo mais simples, do zero, com uma saída binária. Este é o post de hoje! Dessa vez, temos um tutorial de Machine Learning DO ZERO em Python. Bora para o post! Continuar a ler “Machine Learning do Zero em Python (Classificador)”

Modelo de Classificação de Estilo Musical

Recentemente, fiz um dos projetos disponíveis na plataforma do Datacamp – tenho uma assinatura anual que fiz no início da pandemia. A ideia era criar um modelo que classificasse o estilo musical com base em algumas características da música. Este post é dedicado a explicar um pouco do código e dar uma base com outros posts para que você consiga acompanhar o conteúdo dele. Enfim, bora aprender um modelo legal de classificação de estilo musical em Python! Continuar a ler “Modelo de Classificação de Estilo Musical”

Data Leakage, o erro que até os grandes cometem

Para criar um modelo de machine learning, temos uma etapa crucial na qual dividimos os dados em treino e teste. Isso ocorre porque queremos avaliar nosso modelo e evitar problemas de overfitting – que você pode ler mais sobre nos posts OverfittingExplicando overfitting com uma anedota e Overfitting e Cross Validation.  Hoje, quero falar de um problema muito comum que ocorre nesta etapa, o “vazamento” de dados para o teste. Bora falar de data leakage, o erro que até os grandes cometem.

Continuar a ler “Data Leakage, o erro que até os grandes cometem”

Como fazer procv – e outros JOINs – no Python

Novamente, um post tentando ajudar a galera que está migrando de Excel para Python. Mais especificamente, aqueles que estão apanhando tentando juntar diferentes datasets, trazer informação de outras bases para uma principal e coisas do tipo. Hoje, você vai aprender como fazer PROCV – função clássica do Excel – e outros joins no Python. Além, claro, de outras formas de fazer join! Bora lá! Continuar a ler “Como fazer procv – e outros JOINs – no Python”

Tipos de vieses

Viés é um tipo de tendência, um peso desproporcional, que damos a alguma coisa. Quando alguém está enviesado, é porque sua visão está distorcida para algum dos lados do tema. Na estatística, obviamente, viés é um tema muito importante. Análises com algum tipo de viés, por mais que contenham dados, possuem conclusões equivocadas. No post de hoje, vou falar de 4 tipos de viés que você deve prestar atenção quando estiver fazendo alguma pesquisa ou avaliando algum artigo/estudo. Bora lá! Continuar a ler “Tipos de vieses”

Calculadora de juros compostos em Python

Já está ficando repetitivo eu dizer que gostaria de trazer abordagens que são menos conectadas às tarefas de cientistas de dados. Mas, mais uma vez, esse é o intuito do post. Da última vez que abordei a temática, falei de uma tarefa bastante comum em cursos de programação, a de criar um conversor de decimal para binário. Agora, vamos para outra tarefa comum, mas mais nos cursos de finanças: criar uma calculadora de juros compostos em Python! Continuar a ler “Calculadora de juros compostos em Python”

Analisando os dados do Instagram com Python

O mais legal de trabalhar com análise de dados é que você pode analisar absolutamente TUDO que você quiser. Já analisei dados do Twitter no post Analisando o Twitter com o R, já me aventurei em dados ambientais (mencionei neste tweet aqui) e, agora, resolvi abrir os dados do Instagram. Se você quer saber como andam seus likes, quem comenta suas fotos, pare de pagar aqueles apps que fazem isso e rode você mesmo um script que traga tudo isso! Continuar a ler “Analisando os dados do Instagram com Python”