ciência de dados - ESTATSITE.COM.BR

Analisando os dados do Instagram com Python

O mais legal de trabalhar com análise de dados é que você pode analisar absolutamente TUDO que você quiser. Já analisei dados do Twitter no post Analisando o Twitter com o R, já me aventurei em dados ambientais (mencionei neste tweet aqui) e, agora, resolvi abrir os dados do Instagram. Se você quer saber como andam seus likes, quem comenta suas fotos, pare de pagar aqueles apps que fazem isso e rode você mesmo um script que traga tudo isso! Continuar a ler “Analisando os dados do Instagram com Python”

Funções, While, For e Conversor de Binário em Python

Como já disse em posts passados, estou tentando trazer conteúdo para ativar o lado “programador raiz” de quem acessa o blog. Isso no sentido de trabalhar lógica, linguagem orientada a objetos, dentre outras coisas. Caso você não tenha visto, os posts Construindo seu primeiro app em Python e Uma introdução a Python orientado a objetos: Construção de classes ficaram bem interessantes. Pensando nisso, hoje vamos abordar um exercício clássico dos cursos de introdução à programação: como converter decimal para binário. Porém, isso está acompanhado de funções e loops! Continuar a ler “Funções, While, For e Conversor de Binário em Python”

Regressão Ridge e Lasso

Regressão linear é o primeiro algoritmo que aprendemos quando estudamos ciência de dados e machine learning. Apesar de muito útil, o algoritmo buscará sempre minimizar a soma dos quadrados de forma que se obtenha um modelo com o menor erro possível. Isso pode levar ao problema de overfitting (já explicado em posts como Overfitting e Cross Validation e Explicando overfitting com uma anedota). Uma forma de resolver isso é utilizando a regressão ridge ou lasso!
Continuar a ler “Regressão Ridge e Lasso”

Hot take sobre a Lei Geral de Proteção aos Dados

Depois de muita bagunça, a lei mais relevante dos últimos anos para nós analistas e cientistas de dados foi aprovada. Seu caminho foi confuso e tortuoso, com idas e vindas. Por conta disso, escrevi um hot take sobre ela, a Lei Geral de Proteção aos Dados, no meu Linkedin. São breves pontos, muito breves mesmo, mas que achei que valia a pena trazer ao blog. Continuar a ler “Hot take sobre a Lei Geral de Proteção aos Dados”

XGBoost em Python

Hoje é dia de seguir com a minha promessa de abordar mais Machine Learning em Python, algo que acabei negligenciando nos últimos meses. Dessa vez, você vai aprender como rodar um XGBoost em Python. Tal qual ocorreu em Regressão Logística em Python e Random Forest em Python, a ideia é você ter um esqueleto para apenas inserir seu dataset e correr para o abraço. Vamos lá! Continuar a ler “XGBoost em Python”

Classificador Random Forest em Python

Conforme tenho dito nos últimos posts, estou entrando numa fase de voltar a escrever sobre Machine Learning. Logo, não poderia deixar de falar de um dos modelos que ainda vejo como um dos mais utilizados no mercado, que é a Random Forest. Se você nunca ouviu falar desse modelo, recomendo o vídeo do StatQuest Random Forest Part 1. Após ver o vídeo, volte para aprender como rodar uma random forest, como classificador, em Python! Continuar a ler “Classificador Random Forest em Python”

Formatação condicional em Python

E vamos de mais um post hoje para quem está migrando de Excel para Python. Na verdade, serve para cada um, mas sinto que saber a função deste post é algo que ex-usuários do Excel gostariam de saber. Vamos aprender a formatar a tabela, mudar cor de fundo, cor das letras, dentre outras coisas. Todas essas mudanças vão ser motivadas por alguns condicionais. Logo, o título, formatação condicional em Python! Continuar a ler “Formatação condicional em Python”

Pipeline usando Scikit-Learn: Exemplos Práticos

No post Introdução aos Pipelines no Scikit-Learn, mostrei alguns exemplos de pipelines utilizando a biblioteca mais famosa para machine learning no Python. Hoje, quero mostrar alguns exemplos de pipelines com diferentes funcionalidades. Sendo assim, será um post bastante direto e prático, mas que deve ajudar bastante o leitor. Bora ver logo exemplos práticos de pipelines usando scikit-learn! Continuar a ler “Pipeline usando Scikit-Learn: Exemplos Práticos”

Os melhores podcasts de ciência de dados!

Se você é uma pessoa antenada, provavelmente já escutou que 2020 é o ano dos podcasts. Com o investimento mais pesado nos últimos anos de grandes empresas como a Rede Globo, na produção de conteúdo, e o Spotify, como plataforma de distribuição, o produto ganha cada vez mais espaço na vida do brasileiro. E é claro que a nossa área não ficou de fora do hype. Sendo assim, o post de hoje vai trazer uma lsita com os melhores podcasts de ciência de dados! Continuar a ler “Os melhores podcasts de ciência de dados!”

Análise de texto usando Python

A análise de texto (~text mining) consiste no processo de obter informações através de dados no formato de um texto. Por se tratar de dados não-estruturados, a limpeza e tratativa é parte relevante e pouco trivial do processo. Falei brevemente de text mining no post Introdução ao Text Mining com Python. Hoje, volto ao tema utilizando uma biblioteca que me deixou bastante surpreso com seu poder de análise: a texthero! Continuar a ler “Análise de texto usando Python”