Na vida real, as bases são bem diferentes do que costumamos ver na academia ou até mesmo em sites como o Kaggle. Sendo assim, é importante saber como lidar quando se deparar com um conjunto de dados em que haja algo faltando, em que existam campos missing. Vamos aprender como localizar linhas e colunas com missing, além de preencher essas células com algum valor. Bora aprender como tratar missing no python! Continuar a ler “Missing no Python: Como Localizar e Substituir”
Random Forest
Random Forest é um poderosíssimo modelo que tem ganhado muita força no mercado. É um modelo que chamamos de ensembled, um método de aprendizado ensembled. Esse nome inglês, que até o momento eu desconheço tradução – e se tiver, é pouco usada -, consiste em combinar diferentes métodos de aprendizado. Por esse motivo, são modelos mais poderosos e que obtém maior acurácia que modelos tradicionais, ainda que, obviamente, também tenham seus riscos. No post de hoje, vou falar, de forma simplificada, como funciona o Random Forest e também deixar o código em Python para que vocês pratiquem. Continuar a ler “Random Forest”
Aprender, Interagir, Trocar Figurinhas
O Twitter do EstatSite está cada vez mais movimentado e isso é algo que tem me deixado bastante satisfeito. Há muita interação, algumas dicas rápidas e até quizzes (abaixo dou alguns exemplos). Continuar a ler “Aprender, Interagir, Trocar Figurinhas”
Importar Excel com Várias Abas no Python
Importar arquivo Excel no Python é tranquilo, o Pandas ajuda bastante. Importar arquivo Excel separando as abas, cada uma em um dataframe diferente? Olha, me surpreendeu, é simples também. Continuar a ler “Importar Excel com Várias Abas no Python”
Desabilitar Alertas no Jupyter Notebook
Nem todos os ‘warnings’ to jupyter notebook são importantes. Ainda mais se for algo para apresentar e que você queira deixar mais limpo. É possível desabilitar os avisos com: Continuar a ler “Desabilitar Alertas no Jupyter Notebook”
Tutorial: SQL do Zero
SQL é uma linguagem extremamente popular no mundo de Ciência de Dados. Diferente do R e do Python, que são muito utilizadas para executar a modelagem e as análises descritivas/exploratórias, o SQL é uma linguagem de pesquisa declarativa padrão para banco de dados relacional*. Em outras palavras, é a linguagem utilizada para consulta em banco de dados. Por esse motivo, é comum vê-la quando se está organizando as informações.
Muitos cientistas de dados que estão mais próximos ao negócio acabam não fazendo parte desse processo de manutenção de banco de dados. Dessa forma, fazem pouco uso do SQL. Entretanto, aprender a linguagem é de suma importância por vários motivos. Você pode precisar fazer algum tipo de extração usando ferramentas que envolvem a linguagem; você pode estar em uma empresa onde o cientista de dados é mais envolvido com manutenção de bancos de dados; dentre várias outras situações existentes. Não à toa, é extremamente comum que a linguagem apareça em cases de processos seletivos para cientista de dados. Sendo assim, este post será dedicado ao SQL, contemplando formas de criar tabelas, filtros, agrupamentos, funções estatísticas, formas de ordenar, renomear colunas, dentre outras coisas. Continuar a ler “Tutorial: SQL do Zero”
Machine Learning do Zero no R
Análogo ao que foi feito no post Machine Learning do Zero no Python, teremos agora no blog um tutorial bem tranquilo, do ZERO, para quem quer aprender Machine Learning / Ciência de Dados, utilizando R. Não fique com medo por ser um post mais extenso, você pode fazer um pouco cada dia durante um certo período de tempo, caso sinta que está pesado demais. Abaixo, você vai aprender a tratar os dados, fazer filtros, localizar valores nulos, criar gráficos e até conhecer alguns modelos. Então bora aprender! Continuar a ler “Machine Learning do Zero no R”
Regressão Linear no Python
Como já expliquei em vários outros posts, Regressão Linear é uma técnica muito utilizada em modelagem – caso não se recorde, visite os posts Regressão Linear Simples – Parte 1, Regressão Linear Simples – Parte 2, Regressão Linear Simples – Parte 3 e Regressão Linear Múltipla. Em suma, um modelo linear será a soma ponderada de uma ou mais variáveis, chamadas de variáveis independentes ou explicativas, que irão predizer uma varável-alvo, também chamada de variável dependente ou resposta. Agora, vamos ver como você consegue rodar esse modelo no Python. Continuar a ler “Regressão Linear no Python”
Machine Learning do Zero no Python
Recentemente, estive na Python Brasil 2019. Um evento muito legal, falei um pouco sobre ele no Twitter do EstatSite (veja a thread aqui), e, inclusive, estou devendo um post aqui no blog. Acabei participando de um tutorial chamado “Machine Learning do Zero”, dado pelo Tarsis Azevedo – o cara é fera, recomendo que acompanhem o trabalho dele pelo Twitter ou Github, @tarsisazevedo. Aqui, vai o código feito em sala de aula, com algumas alterações e comentários que inclui porque achei relevante – outras porque achei que poderia facilitar para os mais novos
Atualização: Vocês agora podem visitar o post Regressão Linear no Python para aprender mais sobre regressão linear utilizando Python! Continuar a ler “Machine Learning do Zero no Python”
Listas de Econometria (2): Demonstrações Envolvendo Somatória
Dando continuidade às resoluções de exercícios de Econometria I, seguem mais alguns que são comuns de se ver nas primeiras listas da disciplina. Dessa vez, são demonstrações que envolvem lidar com a somatória. São exercícios simples, pouco trabalhosos, mas que são muito úteis para entender o resto da matéria. Inclusive, um deles servirá de base para a demonstração que está em Listas de Econometria (1): Derivando os Parâmetros de uma Regressão Linear Simples. Eu espero de verdade que isso ajude quem está apanhando da matéria. Qualquer problema no entendimento, até se achar que algo não está legível, não hesite em me contatar. Bora passar nessa matéria! Continuar a ler “Listas de Econometria (2): Demonstrações Envolvendo Somatória”