Como é a rotina de um cientista de dados?

Essa pergunta é muito comum. Eu mesmo já fiz algumas vezes em entrevista. Bom, não exatamente ela, mas já perguntei como era a típica rotina do analista da área. É interessante saber exatamente o que é feito. Passam o dia programando? Passam o dia vendo modelos estatísticos? Se você tem essa curiosidade, aqui vai a rotina de um cientista de dados. Claro, a resposta ideal e que realmente serviria era: “depende”. Mas para não ficar em cima do muro, vou tentar encontrar o que seria o mais usual. Continuar a ler “Como é a rotina de um cientista de dados?”

Detectando Outliers pelo Desvio Padrão no Python

Detectar outliers é necessário em qualquer análise. Não importa se você pretende excluí-los ou mantê-los, você precisa saber quem são eles. Um dos métodos mais comuns e fáceis é através do desvio padrão. Uma rule of thumb comumente utilizada é: se o indivíduo/ponto estiver a mais de 3 desvios padrões da média, é um outlier. No Python, podemos localizar esses pontos através do código abaixo. Teremos aí df como sendo nosso datarame e coluna_1 como sendo a coluna analisada: Continuar a ler “Detectando Outliers pelo Desvio Padrão no Python”

Tipos de Aprendizado em Machine Learning

Machine Learning, como o próprio nome diz, é sobre aprendizado de máquinas. Mas a máquina não aprende sempre do mesmo jeito. Tal como um ser humano, há formas dela aprender. Aqui, vamos falar dos três tipos de aprendizados existentes: supervisionado, não-supervisionado e semi-supervisionado. Continuar a ler “Tipos de Aprendizado em Machine Learning”

Machine Learning e Data Science, o que é o que aí?

Os termos Machine Learning e Data Science, ou no português Aprendizado de Máquina e Ciência de Dados, estão na moda. Não dá mais para negar o hype. É comum, inclusive, as pessoas fazerem o uso dos dois termos de forma intercambiável. Porém, diferente de muitas coisas que são tratadas como as mesmas, mas com nomes diferentes, creio que aqui exista diferença. Vamos tentar entender o que aborda cada uma dessas áreas. Continuar a ler “Machine Learning e Data Science, o que é o que aí?”

Como Big Data Explica Freud?

Freud é um nome muito conhecido. Mais comum para filósofos e psicólogos, ele aparece constantemente em papos não-acadêmicos. Mesmo conhecido por todos, explicar suas ideias é algo mais complicado. Suas teorias sempre foram muito intrigantes, capazes de gerar muitas dúvidas e ceticismo. Costumeiramente, mexe com algo mais profundo e, por vezes, intangível. Tanto é que subconsciência é uma palavra que aparece quase sempre que se fala de suas principais teorias. Bem, mas se suas ideias são baseadas em coisas que não estão na nossa consciência, cabe a nós aceitá-las e ponto final. Não tem como provar que elas são falsas ou verdadeiras, certo? Ou será que tem? Continuar a ler “Como Big Data Explica Freud?”

Random Forest

Random Forest é um poderosíssimo modelo que tem ganhado muita força no mercado. É um modelo que chamamos de ensembled, um método de aprendizado ensembled. Esse nome inglês, que até o momento eu desconheço tradução – e se tiver, é pouco usada -, consiste em combinar diferentes métodos de aprendizado. Por esse motivo, são modelos mais poderosos e que obtém maior acurácia que modelos tradicionais, ainda que, obviamente, também tenham seus riscos. No post de hoje, vou falar, de forma simplificada, como funciona o Random Forest e também deixar o código em Python para que vocês pratiquem. Continuar a ler “Random Forest”

Listas de Econometria (2): Demonstrações Envolvendo Somatória

Dando continuidade às resoluções de exercícios de Econometria I, seguem mais alguns que são comuns de se ver nas primeiras listas da disciplina. Dessa vez, são demonstrações que envolvem lidar com a somatória. São exercícios simples, pouco trabalhosos, mas que são muito úteis para entender o resto da matéria. Inclusive, um deles servirá de base para a demonstração que está em Listas de Econometria (1): Derivando os Parâmetros de uma Regressão Linear Simples. Eu espero de verdade que isso ajude quem está apanhando da matéria. Qualquer problema no entendimento, até se achar que algo não está legível, não hesite em me contatar. Bora passar nessa matéria! Continuar a ler “Listas de Econometria (2): Demonstrações Envolvendo Somatória”

Listas de Econometria (1): Derivando os Parâmetros de uma Regressão Linear Simples

O que será apresentado neste post é um exercício padrão de quem faz Econometria I na faculdade. Todo professor de econometria em algum momento mostrou aos alunos como derivar a fórmula do intercepto e a inclinação da reta (os betas) de uma Regressão Linear Simples. E é isso que veremos hoje! Continuar a ler “Listas de Econometria (1): Derivando os Parâmetros de uma Regressão Linear Simples”

Resumão dos Tweets

Muito do que posto no Twitter acaba não vindo parar aqui. Às vezes são coisas tão breves que nem conseguiria elaborar um post. Outras vezes, são threads que até caberiam aqui, mas que são mais fáceis de se postar por lá. E tem coisa também que são só reflexões aleatórias ou piadinhas. De qualquer forma, aqui vão alguns dos tweets recentes, para quem não acompanha a conta saber mais ou menos qual é a pegada por lá. No fim deste post, há uma thread que essa sim acho essencial para todos que estudam ciência de dados. Continuar a ler “Resumão dos Tweets”

Algoritmo de Classificação: KNN (K Nearest Neighbors)

O algoritmo KNN, abreviação de K Nearest Neighbors, é um algoritmo bastante utilizado por cientistas de dados, principalmente pela sua facilidade de implementação (além de ser um lazy learner*). É um algoritmo supervisionado de machine learning, utilizado para problemas de classificação e regressão. Hoje, o foco é na parte de classificação. A ideia é simples, separar os indivíduos em grupos (ou classes) de acordo com a semelhança existente. Vamos entender o que isso quer dizer… Continuar a ler “Algoritmo de Classificação: KNN (K Nearest Neighbors)”