Detectando Outliers pelo Desvio Padrão no Python

Detectar outliers é necessário em qualquer análise. Não importa se você pretende excluí-los ou mantê-los, você precisa saber quem são eles. Um dos métodos mais comuns e fáceis é através do desvio padrão. Uma rule of thumb comumente utilizada é: se o indivíduo/ponto estiver a mais de 3 desvios padrões da média, é um outlier. No Python, podemos localizar esses pontos através do código abaixo. Teremos aí df como sendo nosso datarame e coluna_1 como sendo a coluna analisada: Continuar a ler “Detectando Outliers pelo Desvio Padrão no Python”

Python: Como Saber se um Arquivo se Encontra no Diretório

Em qualquer automatização, pode ser interessante você verificar se todos os arquivos que você precisa se encontram no diretório correspondente. Abaixo, temos um script em python para fazer exatamente isso. O que o código abaixo faz é: (1) cria uma lista vazia chamada todos_arquivos; (2) percorre todo o diretório e anexa o nome dos arquivos encontrados na lista todos_arquivos: Continuar a ler “Python: Como Saber se um Arquivo se Encontra no Diretório”

Tipos de Aprendizado em Machine Learning

Machine Learning, como o próprio nome diz, é sobre aprendizado de máquinas. Mas a máquina não aprende sempre do mesmo jeito. Tal como um ser humano, há formas dela aprender. Aqui, vamos falar dos três tipos de aprendizados existentes: supervisionado, não-supervisionado e semi-supervisionado. Continuar a ler “Tipos de Aprendizado em Machine Learning”

Machine Learning e Data Science, o que é o que aí?

Os termos Machine Learning e Data Science, ou no português Aprendizado de Máquina e Ciência de Dados, estão na moda. Não dá mais para negar o hype. É comum, inclusive, as pessoas fazerem o uso dos dois termos de forma intercambiável. Porém, diferente de muitas coisas que são tratadas como as mesmas, mas com nomes diferentes, creio que aqui exista diferença. Vamos tentar entender o que aborda cada uma dessas áreas. Continuar a ler “Machine Learning e Data Science, o que é o que aí?”

Como fazer um PROCV no Python

Já expliquei essa função outras vezes, mas talvez chamá-la de PROCV (ou VLOOKUP para quem usa Excel em inglês) ajuda as pessoas a compreendê-la. O post de hoje é dedicado a ensinar como fazer a famosa função PROCV do Excel no Python.  Continuar a ler “Como fazer um PROCV no Python”

Loop em Python (Como usar o FOR)

Criar um loop é sempre muito útil. Afinal, você passa a executar processos repetitivos sem ter que ficar escrevendo a mesma coisa inúmeras vezes. Que tal praticarmos um pouco disso no Python? Aproveitaremos para entender um pouco de como alterar valores em vetores e entender o range(x,y)! Continuar a ler “Loop em Python (Como usar o FOR)”

ANOVA em Python

Diferente do que normalmente faço, este post não será bem um post, apenas um encaminhamento para meu GitHub (e também para deixar duas imagens que você não conseguirá ver por lá). No link abaixo, vocês vão direto para o código para rodar a ANOVA em Python. A última parte do código está em inglês, pois eu simplesmente copiei algumas explicações. Prometo que ajustarei isso em breve, mas queria postar para não deixar vocês sem esse conteúdo tão essencial em análise de dados. Continuar a ler “ANOVA em Python”

CASE WHEN no SQL (Condicionais)

No SAS e em outras linguagens, contamos com o IF para criar novas informações a partir de outras que já temos. Por exemplo, se eu quero criar um campo que receba 1, se o cliente for de MG, e 0, caso contrário, eu apelo para o IF. E é muito intuitivo. SE (if) o cliente é de MG (UF=”MG”) então (then) o campo novo recebe 1. Caso contrário, recebe 0. Seria algo como o script abaixo: Continuar a ler “CASE WHEN no SQL (Condicionais)”

Filtros no SQL

Fazer filtros é algo comum em qualquer análise de dados. Muitas vezes você não quer analisar a sua base inteira de clientes, só quer analisar os clientes de algum estado. Ou então só quer analisar os clientes de alguma faixa etária. Pois bem, hoje vamos ver como filtrar no SQL – use o SQL Fiddle para reproduzir esse post.  Continuar a ler “Filtros no SQL”