Detectar outliers é necessário em qualquer análise. Não importa se você pretende excluí-los ou mantê-los, você precisa saber quem são eles. Um dos métodos mais comuns e fáceis é através do desvio padrão. Uma rule of thumb comumente utilizada é: se o indivíduo/ponto estiver a mais de 3 desvios padrões da média, é um outlier. No Python, podemos localizar esses pontos através do código abaixo. Teremos aí df como sendo nosso datarame e coluna_1 como sendo a coluna analisada: Continuar a ler “Detectando Outliers pelo Desvio Padrão no Python”
Etiqueta: outliers
Localizando Outliers Através do Intervalo Interquartil (+ Boxplot + Código SAS)
Recentemente, estava trabalhando com uma base de mais ou menos 500 mil linhas, onde a maior parte dos dados de uma determinada variável estava no intervalo de 0 a 1.000. Esta mesma variável, no entanto, possuía algumas linhas em que o valor dela era 5.000, 10.000 e até 15.000. Ou seja, haviam alguns outliers. Isto era um problema, principalmente, quando eu construía um gráfico de distribuição. Para lidar com isso, eu exclui os outliers com base no conceito do intervalo interquartil. Continuar a ler “Localizando Outliers Através do Intervalo Interquartil (+ Boxplot + Código SAS)”