Substituindo missing pela média no R

Já mencionei aqui como excluir os valores missing dos seus cálculos no R, e aqui explico como excluir as linhas contendo valores missing. Porém, como vocês bem sabem, ao excluirmos a linha inteira temos perda de informação, afinal, uma coluna pode estar missing mas todo o restante da linha conter informação. Sendo assim, alguns estatísticos podem preferir não excluir a linha e fazer a escolha de substituir esses missing por outro valor, aqui vamos substituir pela média:

> x = c(10, 5, 5, 10, NA, NA);
> x
[1] 10 5 5 10 NA NA
> x[is.na(x)] = mean(x,na.rm=TRUE);
> x
[1] 10.0 5.0 5.0 10.0 7.5 7.5

Repare na lógica dos colchetes com a função is.na() – que indica a posição dos valores missing. Quando você utiliza a função is.na(), você obtém as posições dos valores missing. Ao inserir essas posições entre colchetes após o x, você está apontando para onde os valores chamados serão inseridos. Vale a pena compreender bem o uso de colchetes no R.

0 comentários em “Substituindo missing pela média no R”

Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *