Já mencionei aqui como excluir os valores missing dos seus cálculos no R, e aqui explico como excluir as linhas contendo valores missing. Porém, como vocês bem sabem, ao excluirmos a linha inteira temos perda de informação, afinal, uma coluna pode estar missing mas todo o restante da linha conter informação. Sendo assim, alguns estatísticos podem preferir não excluir a linha e fazer a escolha de substituir esses missing por outro valor, aqui vamos substituir pela média:
> x = c(10, 5, 5, 10, NA, NA); > x [1] 10 5 5 10 NA NA > x[is.na(x)] = mean(x,na.rm=TRUE); > x [1] 10.0 5.0 5.0 10.0 7.5 7.5
Repare na lógica dos colchetes com a função is.na() – que indica a posição dos valores missing. Quando você utiliza a função is.na(), você obtém as posições dos valores missing. Ao inserir essas posições entre colchetes após o x, você está apontando para onde os valores chamados serão inseridos. Vale a pena compreender bem o uso de colchetes no R.
0 comentários em “Substituindo missing pela média no R”