Já analisamos diversas vezes a correlação de Pearson, como nos posts Correlação vs. Casualidade, Correlação vs. Causalidade – Parte 2 e Correlação: Não implica causalidade, mas tem seu valor. Na maioria das vezes analisamos como podemos nos enganar ao observarmos uma alta correlação. Não vimos porém, como algumas vezes nos enganamos ao analisarmos baixas correlações. Mais especificamente, tente responder a uma pergunta antes de prosseguir com o post: é possível as variáveis terem alguma relação se a correlação entre elas é igual a zero?
Sim, é possível!
Se você não sabia, você se esqueceu que correlação é uma medida de dependência linear entre duas variáveis. Ou seja, não vai nos trazer a relação entre duas variáveis no caso de uma relação não linear.
Tome por exemplo o conjunto de pares {(-10,100),(-9,81),(-8,64),(-7,49),(-6,36),(-5,25),(-4,16),(-3,9),(-2,4),(-1,1),(0,0),(1,1),(2,4),(3,9),(4,16),(5,25),(6,36),(7,49),(8,64),(9,81),(10,100)}
Veja que os valores de x e y são relacionados. E não apenas isso, eles representam a função y = x^2. Entretanto, se você calcular a correlação entre ambas, vai chegar a um valor muito próximo zero – você pode verificar facilmente no Excel com a função correl().
Conclusão: não devemos confundir correlação com dependência!