Q-Q plot: Comparando duas distribuições

O Q-Q plot (ou gráfico Q-Q) é uma forma de comparar a distribuição de duas populações comparando seus quantis. Vamos comparar três gráficos com a distribuição de três conjuntos de dados distintos:

Ao que tudo indica, as duas distribuições são parecidas (normal).

Pensando numa comparação entre o conjunto de dados 1 e o conjunto de dados 2, seria interessante ordenar os dados e ir comparando, por exemplo, os menores valores de dados 1 – os 10 ou 50 primeiros menores – com os menores valores de dados 2. E depois, verificar os valores intermediários, e em seguida, fazer a mesma comparação com os valores superiores. Se fossem parecidos, não faria sentido terem a mesma distribuição?

Pois bem, isso é o que faz o Q-Q Plot!

Vamos visualizar o que estou querendo dizer utilizando 2 gráficos Q-Q:

Veja que interessante. No primeiro gráfico, você pode observar que os dados do conjunto dados_1 possuem, obviamente, a mesma distribuição dos dados do conjunto dados_1. Logo, o que vemos é uma diagonal bem formada no Q-Q plot. Entretanto, dados_2 possui os valores ligeiramente diferentes do conjunto de dados_1, logo, nossa diagonal distorce levemente. Porém, ainda podemos pressupor que eles partem da mesma distribuição. O que importa, ao final, é que estejamos o mais próximo possível de uma linha diagonal. Simples assim!

Muitas vezes você vai observar softwares com uma função Q-Q Normal. O que ela faz? Simplesmente verifica se a distribuição dos seus dados é normal, análogo ao que acabamos de estudar.