O Problema dos Gráficos com Dois Eixos-Y

Gráficos com dois eixos-y são constantemente criticados por estatísticos e economistas, ao menos entre os mais experientes com análise exploratória. Para os leigos ou com pouco contato com esse tipo de análise é meio estranho essa implicância. Mas acredite em mim, não é em vão.

Introdução

Primeiramente, vamos entender o problema. As pessoas costumam usar gráficos com dois eixos-y quando se deparam com duas medidas de escalas muito diferentes. Digamos que você quer comparar o comportamento do PIB da sua cidade com o PIB do país. Enquanto o PIB do Brasil está na casa dos trilhões, é provável que o de sua cidade esteja na casa dos bilhões (ou até milhões). Em um mesmo gráfico, com a mesma escala do eixo y, ficaria ruim de mostrar isso. Veja abaixo:

Você quase não nota mudança no comportamento do PIB da cidade, ainda que ele tenha em determinado momento dobrado de tamanho. Veja como ficaria se ajustássemos as escalas:

Bom, parece que agora faz sentido e você poderia até tirar uns insights do gráfico, certo? Bom, não é bem assim.

O grande problema

Primeiro, repare, o que o autor quer fazer é analisar tendências de duas séries que ele acredita ter algum tipo de correlação. Ao invés de ser PIB do país vs da cidade, poderia ser PIB vs PIB per Capita ou até mesmo dados completamente distintos que ele crê haver alguma relação (gastos em saúde vs. PIB ou expectativa de vida vs PIB per capita).

A questão é que a escolha da escala de cada  um dos eixos é arbitrária e deixada nas mãos do autor, que acabará utilizando o que for causar maior impacto em sua demonstração. Sendo assim, se o autor quiser traçar um gráfico que cause a impressão de que existe uma correlação, basta ele fazer um pouco de esforço que ele conseguirá encontrar as escalas necessárias para isso. Veja o gráfico abaixo:

Ao olhar o gráfico para esse outro país e uma de suas cidades, parece haver uma clara correlação entre os dois PIBs. Note, porém, que o PIB da cidade triplicou no período considerado. Em contrapartida, o PIB do país cresceu em torno de 11%. A diferença no comportamento é enorme, mas a escolha dos eixos lhe enganou.

Veja, agora, com os mesmos dados, parece que o PIB da cidade cresce num ritmo muito mais rápido que o PIB do país:

Mas também é possível fazer com que o PIB do país pareça crescer num ritmo muito mais acelerado que o PIB da cidade:

Veja também que quando as curvas se cruzam – no caso em que isso acontece -, não será necessariamente por razões intrínsecas aos dados, mas sim pelas escolhas do autor do gráfico. Logo, aqueles gráficos que tentam mostrar tendências contrárias, correlações negativas, também podem estar te enganado.

Exemplo do mundo real

Vejamos agora esse exemplo de gráfico com dois eixos-y, retirado de um tweet recente:

Aparentemente, a intenção do autor do tweet é mostrar que existe uma correlação positiva entre a aprovação do presidente dos EUA com o número de casos do Covid-19, mas como você deve imaginar, a forma de demonstrar isso é muito equivocada.

Primeiro, deixo claro aqui que não sei se existe essa correlação ou não, e isso pouco importa. Não é o ponto aqui. Mas vou lembrar logo de início que correlação não implica causalidade. Sendo assim, ainda que a correlação exista, não é clara a relação de causa e o gráfico acima não prova o ponto do autor.

Indo além, ainda que existisse essa correlação, a forma de demonstrar isso não é o gráfico acima. Veja que os gráficos sequer se iniciam no mesmo ponto, o que já é algo ruim para a leitura. Mas mais do que isso, a diferença de escalas é gritante. Se olharmos para a aprovação (eixo da direita), esse dado teve aumento de mais ou menos 3.3 pontos. Se olharmos para o histórico, parece uma variação até comum, nada atípica.

Enquanto isso, os casos da doença seguem crescendo de forma exponencial. A velocidade de mudança é bem diferente. Talvez se esperássemos mais um tempo, ou fizéssemos algum tipo de modelagem olhando para as diferentes variações da doença nos diferentes estados e as diferentes aprovações, poderíamos TALVEZ chegar a alguma conclusão. O fato é que o gráfico acima não só não diz nada, como tenta ludibriar o leitor com um escolha bem desonesta de escalas dos eixos.

E agora?

Como alternativa a esses gráficos, eu recomendaria que você utilizasse dois gráficos lado a lado ou um gráfico com as variações %. Qualquer um dos dois é melhor escolha que os dois eixos-y.

Gostou do conteúdo? Se inscreva para receber as novidades! Deixe seu e-mail em INSCREVA-SE na barra à direita, logo abaixo de pesquisar. E, por favor, não deixe de comentar, dar seu feedback e compartilhar com seus amigos. De verdade, isso faz toda a diferença. Você também pode acompanhar mais do meu trabalho seguindo a conta de Twitter @EstatSite ou por alguma das redes que você encontra em Sobre o Estatsite / Contato, como meu canal de Youtube Canal do Yukio.

Bons estudos!

Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *