Gafes feitas por quem foge da teoria

Muita gente acha que o bacana de modelagem é ficar na prática. Entender a matemática por trás do modelo, a teoria em si, parece desnecessário. No entanto, são várias as gafes feitas por quem foge da matemática da parte teórica e acha que o legal é só jogar o proc reg no SAS, ou a lm() no R. Abaixo, estão alguns posts que ilustram gafes que já presenciei até pessoas das áreas de modelagem estatística e data science cometer:

  • Signo no modelo, vale?: Essa foi retirada da ocasião em que uma colega disse que se o p-valor da variável signo fosse significativo, ela usaria a variável. Mais uma vez, isso não é correto. Primeiro porque olhar só para o p-valor nunca é boa ideia. Já existem até revistas científicas descartando a métrica. E em segundo lugar… bem, leia o post para entender mais.
  • Um exemplo prático de Viés de Seleção: Amostra é a parte essencial de qualquer análise estatística. Mas será que você sabe o que está fazendo?
  • Correlação Não Implica Causalidade (again!): Ok, você sabe que se você observar duas situações ocorrendo simultaneamente, isso não quer dizer que uma causa a outra. Você sabe que correlação não implica causalidade. Se antes da lei X, 30% da população consumia álcool e depois da lei X, o percentual subiu para 40, nada me garante que a lei seja a responsável. Você é esperto, sabe disso. Mas e se uma pesquisa diz que 90% dos universitários possuem altos níveis de estresse? Você questiona o método estatístico? (Ok, aqui não tem taaaaanta matemática assim)
  • Paradoxo de Simpson: Certa vez vi um colega selecionando as variáveis utilizando uma medida chamada risco relativo. Se no risco relativo a variável aparecia como sendo algo que contribui para o indivíduo ser bom (variável dependente = 1), então no modelo ela deveria ser boa. Como vocês vão ver no post, isso não é bem verdade. E se ele conhecesse mais a fundo a matemática de uma regressão, ele saberia que ela é mais robusta que a do risco relativo.

Esses são só alguns dos textos que eu recomendo para quem não quer ficar para trás. Com essa nova onda de softwares e modelos estatísticos gerados com funções que não ocupam nem uma linha de código, a tendência é as pessoas se esquecerem cada vez mais da teoria e da matemática. Consequentemente, cometerem cada vez mais erros esdrúxulos.

Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *