Datassaurus: Quarteto de Anscombe

Esse segundo post entra na categoria “Seguindo o Tutorial” e é algo que descobri por acaso e percebi que tem uma importância enorme quando se trata de análises e visualização de dados, podendo gerar um problemão. Em suma, esse post é um tutorial utilizando o pacote Datasaurus e uma discussão sobre estatística básica!

Tudo começou apenas como uma brincadeira do professor e infografista Alberto Cairo, que utilizou uma ferramenta criada por Robert Grant, um designer de estatística e visualização, para desenhar um dinossauro, que ficou conhecido como datasaurus. Esse site permite que você crie todos os pontos em um gráfico de dispersão e depois baixe os dados correspondentes.

Pegando carona nessa brincadeira, somos apresentados ao Quarteto de Anscombe. WTF??

O Quarteto de Anscombe é o nome dado a quatro conjuntos de dados que aparentam ser idênticos quando descritos por certas técnicas de estatística descritiva (como a média e a variância), mas que são muito distintos quando exibidos graficamente. Ele leva o nome do estatístico F.J. Anscombe que o publicou pela primeira vez em 1973, com o objetivo de demonstrar tanto a importância de se visualizar os dados antes de analisá-los quanto o efeito dos outliers nas propriedades estatísticas. (kibado da Wikipédia)

O jornalista **John Burn-Murdoch**‏ criou uma ferramenta para exemplificar esse caso:

Clique para ir para a ferramenta!

Nota-se que a média, a variância e a correlação entre x e y em cada caso é muito próxima ou exata, pelo menos olhando de forma superficial, e geram gráficos totalmente diferentes.

Tendo como fio condutor essas discussões, os pesquisadores Justin Matejka e George Fitzmaurice escreveram um artigo muito interessante intitulado Same Stats, Different Graphs: Generating Datasets with Varied Appearance and Identical Statistics through Simulated Annealing, que aprofundam mais nesse tema e mostram outros casos interessantes.

Os datasets utilizados nesse artigo deram origem ao Datasaurus Dozen, conjunto de dados com estatísticas parecidas mas que originam gráficos totalmente diferentes e que podem ser reproduzidos utilizando o código abaixo:

#Instalando os pacotes
install.packages("datasauRus")
install.packages("ggplot2")
install.packages("devtools")
 
 
library(ggplot2)
library(datasauRus)
 
# Baixando os dados do Github do blog dos autores
devtools::install_github("stephlocke/datasauRus")
 
 
# Plotando os dados 
ggplot(datasaurus_dozen,
  aes(x=x,
  y=y, colour=dataset))+
  geom_point()+
  theme_void()+
  theme(legend.position = "none")+
  facet_wrap(~dataset, ncol=3)

O resultado é um conjunto de 13 gráficos que formam desenhos como esses aqui:

Sete distribuições de dados, mostradas como pontos de dados brutos (ou strip-plots), como box-plots e como violin-plots. Uma curiosidade interessante é que o Alberto Cairo mudou o nome da figura que ele criou para Anscombosaurus, em homenagem a Francis J. Anscombe.

Pra terminar, fica o aprendizado:

“Don’t trust summary statistics. Always visualize your data first!”.


Comentários

Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *