As Leis do Acaso de Robert Matthews me revelou duas informações espantosas, tão espantosas que posso me aprofundar na pesquisa sobre o assunto só para não ter tanta desconfiança de especialistas acadêmicos...
* Teorema do Limite Central de Laplace... Se a curva normal fosse uma descrição perfeitamente acurada da distribuição da estatura dos homens, alguém como John Williams Rogan, uma das pessoas mais altas já conhecidas (2,67 m), teria uma chance de nascer de 1 em 10 elevado a 44ª potência. Esse número, 10 elevado a 44ª potência, representa 100 bilhões de vezes o número de pessoas que já existiram na história da Terra. Para piorar, 17 pessoas com altura semelhante a John Williams Rogan já foram registradas. Se a curva normal já não é acurada em questões onde ela normalmente é usada, imagine quão irrealista ela será em questões como terremotos, incêndios florestais, riqueza, etc.
* Cientistas frequentemente erram ao publicar que certos estudos foram confirmados com "significância estatística" ao inverter a ordem da probabilidade condicional bayesiana, por exemplo: consideram equivalentes "chance de se ter dor de cabeça, dado que se tenha tumor na cérebro" e "chance de se ter tumor no cérebro, dado que se tenha dor de cabeça".
Do mesmo livro da citação acima...
* O site Vinge mostra como as relações estatísticas de correlação podem enganar. O coeficiente de correlação entre consumo per capita de queijo e morte por sufocamento nos lençóis é de +0,97. O coeficiente de correlação entre importações americanas de petróleo da Noruega e mortes de motoristas por trens é de + 0,96. Às vezes, tais relações acontecem por acaso, às vezes há um fator de confusão - um intermediário que conecta duas variáveis desconectadas. Por exemplo, na correlação entre queimaduras por Sol e venda de óleos de bronzear, o fator de confusão é o Sol.
* O número de filmes de Nicholas Cage é bem correlacionado com o número de mortes por afogamentos na piscina: coeficiente de correlação de + 0,67. Mas se você fazer uma "limpeza de dados", pode-se excluir os anos atípicos, tornando assim a associação não significativa. O problema é que essa limpeza de dados não pode ser feita em variáveis que obedecem às leis de potência (nota minha: como já disse Nassim Taleb em
A Lógica do Cisne Negro: "Removendo as dez maiores movimentações de um dia do mercado de ações nos Estados Unidos nos últimos cinquenta anos, vemos uma grande diferença em retornos").
* Nós estamos acostumados a ler que "correlação não é causalidade", mas não estamos acostumados a ler sobre essa regra: "ausência de relação não é ausência de causalidade". Uma correlação mais ou menos fraca pode ser vista numa relação não linear. Uma parte grande do quadrante pode ser bastante linear, como numa relação em forma de "V". (Eu mencionaria também que o V pode ser erradamente extrapolado como uma linha reta se um trecho linear do "V" tiver a duração temporal relativamente longa, porém finita).