Explain xkcd

Je suis un grand fan d’xkcd, mais rarement parfois (très) souvent, je ne comprends rien aux concepts évoqués.

xkcdCorrelation

Et bien sûr, tout l’humour subtil de l’auteur m’échappe.

Il existe heureusement un wiki dédié aux explications des crobards de Randall.

En parcourant les derniers dessins, j’ai découvert quelques concepts essentiels:

  • Les guerres d’édition les plus futiles sur Wikipedia (version anglaise et française)
  • La loi de Futilité de Parkinson
  • Le concept d’un jeu sans règles: Mapcrunch. On peut par exemple chercher l’aéroport le plus proche à partir d’un endroit choisi au hasard dans Google Street View (pourquoi pas un hôpital, une gare…)

Pour vous donner une exemple, voici Countdown:

countdown

Avec sa petite phrase qui apparaît quand on passe la souris sur le dessin:

For all we know, the odds are in our favor.

Et voici la/les explications des utilisateurs du wiki…

Bon, je vous laisse, je vais chercher un hôpital à partir de (j’ai pris du côté du panneau)…

xkcd est un grand génie

xkcd (sa page Wikipedia) est un grand génie, je ne vois pas trop quoi dire d’autre.

Je l’ai découvert, comme beaucoup de choses poétiques/surprenantes/belles/questionnantes/… grâce à @PUautomnale.(et son blog).

J’en avais déjà parlé ici. xkcd avait alors magnifiquement illustré le problème posé par les comparaisons multiples en biostatistiques.

Le xkcd du jour est immense, insensé, il invite à la poésie et à l’exploration.

Vous allez cliquer et glisser de longues minutes au fil d’un paysage champêtre, où les petits personnages en bâton s’ébattent et discutent de choses futiles, drôles ou sérieuses. Vous allez grimper sur le flanc de hautes montagnes, monter à bord d’un bateau pirate ou d’une fusée interplanétaire.

Vous allez aussi cliquer et glisser le long d’un tunnel, ou bien mieux en terme de perte de repères, au milieu d’un blanc immaculé ou d’un noir d’encre, pour peut-être (peut-être pas) arriver vers une petite saynète qui aura valu (ou peut-être pas) le temps passé.

Bref, la vie telle qu’on la vit seconde après seconde.

Explorer la vie/xkcd en écoutant les suites pour violoncelles de Bach…

Bon, maintenant, si vous êtes un homme sérieux, vous, et si vous ne vous amusez pas à des balivernes, l’ensemble du xkcd du jour est ici.

Les comparaisons multiples

Let’s talk about stats!

Il y a quelques temps, je suis tombé sur ce tweet de Stéphane:

https://twitter.com/#!/PUautomne/status/55636813670400000

Le lien mène sur l’excellente BD xkcd de Randall Munroe, et sur ce crobard:


Le grand génie de Randall Munroe est de faire rire avec des concepts scientifiques parfois complexes.

Ici, il s’attaque au problèmes des comparaisons multiples.

Je vais essayer de vous faire une analyse de cette étude pivot qui clame que les Dragibus® verts provoquent des poussées d’acné (p<0.05).

D’abord quelques bases.

Lorsque l’on observe l’effet d’une intervention sur un échantillon de sujets (par exemple observer la survenue d’acné après l’administration de Dragibus®) , on s’expose au risque que l’effet observé soit simplement du au hasard.

Tout simplement, car il s’agit d’un échantillon, et non de la population humaine entière et que la fréquence de survenue d’acné va varier entre chaque échantillon, c’est la fluctuation d’échantillonnage.

Ce risque s’appelle le risque α (alpha) et il est particulièrement problématique car il peut faire conclure à tort à la réalité d’un lien de causalité entre une intervention et un effet, alors qu’il n’y en a pas.

Quand on effectue un test statistique pour démontrer la réalité d’un lien de causalité entre une intervention et l’effet observé, on va donc chercher à minimiser ce risque alpha.

On va même exiger que la probabilité p de survenue de ce risque soit inférieure à un pourcentage acceptable. En général, on choisit 5%, d’où le fameux p<0.05.

A chaque test effectué, on prend un risque α supplémentaire, et bien pire, il se cumule, c’est ce que l’on appelle l’inflation du risque α.

Si l’on effectue k tests, le risque α global sera de 1-(1-α)^k.

Quand est-ce que l’on effectue des tests répétés?

  • en cas de critères de jugement multiples

  • en cas d’analyse en sous-groupe

  • en cas d’analyses intermédiaires

  • en cas de multiplicité de bras (par exemple plusieurs dosages)

Dans le « papier » des personnages de xkcd, on retrouve une première analyse qui porte sur l’ensemble des couleurs des Dragibus®. Cette analyse ne permet pas de démontrer un lien de causalité avec p<0.05. Les personnages auraient dû s’arrêter là, il n’y a pas de lien entre la prise de ces sucreries et la survenue d’acné. Cette négativité invalide déjà sérieusement la solidité des analyses en sous-groupes qui vont suivre.

Mais probablement poussés par leur envie d’aller plus loin dans le raisonnement scientifique (hypothèse optimiste), ou par l’impérieuse nécessité d’obtenir un résultat positif (hypothèse pessimiste), les auteurs (vous remarquerez que les scientifiques glandouillent hors cadre) vont faire leur test sur 20 couleurs, soit 20 sous-groupes. Au total, ils ont donc effectué 21 tests.

On calcule donc le risque α global: 1-(1-0.05)^21=0.66

Le risque de conclure à tort à la réalité d’un lien de cause à effet entre prise de Dragibus® et survenue d’une acné est donc de près de 66%!

Et de fait, il y en a 1 qui est positif, le vert.

J’adore ensuite les gros titres du journal non scientifique avec la mise en avant d’une erreur α qui est tout à fait erronée, mais qui attire le gogo.

Cette histoire de Dragibus® vous a fait rire?

Tant mieux, car il se passe exactement la même chose pour les médicaments, presque tous les jours. Et le gogo, c’est un médecin.

Tout cela pour dire qu’il est fondamental de traquer dans un papier scientifique ces comparaisons multiples:

En lecture il convient d’être particulièrement attentif au problème de l’inflation du risque alpha. En effet, une situation de multiplicité des comparaisons enlève presque toute valeur à un résultat statistiquement significatif puisqu’il est possible, en répétant les tests, d’obtenir un p<0.05 avec n’importe quel traitement, même sans effet. Un résultat significatif obtenu dans un contexte où il est impossible de savoir le nombre de tests réalisés au total n’apporte aucune preuve statistique : « les données ont été torturées jusqu’à ce qu’elles avouent ! ». Les anglo-saxons parlent de « data dredging ». (M Cucherat)

°0°0°0°0°0°0°0°0°0°0°0°0°0°

Principe général des tests statistiques. Interprétation des essais cliniques pour la pratique médicale. Michel Cucherat.

La problématique des comparaisons multiples. Interprétation des essais cliniques pour la pratique médicale. Michel Cucherat.

Analyses en sous groupe. Interprétation des essais cliniques pour la pratique médicale. Michel Cucherat.