Les comparaisons multiples

Let’s talk about stats!

Il y a quelques temps, je suis tombé sur ce tweet de Stéphane:

https://twitter.com/#!/PUautomne/status/55636813670400000

Le lien mène sur l’excellente BD xkcd de Randall Munroe, et sur ce crobard:


Le grand génie de Randall Munroe est de faire rire avec des concepts scientifiques parfois complexes.

Ici, il s’attaque au problèmes des comparaisons multiples.

Je vais essayer de vous faire une analyse de cette étude pivot qui clame que les Dragibus® verts provoquent des poussées d’acné (p<0.05).

D’abord quelques bases.

Lorsque l’on observe l’effet d’une intervention sur un échantillon de sujets (par exemple observer la survenue d’acné après l’administration de Dragibus®) , on s’expose au risque que l’effet observé soit simplement du au hasard.

Tout simplement, car il s’agit d’un échantillon, et non de la population humaine entière et que la fréquence de survenue d’acné va varier entre chaque échantillon, c’est la fluctuation d’échantillonnage.

Ce risque s’appelle le risque α (alpha) et il est particulièrement problématique car il peut faire conclure à tort à la réalité d’un lien de causalité entre une intervention et un effet, alors qu’il n’y en a pas.

Quand on effectue un test statistique pour démontrer la réalité d’un lien de causalité entre une intervention et l’effet observé, on va donc chercher à minimiser ce risque alpha.

On va même exiger que la probabilité p de survenue de ce risque soit inférieure à un pourcentage acceptable. En général, on choisit 5%, d’où le fameux p<0.05.

A chaque test effectué, on prend un risque α supplémentaire, et bien pire, il se cumule, c’est ce que l’on appelle l’inflation du risque α.

Si l’on effectue k tests, le risque α global sera de 1-(1-α)^k.

Quand est-ce que l’on effectue des tests répétés?

  • en cas de critères de jugement multiples

  • en cas d’analyse en sous-groupe

  • en cas d’analyses intermédiaires

  • en cas de multiplicité de bras (par exemple plusieurs dosages)

Dans le « papier » des personnages de xkcd, on retrouve une première analyse qui porte sur l’ensemble des couleurs des Dragibus®. Cette analyse ne permet pas de démontrer un lien de causalité avec p<0.05. Les personnages auraient dû s’arrêter là, il n’y a pas de lien entre la prise de ces sucreries et la survenue d’acné. Cette négativité invalide déjà sérieusement la solidité des analyses en sous-groupes qui vont suivre.

Mais probablement poussés par leur envie d’aller plus loin dans le raisonnement scientifique (hypothèse optimiste), ou par l’impérieuse nécessité d’obtenir un résultat positif (hypothèse pessimiste), les auteurs (vous remarquerez que les scientifiques glandouillent hors cadre) vont faire leur test sur 20 couleurs, soit 20 sous-groupes. Au total, ils ont donc effectué 21 tests.

On calcule donc le risque α global: 1-(1-0.05)^21=0.66

Le risque de conclure à tort à la réalité d’un lien de cause à effet entre prise de Dragibus® et survenue d’une acné est donc de près de 66%!

Et de fait, il y en a 1 qui est positif, le vert.

J’adore ensuite les gros titres du journal non scientifique avec la mise en avant d’une erreur α qui est tout à fait erronée, mais qui attire le gogo.

Cette histoire de Dragibus® vous a fait rire?

Tant mieux, car il se passe exactement la même chose pour les médicaments, presque tous les jours. Et le gogo, c’est un médecin.

Tout cela pour dire qu’il est fondamental de traquer dans un papier scientifique ces comparaisons multiples:

En lecture il convient d’être particulièrement attentif au problème de l’inflation du risque alpha. En effet, une situation de multiplicité des comparaisons enlève presque toute valeur à un résultat statistiquement significatif puisqu’il est possible, en répétant les tests, d’obtenir un p<0.05 avec n’importe quel traitement, même sans effet. Un résultat significatif obtenu dans un contexte où il est impossible de savoir le nombre de tests réalisés au total n’apporte aucune preuve statistique : « les données ont été torturées jusqu’à ce qu’elles avouent ! ». Les anglo-saxons parlent de « data dredging ». (M Cucherat)

°0°0°0°0°0°0°0°0°0°0°0°0°0°

Principe général des tests statistiques. Interprétation des essais cliniques pour la pratique médicale. Michel Cucherat.

La problématique des comparaisons multiples. Interprétation des essais cliniques pour la pratique médicale. Michel Cucherat.

Analyses en sous groupe. Interprétation des essais cliniques pour la pratique médicale. Michel Cucherat.