Les comparaisons multiples

Let’s talk about stats!

Il y a quelques temps, je suis tombé sur ce tweet de Stéphane:

Le lien mène sur l’excellente BD xkcd de Randall Munroe, et sur ce crobard:


Le grand génie de Randall Munroe est de faire rire avec des concepts scientifiques parfois complexes.

Ici, il s’attaque au problèmes des comparaisons multiples.

Je vais essayer de vous faire une analyse de cette étude pivot qui clame que les Dragibus® verts provoquent des poussées d’acné (p<0.05).

D’abord quelques bases.

Lorsque l’on observe l’effet d’une intervention sur un échantillon de sujets (par exemple observer la survenue d’acné après l’administration de Dragibus®) , on s’expose au risque que l’effet observé soit simplement du au hasard.

Tout simplement, car il s’agit d’un échantillon, et non de la population humaine entière et que la fréquence de survenue d’acné va varier entre chaque échantillon, c’est la fluctuation d’échantillonnage.

Ce risque s’appelle le risque α (alpha) et il est particulièrement problématique car il peut faire conclure à tort à la réalité d’un lien de causalité entre une intervention et un effet, alors qu’il n’y en a pas.

Quand on effectue un test statistique pour démontrer la réalité d’un lien de causalité entre une intervention et l’effet observé, on va donc chercher à minimiser ce risque alpha.

On va même exiger que la probabilité p de survenue de ce risque soit inférieure à un pourcentage acceptable. En général, on choisit 5%, d’où le fameux p<0.05.

A chaque test effectué, on prend un risque α supplémentaire, et bien pire, il se cumule, c’est ce que l’on appelle l’inflation du risque α.

Si l’on effectue k tests, le risque α global sera de 1-(1-α)^k.

Quand est-ce que l’on effectue des tests répétés?

  • en cas de critères de jugement multiples

  • en cas d’analyse en sous-groupe

  • en cas d’analyses intermédiaires

  • en cas de multiplicité de bras (par exemple plusieurs dosages)

Dans le “papier” des personnages de xkcd, on retrouve une première analyse qui porte sur l’ensemble des couleurs des Dragibus®. Cette analyse ne permet pas de démontrer un lien de causalité avec p<0.05. Les personnages auraient dû s’arrêter là, il n’y a pas de lien entre la prise de ces sucreries et la survenue d’acné. Cette négativité invalide déjà sérieusement la solidité des analyses en sous-groupes qui vont suivre.

Mais probablement poussés par leur envie d’aller plus loin dans le raisonnement scientifique (hypothèse optimiste), ou par l’impérieuse nécessité d’obtenir un résultat positif (hypothèse pessimiste), les auteurs (vous remarquerez que les scientifiques glandouillent hors cadre) vont faire leur test sur 20 couleurs, soit 20 sous-groupes. Au total, ils ont donc effectué 21 tests.

On calcule donc le risque α global: 1-(1-0.05)^21=0.66

Le risque de conclure à tort à la réalité d’un lien de cause à effet entre prise de Dragibus® et survenue d’une acné est donc de près de 66%!

Et de fait, il y en a 1 qui est positif, le vert.

J’adore ensuite les gros titres du journal non scientifique avec la mise en avant d’une erreur α qui est tout à fait erronée, mais qui attire le gogo.

Cette histoire de Dragibus® vous a fait rire?

Tant mieux, car il se passe exactement la même chose pour les médicaments, presque tous les jours. Et le gogo, c’est un médecin.

Tout cela pour dire qu’il est fondamental de traquer dans un papier scientifique ces comparaisons multiples:

En lecture il convient d’être particulièrement attentif au problème de l’inflation du risque alpha. En effet, une situation de multiplicité des comparaisons enlève presque toute valeur à un résultat statistiquement significatif puisqu’il est possible, en répétant les tests, d’obtenir un p<0.05 avec n’importe quel traitement, même sans effet. Un résultat significatif obtenu dans un contexte où il est impossible de savoir le nombre de tests réalisés au total n’apporte aucune preuve statistique : « les données ont été torturées jusqu’à ce qu’elles avouent ! ». Les anglo-saxons parlent de « data dredging ». (M Cucherat)

°0°0°0°0°0°0°0°0°0°0°0°0°0°

Principe général des tests statistiques. Interprétation des essais cliniques pour la pratique médicale. Michel Cucherat.

La problématique des comparaisons multiples. Interprétation des essais cliniques pour la pratique médicale. Michel Cucherat.

Analyses en sous groupe. Interprétation des essais cliniques pour la pratique médicale. Michel Cucherat.

Quel est l’objectif d’un traitement?

Le cours de mon DU d’interprétation des essais cliniques de la semaine dernière comportait un passage qui m’a stupéfié par sa limpidité, et son bon sens.

Vous allez voir, c’est tellement un truisme que ça en paraît simpliste.

Mais en fait, ces lignes sont tout sauf simplistes.

Leur application dans notre prise en charge du patient, et leur prise en compte dans le  tri du flux d’informations qui nous est délivré sur les médicaments permettraient  déjà probablement de nous recentrer sur ce qui est important et d’éliminer les scories.

Ça m’a fait un bien fou de lire cela:

Quel est l’objectif de la prescription d’un traitement par un médecin ?

D’une manière générale, un traitement est prescrit dans le but d’atteindre un certain objectif thérapeutique, dépendant de la maladie et des attentes du patient vis à vis de sa prise en charge thérapeutique. Dans presque tous les cas, l’objectif thérapeutique est une amélioration de la qualité de vie du patient ou une augmentation de sa durée de vie. Ces objectifs concernent une amélioration soit qualitative, soit quantitative de la survie du patient sont appelés objectifs cliniques. Dans les pathologies bénignes, les objectifs recherchés pourront être, par exemple, une diminution de l’intensité des douleurs, le raccourcissement de la durée des symptômes, etc.

Dans les pathologies plus graves, l’objectif est de prolonger la survie du patient, de diminuer son risque de complication ou de survenue d’événements cliniques intercurrents. Dans certains cas, ces deux types d’objectifs cohabitent : augmenter la durée et la qualité de la vie.

Avec les pathologies graves, l’objectif idéal serait d’éviter le décès prématuré ou d’obtenir la guérison de la maladie. Malheureusement, ces objectifs sont le plus souvent hors d’atteinte avec les traitements disponibles. Les objectifs deviennent alors fréquentistes : diminuer le risque de décès prématuré (avec comme espoir de le rendre nul un jour), diminuer la fréquence des complications à moyen terme (c’est-à-dire retarder leur survenue).

Certains objectifs ne sont pas des objectifs thérapeutiques pertinents. Par exemple, dans l’hypertension artérielle l’objectif thérapeutique n’est pas de diminuer la valeur de pression artérielle. L’élévation de la pression artérielle n’est pas l’élément qui motive en soi l’instauration d’un traitement. Mais c’est le fait que les sujets ayant une augmentation de leur pression artérielle sont à risque accru de complication cardio-vasculaire qui le justifie. Dans ce cas, l’objectif est de réduire le risque de survenue de ces complications potentiellement mortelles : infarctus, accidents vasculaires cérébraux et, sur un autre plan, d’atténuer les symptômes : céphalée, troubles de la vision, etc. L’élévation de la pression artérielle est avant tout un marqueur de l’état de risque accru. La baisse provoquée de la pression artérielle est (probablement) l’intermédiaire par lequel la réduction de risque est obtenue, mais elle n’est pas l’objectif du traitement. La baisse de pression artérielle n’est pas la finalité du traitement, mais le moyen par lequel on cherche à obtenir le but recherché : la diminution du risque d’événements cardio-vasculaires.

Pr Jean Pierre Boissel – Dr Michel Cucherat


HTA, prostate, triglycérides…

Farandole infernale.


Re-Ly: pour une poignée de patients de plus…

Le NEJM du 4 novembre comporte une correspondance très intéressante (profitez-en, elle est en accès libre) sur l’étude Re-Ly dont j’avais parlé ici.

Cette étude est gigantesque, avec 18113 patients suivis sur 2 ans.

Une donnée de sécurité avait fait lever le sourcil des autorités de régulations,, notamment la FDA, ainsi que d’un groupe de surveillance indépendant.

On observait en effet un sur-risque statistiquement significatif et inattendu d’infarctus du myocarde dans le groupe dabigatran 150 par rapport au groupe warfarine:

The rate of myocardial infarction was 0.53% per year with warfarin and was higher with dabigatran: 0.72% per year in the 110-mg group (relative risk, 1.35; 95% CI, 0.98 to 1.87; P = 0.07) and 0.74% per year in the 150-mg group (relative risk, 1.38, 95% CI, 1.00 to 1.91; P = 0.048).

Le p est significatif est à 0.048. le risque relatif est à 1.38, le risque absolu à 0.74% par an. La réduction relative de risque de la warfarine par rapport au dabigatran est donc de 38%. Autrement dit le sur-risque relatif de présenter un épisode coronarien est de 38% dans le groupe dabigatran.

Dit comme cela, il y a de quoi se poser des questions sur la sécurité du dabigatran.

Mais il faut regarder l’écart type au sein duquel le risque relatif vrai a 95% de chances de se situer: 1 à 1.91.

Le risque relatif vrai pourrait tout aussi bien être 1, c’est à dire pas de sur-risque  coronarien du dabigatran ou 1.91, c’est à dire un risque relatif pas très loin de 2.

L’interprétation de ces données est toujours délicate, d’autant plus que le pourquoi du comment (effet protecteur de la warfarine…) reste largement inconnu.

Les auteurs, sous la pression de la FDA, ont donc réanalysé les données.

Ils ont identifiés 81 évènements supplémentaires chez 80 patients (sur 18113, je le rappelle).

Parmi ces 81 évènements, on comptait 4 nouveaux infarctus du myocarde, “oubliés” et 28 nouveaux cas d’infarctus silencieux non reportés par les différents investigateurs.

La répartition de ces nouveaux cas au sein des 3 groupes de l’essai fait disparaître la significativité du risque coronarien du dabigatran 150 mg: risque relatif à 1.27 (0.94–1.71) p=0.12.

Étonnant et instructif, une poignée de cas répartis sur 3 groupes dans une énorme étude change drastiquement une donnée importante.

J’ai un énorme conflit d’intérêt, mais je vous suggère vivement la lecture de cette page web qui donne accès librement au support de cours de mon DU de statistiques rédigé par Michel Cucherat, notamment ces deux chapitres qui traitent de ce point précis soulevé par cette réinterprétation de Re-Ly:

°0°0°0°0°0°0°0°0°0°0°0°

Connolly SJ, Ezekowitz MD, Yusuf S, et al. Dabigatran versus warfarin in patients with atrial fibrillation. N Engl J Medicine 2009; DOI:10.1056.NEJM0a0905561.


Steve Stiles. New dabigatran safety data from RE-LY unveiled as watchdog group seeks answers. theheart.org. [Clinical Conditions > Arrhythmia/EP > Arrhythmia/EP]; Dec 8, 2010. Accessed at http://www.theheart.org/article/1161057.do on Dec 9, 2010