Les comparaisons multiples

Let’s talk about stats!

Il y a quelques temps, je suis tombé sur ce tweet de Stéphane:

https://twitter.com/#!/PUautomne/status/55636813670400000

Le lien mène sur l’excellente BD xkcd de Randall Munroe, et sur ce crobard:


Le grand génie de Randall Munroe est de faire rire avec des concepts scientifiques parfois complexes.

Ici, il s’attaque au problèmes des comparaisons multiples.

Je vais essayer de vous faire une analyse de cette étude pivot qui clame que les Dragibus® verts provoquent des poussées d’acné (p<0.05).

D’abord quelques bases.

Lorsque l’on observe l’effet d’une intervention sur un échantillon de sujets (par exemple observer la survenue d’acné après l’administration de Dragibus®) , on s’expose au risque que l’effet observé soit simplement du au hasard.

Tout simplement, car il s’agit d’un échantillon, et non de la population humaine entière et que la fréquence de survenue d’acné va varier entre chaque échantillon, c’est la fluctuation d’échantillonnage.

Ce risque s’appelle le risque α (alpha) et il est particulièrement problématique car il peut faire conclure à tort à la réalité d’un lien de causalité entre une intervention et un effet, alors qu’il n’y en a pas.

Quand on effectue un test statistique pour démontrer la réalité d’un lien de causalité entre une intervention et l’effet observé, on va donc chercher à minimiser ce risque alpha.

On va même exiger que la probabilité p de survenue de ce risque soit inférieure à un pourcentage acceptable. En général, on choisit 5%, d’où le fameux p<0.05.

A chaque test effectué, on prend un risque α supplémentaire, et bien pire, il se cumule, c’est ce que l’on appelle l’inflation du risque α.

Si l’on effectue k tests, le risque α global sera de 1-(1-α)^k.

Quand est-ce que l’on effectue des tests répétés?

  • en cas de critères de jugement multiples

  • en cas d’analyse en sous-groupe

  • en cas d’analyses intermédiaires

  • en cas de multiplicité de bras (par exemple plusieurs dosages)

Dans le « papier » des personnages de xkcd, on retrouve une première analyse qui porte sur l’ensemble des couleurs des Dragibus®. Cette analyse ne permet pas de démontrer un lien de causalité avec p<0.05. Les personnages auraient dû s’arrêter là, il n’y a pas de lien entre la prise de ces sucreries et la survenue d’acné. Cette négativité invalide déjà sérieusement la solidité des analyses en sous-groupes qui vont suivre.

Mais probablement poussés par leur envie d’aller plus loin dans le raisonnement scientifique (hypothèse optimiste), ou par l’impérieuse nécessité d’obtenir un résultat positif (hypothèse pessimiste), les auteurs (vous remarquerez que les scientifiques glandouillent hors cadre) vont faire leur test sur 20 couleurs, soit 20 sous-groupes. Au total, ils ont donc effectué 21 tests.

On calcule donc le risque α global: 1-(1-0.05)^21=0.66

Le risque de conclure à tort à la réalité d’un lien de cause à effet entre prise de Dragibus® et survenue d’une acné est donc de près de 66%!

Et de fait, il y en a 1 qui est positif, le vert.

J’adore ensuite les gros titres du journal non scientifique avec la mise en avant d’une erreur α qui est tout à fait erronée, mais qui attire le gogo.

Cette histoire de Dragibus® vous a fait rire?

Tant mieux, car il se passe exactement la même chose pour les médicaments, presque tous les jours. Et le gogo, c’est un médecin.

Tout cela pour dire qu’il est fondamental de traquer dans un papier scientifique ces comparaisons multiples:

En lecture il convient d’être particulièrement attentif au problème de l’inflation du risque alpha. En effet, une situation de multiplicité des comparaisons enlève presque toute valeur à un résultat statistiquement significatif puisqu’il est possible, en répétant les tests, d’obtenir un p<0.05 avec n’importe quel traitement, même sans effet. Un résultat significatif obtenu dans un contexte où il est impossible de savoir le nombre de tests réalisés au total n’apporte aucune preuve statistique : « les données ont été torturées jusqu’à ce qu’elles avouent ! ». Les anglo-saxons parlent de « data dredging ». (M Cucherat)

°0°0°0°0°0°0°0°0°0°0°0°0°0°

Principe général des tests statistiques. Interprétation des essais cliniques pour la pratique médicale. Michel Cucherat.

La problématique des comparaisons multiples. Interprétation des essais cliniques pour la pratique médicale. Michel Cucherat.

Analyses en sous groupe. Interprétation des essais cliniques pour la pratique médicale. Michel Cucherat.

Auteur : Jean-Marie Vailloud

Cardiologue de formation, je suis aussi l'administrateur du blog Grange Blanche.

12 thoughts on “Les comparaisons multiples”

  1. Très bonne note, quelle valeur de p aurait du utiliser les personnages de xkcd pour avoir une significativité statistique tenant compte du risque alpha à 0.66 avec la multiplication des analyses?

    1. Il y a plusieurs méthodes, mais celle de Bonferroni est la plus simple: déclarer une significativité en prenant un seuil à alpha/k (#0.0024)
      Mais je me demande si elle est valide étant donné le nombre très important de tests.
      Regarde paragraphe 3 du lien « La problématique des comparaisons multiples »

  2. Sinon, excellente BD, et excellente explication🙂

    En analyses bio, on a le même genre de problème… et les analyses sont rendues au patient sans « garde-fou », ou minimal (« valeurs normales »)

    En docimologie (évaluer les apprentis laborantins) c’est pire…

  3. J’ai passé un peu de temps à survoler les liens en me disant que tout cela est présenté de façon « compliquée » (augmentation du risque alpha tout ça tout ça) alors qu’intuitivement on pense tout de suite à une explication bien plus simple pour expliquer le fait que l’analyse en sous groupe n’apporte souvent rien de valable…mais je n’était pas vraiment sûr…j’étais un peu noyé sous le jargon….jusqu’à ce que je tombe exactement sur ce que j’attendais :

    « Il est impossible de conclure qu’un traitement est sans efficacité chez certains patients sous prétexte qu’aucune différence significative n’existe dans ce sous-groupe. L’absence de différence significative ne signifie pas qu’il y a absence d’effet car la puissance de la comparaison au niveau d’un sous-groupe n’est pas assurée. En effet, la taille des sous-groupes est inférieure à la taille nécessaire pour mettre en évidence un effet qui est la taille de l’essai tout entier. »
    Bref : « blablabla **** la taille des sous-groupJe me demanede quel test stat ils osent appliquer es est inférieure à la taille nécessaire pour mettre en évidence un effet qui est la taille de l’essai tout entier**** »

    Voila. C’est aussi simple que ça. Plus on fait de sous groupes moins on a de monde dans chaque groupe. Si une mouche passse, on peut dire que « qui est la taille de l’essai tout entier » est une assertion un poil trop forte. Parfois la moitié peut suffir si on accepte un poil plus de risque (genre si l’essai avait des patients à revendre :))

    Bon maintenant je suis toujours dubitatif en lisant ça :
    « l’aspirine apparaît inefficace pour les sujets du signe de la balance ou des gémeaux et plus efficace que la moyenne pour le signe du capricorne »
    Heu oui mais bon présenté comme ça ça ne veut strictement rien dire donc ce n’est pas la peine de s’en émouvoir (on peut s’émouvoir du fait que ça a été publié par contre). Je parie que c’est juste que la différence observée n’est pas significative et que c’est bêtement dû au petit nombre de personne dans chaque sous groupe.

    Bref avant de se lancer dans des stats il faut regarder le nombre d’individus.
    Ca veut aussi dire que leur conclusio du genre » »avec mes 3 patients j’ai démontré que je ne sais quoi à un effet. p<0.05" résulte d'une grossière erreur : Ils appliquent un test statistique qui leur pond un 'p' sans avoir la moindre idée du fait qu'ils sont très loin du domaine de validité du dit test. S''ils écrivaient explicitement en annexe le calcul fait pour pondre ce 'p' je pense que bcp de statisticiens n'auraient pas fini de rigoler.

    En attendant on voit toujours paser des publi incluant seulement 6 patients et parlant de "17% des patients" Hu hu hu….le problème étant que le caractère hautement comique de ce "17" est souvent couvert par un exposé stat complexe.

    1. Salut Xavier, content de te lire!
      Je ne suis pas certain que alpha soit si dépendant que ça de l’effectif de la population (contrairement au risque beta qui l’est beaucoup).
      Car il se passe exactement la même chose dans le cas des analyses intermédiaires.
      Si tu fais des tests successifs sur une population +/- stable (et suffisante), tu vas quand même augmenter ton risque alpha.

  4. Salut,

    Oui j’ai traversé un tunnel sous une montagne de boulot donc je te lisais mais je ne commentais plus.

    Restont simples :
    Tu as un pool de patients. Un protocole et tu veux tester si X diminue Y.
    Tu fais ton étude et tu prouves (avec un beau test statistique bien employé) que non, X n’a aucune influence sur Y avec une proba de te tromper inférieure à 5%.
    Ok.
    Tu te lances alors dans une étude en sous groupes (pour des raisons valables ou financières ou les deux…) :
    Disons que tu sépares les hommes et les femmes.
    Tu as alors une suite de résutats sur les hommes….et c’est la que je me demande bien quels tests statistiques ils font pour sortir un p=.
    Il est évident que l’étude sur les homme seulement est moins puissante car on n’a moins de patients. Cependant, ce n’est pas un pb pour un test statistique bien appliqué dans son domaine de validité.

    Si on trouve que X à un impact sur Y chez les homme avec un proba de se tromper N%, ce résultat est aussi valable que s’il avait été le but premier de l’étude.

    « a un impact »…ha ha ha.
    Il existe une très forte corrélation entre le cours de la bourse d’une certaine action et la température à Lyon en 1904. Ben oui. Il y a tellement d’actions qu’on va bien en trouver une pour laquelle ca marche. Ce que je veux dire c’est que si on fait 10 sous groupes et qu’ensuite on construit tous les groupes possibles rassemblant 4 caractères de chaque sous groupes ben…ca va en faire bcp des groupes…vraiment beaucoup.
    Si on teste chaque groupe, ce serait bien le diable qu’on ne trouve pas une (ou deux…) *corrélation(s)*.

    Cependant, *corrélation* n’a **jamais** voulu dire « lien de cause à effet. Jamais.
    Que les tests statistiques soient juste ou faux dans l’histoire du lien avec les signes du zoidac est une autre question. Supposons qu’ils soient justes. Ca n’empeche pas que la conclusion n’est *PAS* qu’il y a le moindre lien logique entre les deux. Ca veut juste dire qu’il y a une certaine corrélation. Un certain lein stat. Comme entre la météo et la bourse…suffit de mouliner assez de données pour en trouver un.

    Bref, encore une fois, les stats sont un outils et le bon sens doit passer avant.
    En lisant juste les résultats bruts, soit on doit se dire « ca marche! », soit on doit se dire « bof » ou « vraiment pas ». Ensuite on peut regarder les stat en gardant toujours en tête deux choses « ok mais en pratique ca veut dire quoi »? et « est ce qu’il y a un lie de cause à effet ou c’est juste que j’ai tout tester versus tout et que bien sur j’ai fini pqr trouver qqch »

    A propos de corrélation (au sens premier),regarde :
    http://fr.wikipedia.org/wiki/Corr%C3%A9lation_%28statistiques%29 (la figure Exemples de coefficients de corrélation). Une corrélation ce n’est pas juste « si x monte x monte ;) »

    Xavier

    1. Je suis d’accord avec Xavier sur son point de la corrélation et la causation, et chez XKCD on pense pareil🙂 (p’têt v. le connaissiez déjà). Car il faut toujours tenir en compte (et plusieurs l’oublient très souvent) que les test stat. ne servent qu’à vérifier l’association entre deux données, mais ne nous disent rien sur sa plausibilité biologique: le chemin doit partir des raisonnements théoriques, qui seront vérifiées grâce aux expériments (et voici la statistique), mais pas du tout au contraire comme certains le veulent.

      Dans ce coin là, j’aime bien l’exemple de cette révision Cochrane sur l’Oscillococcinum et le rhûme; quoique les résultats contredisent la chimie et la physique, quoique l’on fasse des tas d’analyses intermédiaires, et quoique le p égale ,02, la conclusion demeure claire: les pillules de sucre sont utiles à réduire la durée de la maladie. On n’y prend qu’une chiffre, et on veut lui faire dire n’importe quoi.

  5. Et bien moi, je n’aime que les Dragibus verts, et je n’ai pas d’acné. Quoi le biais? Quel biais?

    Insinueriez-vous, tous, que l’on fait des gros titres avec des petites infos?
    Que la presse médicale ne serait finalement que de la presse?

    éléments de réponse: http://www.nejm.org/doi/full/10.1056/NEJMsa065779

    Ca laisse rêveur…
    Ce que je ne m’explique pas c’est pourquoi, alors que la presse (people) n’a jamais tué le livre, la presse médicale a tué le livre médical…
    N’existe-t-il pas de vérité médicale qui puisse durer plus de 10 ans?

  6. « Ce que je ne m’explique pas c’est pourquoi, alors que la presse (people) n’a jamais tué le livre, la presse médicale a tué le livre médical…
    N’existe-t-il pas de vérité médicale qui puisse durer plus de 10 ans? »

    Ben le web l’a tué en bonne partie. Tout comme il a tué tous les gros « handbooks » qui trainaient sur les bureaux des ingés.
    L’info est toujours à jour et dispo sous une forme beaucoup plus pratique à utiliser…donc bon…

    « Que la presse médicale ne serait finalement que de la presse? »
    C’est facile de tirer sur la presse. Quand la pressse se trompe c’est souvent qu’on lui a très mal expliqué (en science). Quand on voit comment certains chercheurs parlent de leurs travaux…on se demande même comment un journaliste arrive à comprendre **qqch**. Eternel débat entre le spécialiste certain que SA discipline est d’importance et le généraliste qui passera à autre chose dans l’heure. Le second n’est pas moins noble que le premier.

    Avant de tirer sur la presse merci de penser à ce que serait le monde moderne sans elle.

  7. Donc, après ce premier débrouillage statistique pas très licite, il faudrait faire une comparaison des distributions dans un échantillon représentatif de la population qui nous intéresse entre la proportion de consommateurs de jelly beans verts et celle d’acnéiques ? Un bête chi2 en somme, pour savoir s’il y a une liaison ?
    Pour la causalité il faudra ensuite respecter l’ensemble des critères décrits par Hill http://www.med.uottawa.ca/sim/data/Causation_f.htm. mais celà ne se mesure pas de façon mathématique, en tout cas pas avec un petitpé, non ?
    Ils ne sont pas près de publier en tout cas….

Laissez une réponse

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s