Enfermer sa tante folle dans le grenier

En 1999, Moyé a écrit un article tout à fait passionnant sur la nécessaire discipline à laquelle les auteurs doivent s’astreindre dans la définition du critère d’étude principal d’une étude. Une étude digne de ce nom doit répondre à une question, voire deux et en susciter des tas d’autres. Si le seuil de significativité n’est pas atteint pour le critère principal, l’étude est négative, quelque soit l’amplitude de la positivité du/des critère(s ) secondaire(s). Toute la structure statistique d’une étude est construite autour de l’analyse du critère principal. Les critères secondaires sont donc… secondaires. Enfin, non, j’exagère, ils permettent aussi d’analyser la sécurité d’un traitement, de poser la base d’autres hypothèses, d’autres essais…

La négativité d’une étude représente un accident industriel pour le promoteur d’une étude, si celui-çi est un fabricant de médicaments ou de matériel médical. La tentation est donc grande pour ce dernier d’escamoter le critère primaire devenu honteux car négatif et de bâtir une belle campagne promotionnelle sur un critère secondaire positif.

Moyé illustre cela très bien par l’image d’une tante folle, honte d’une famille par définition respectable, que cette dernière enfermerait dans le grenier loin des yeux des visiteurs:

The primary end point, chosen from many possible end points and afforded particular and unique attention during the trial, becomes unceremoniously unseated when it is discovered to be negative at the trial’s conclusion. Like the `crazy aunt in the attic,’ the negative primary end point receives little attention in the end, is referred to only obliquely or in passing, and is left to languish in scientific backwaters.

Les spécialistes de ce type d’escamotage étaient sans conteste en leur temps les Laboratoires Servier. L’étude BEAUTIFUL est un chef-d’oeuvre du genre.

Mais la relève est là, et n’a rien à envier aux glorieux anciens.

C’est Zoll et sa LifeVest qui ont enfermé la tante folle, et pas plus tard qu’aujourd’hui.

Je vois de plus en plus de LifeVest en centre de réadaptation en post-infarctus chez des patients ayant une fonction ventriculaire gauche altérée.  L’étude VEST, présentée aujourd’hui à l’ACC m’a donc passionné.

Je ne vais pas paraphraser clinicaltrial. org, mais simplement rappeler les critères étudiés:

Primary Outcome Measures :
Sudden death mortality [ Time Frame: three months after myocardial infarction ]

Secondary Outcome Measures :
– Cardiovascular, all-cause, and other cause specific mortality [ Time Frame: three months after myocardial infarction ]
– incidence of ventricular arrhythmias [ Time Frame: three months after myocardial infarction ]
– adverse events attributable to wearable defibrillator use [ Time Frame: three months after myocardial infarction ]
– compliance with wearable defibrillator use [ Time Frame: three months after myocardial infarction ]

Les choses sont claires, la mort subite à 3 mois est le critère principal. les promoteurs/investigateurs auraient très bien pu prendre un autre critère (mort cardio-vasculaire, mort toute cause, un critère combiné…), mais c’est bien ce critère qu’ils ont choisi.

Or, pas de chance, la LifeVest n’améliore significativement pas la mort subite à 3 mois…

(Source: Medscape)

Par contre, deux critères secondaires sont positifs: mortalité toute cause et mort par accident cérébral.

Zoll a choisi d’enfermer dans le grenier le critère principal de cette étude pour mettre en avant la mortalité toute cause, comme l’illustre ce communiqué de presse digne de 1984.

Ils minorent la négativité du critère principal, en arguant de la difficulté de définir correctement une mort subite. Je suis certain que si l’étude avait été positive, ce problème de définition n’aurait jamais été soulevé. Par ailleurs, il faut être bien bête d’avoir choisi un critère principal difficile à définir, non?

« The VEST Trial demonstrated that the WCD was associated with a reduced total mortality in the 90 days following a heart attack, » said Jeffrey E. Olgin, MD, FACC, Co-Principal Investigator, Professor and Chief of Cardiology at the University of California San Francisco Heart and Vascular Center. Dr. Olgin added, « While the VEST Trial did not meet the endpoint of sudden death mortality, the ability to determine the cause of death as sudden when unwitnessed is difficult and could result in misclassification. These meaningful total mortality results add large randomized controlled trial data to an already large body of clinical evidence in support of the 2017 AHA/ACC/HRS Guideline recommendations for WCD use in patients at risk of sudden cardiac death. »

Pourtant, le même Olgin n’avait pu que constater la négativité de son étude au cours d’un entretien avec Medscape:

« We failed to meet our primary outcome, » said Jeffrey E Olgin, MD, from the University of California, San Francisco, presenting the study here at the American College of Cardiology (ACC) 2018 Annual Scientific Session. Still, he added, « Despite a negative result for sudden death, based on the associated lowered total mortality, it is reasonable to prescribe the WCD in patients who are post-[myocardial infarction (MI)] and have reduced ejection fraction, until further evaluation for an implantable cardioverter-defibrillator [ICD] at 40 to 90 days.The benefit in the secondary endpoint of all-cause mortality « needs to be interpreted with caution, » Olgin acknowledged when speaking with theheart.org | Medscape Cardiology.

Peu après, oubliant toute précaution, pourtant prônée par l’investigateur principal, la machine à vendre des LifeVest s’est donc mise en route, malgré une défaite statistique sans appel.

Ça a donc beaucoup énervé l’excellent John Mandrola qui a écrit un commentaire  acerbe dans Medscape. Une contributrice de HealthNewsReview.org a enfoncé le clou en se demandant si Zoll ne nous faisait pas prendre des vessies pour des lanternes.

Ah oui, une LifeVest, c’est autour de 3000€ par mois….

Une veste placebo serait nettement moins chère.

Substitution

Un critère intermédiaire est souvent une mesure qui va documenter d’un point de vue physiologique une maladie et/ou son traitement. Par exemple, le LDL et l’athéromatose, ou la tension artérielle et certaines maladies cardiovasculaires.

Lorsqu’un critère intermédiaire est l’objet d’une étude clinique, on l’appelle critère du substitution (surrogate endpoint). Le syllogisme est tentant: le traitement T agit sur le paramètre A, Le paramètre A est un déterminant de la maladie M, donc T agit sur M, donc prescrivez T. Parfois, le syllogisme est tellement ancré dans nos esprits que l’on en oublie M, par exemple le LDL et les maladies cardio-vasculaires. Combien de personnes ont été traitée « pour un LDL élevé » lorsque les statines ont été commercialisées, en dehors de toute recommendation?

Les critères de substitution, comme beaucoup d’outils statistiques (par exemple la non-infériorité, les critères secondaires, les analyses post-hoc, en sous-groupe…), n’ont pas été créés par des statisticiens pervers et/ou avides de gloire et d’argent. Ce sont des outils utiles qui avec le temps, et surtout la promesse de résultats rapidement positifs, donc lucratifs, ont été dévoyés de leur fonction première. L’étude d’un critère intermédiaire permet idéalement de valider un concept pharmacologique et/ou physiologique et de savoir rapidement et avec relativement peu de moyens-une mesure est toujours plus rapide à observer qu’un décès ou un évènement clinique-si un traitement peut être efficace sur une maladie. Après, il est nécessaire de confirmer cette hypothèse par un essai clinique, bien plus long et onéreux à mettre en place, mais finalement le seul qui pourra répondre à l’unique question que nous devons nous poser: est-ce que ce traitement diminue la morbidité-mortalité de cette maladie?

Mais comme je l’ai dit, l’outil des critères de substitution fut dévoyé et on a obtenu des AMM et fait prescrire des milliers de boites de médicaments uniquement sur des essais portant sur ces derniers.

On peut regarder ainsi l’exemple quasi caricatural de l’aliskiren qui a obtenu une AMM et a été vendu sur des études montrant son intérêt sur les chiffres tensionnels (critères de substitution), mais qui, in fine n’a jamais montré d’intérêt dans la diminution de la morbidité-mortalité cardio-vasculaire. Le texte de la dernière mise à jour de l’avis de la HAS est éclairant:

Une étude très sympa s’intéressant à la validité des critères de substitution est sortie récemment dans le JAHA.

Tout est résumé dans ce graphique:

Les auteurs ont analysés sur 20 ans, dans 3 grands journaux scientifiques (NEJM, Lancet et JAMA) les essais cliniques sur des thérapeutiques cardio-vasculaires comportant un critère de substitution comme critère principal. Ils ont ensuite regardé les essais cliniques ultérieurs sur ces mêmes thérapeutiques.

D’abord, sur les 220 essais initiaux, seuls 59 ont été suivis par un essai clinique. Cela montre bien que l’essai avec critère intermédiaire, par flemme, manque de moyen, ou tout simplement parce qu’on ne le voit que comme un argument de vente, se suffit à lui même. La seule chose qui compte, l’intérêt clinique pour le patient est donc méprisé la plupart du temps.

Pour le groupe des études qui ont été suivies par un essai clinique, nous observons notamment qu’en cas d’études initiales positives, les essais cliniques confirmaient l’intérêt du traitement que dans 24 cas sur 44. Si les études initiales étaient négatives, les essais cliniques les contredisaient que dans 3 cas sur 15.

Autrement dit, il ne faut pas prescrire de traitement pour son seul effet sur un critère de substitution. Par ailleurs, la négativité d’un essai avec critère de substitution augure assez bien la négativité clinique d’un traitement.

L’effet sur la morbidité-mortalité doit rester idéalement la seule aune permettant de juger de l’intérêt d’un traitement. Tout le reste n’est bien souvent que technique de vente.

°0°0°0°0°0°0°0°0°0°0°0°0°0°0°

Pour en savoir plus:

Critères cliniques – intermédiaires – de substitution (Interprétation des essais cliniques pour la pratique médicale, Michel Cucherat).

Évaluer les bénéfices d’un traitement : d’abord les critères cliniques utiles aux patients (Revue Prescrire)

Annonce de service importante.

Je comptais vous le dire lundi, mais finalement, je ne vois pas trop d’intérêt à attendre plus. Je vais bientôt supprimer Grange Blanche.

Ce n’est pas une décision prise sur un coup de tête, j’y reviendrai plus tard. Depuis quelques temps, je me suis un peu retiré des réseaux sociaux en supprimant mon compte Facebook, en passant temporairement mon compte Twitter en compte privé…

Il y a quelques mois, j’ai rencontré des gens formidables, dynamiques, qui m’ont donné envie de changer d’orientation professionnelle. Pourtant, on partait de loin, car ces gens ont souvent fait l’objet de mes sarcasmes. À force de les critiquer, j’ai commencé à comprendre leur point de vue, et que c’est moi qui étais dans l’erreur.

Finalement, une opportunité professionnelle fabuleuse s’est présentée juste à ce moment là. La vie est pleine de cercles rouges…

Çakyamuni le Solitaire, dit Sidarta Gautama le Sage, dit le Bouddah, se saisit d’un morceau de craie rouge, traça un cercle et dit
« Quand des hommes, même s’ils l’ignorent, doivent se retrouver un jour, tout peut arriver à chacun d’entre eux et ils peuvent suivre des chemins divergents. Au jour dit, inéluctablement, ils seront réunis dans le cercle rouge.»
RAMA KRISHNA

Je les ai contactés, ils m’ont pardonné, et ils ont accepté ma candidature, je serai bientôt (à la fin de mon préavis), un futur chef de département biostatistique chez Servier.

Pourtant, je n’étais pas très confiant initialement. D’abord ma formation de cardiologue, car ils n’ont jamais développé de traitement dans ce domaine. Au contraire, ils ont dit, nous comptons créer un département cardio-vasculaire afin de commercialiser des molécules open-innovantes issues de la recherche Servier.

Ensuite, je leur ai dit que je n’avais comme bagage biostatistique qu’un DU de lecture critique des essais cliniques, et 2-3 MOOC. Encore mieux, ils ont répondu, on va te nommer en plus rédacteur en chef de Cardiologie Pratique, puis ils ont éclaté de rire en me tapant dans le dos et en entonnant il est des nôôôtres…

Une fraude en Chine, quelques patients de moins, et un produit ne sauve plus de vies.

Allez chercher du pop-corn.

Un de mes lecteurs m’a fait connaître une histoire d’essai clinique assez étonnante.

Tout commence dans un site mystérieux en Chine, le site 1200…

Bon, vous n’allez pas me lire sans rien faire, comme on écoute un conteur, je vais vous faire travailler un peu. Vous devez (re)lire l’étude ARISTOTLE publiée le 15/11/11 dans le NEJM. À l’époque où j’avais le temps, j’en avais fait cette analyse.

J’avais conclu ainsi:

ARISTOTLE me paraît être la plus convaincante des grandes études sur les NAC chez les patients porteurs d’une fibrillation auriculaire. La qualité de sa réalisation et la supériorité avec une diminution moyenne du risque relatif de 21% pour le critère primaire me plaisent bien. La diminution de mortalité me fait moins rêver, mais bon, je ne vais pas faire la fine bouche. Le risque relatif des hémorragies majeures est diminué de 31% en moyenne dans le groupe apixaban par rapport au groupe warfarine. Il s’agit néanmoins d’un critère secondaire. Bref, si je devais choisir un NAC, ce serait plutôt l’apixaban.

Si l’on regarde cette fameuse mortalité, j’avais écrit un peu plus haut:

Je note aussi un critère secondaire d’efficacité intéressant: la mortalité toute cause qui est significativement moindre, d’un-dernier-souffle, dans le groupe apixaban: risque relatif à 0.89 (0.8-0.998), p=0.047.

Cette petite diminution de mortalité toute cause, qui représente LE critère dur, le graal de tout traitement, a quand même favorablement influencé les commentateurs, dont moi (objectivement).

(source)

(source)

Revenons à notre site 1200, quelque part en Chine…

Ce n’est pas l’équivalent chinois du site 51, mais un des 1034 centres dans 39 pays qui ont randomisé les 18201 (écrivez ce nombre sur un papier) patient inclus dans ARISTOTLE.

Le nombre des patients inclus dans ce site 1200, a été de 35 (notez aussi ce nombre).

Malheureusement, des violations de protocoles, qualifiées de « frauduleuses » par la FDA ont eu lieu dans ce site, jetant le doute sur la qualité des données.

Un évaluateur de la FDA a donc recalculé tous les résultats de ARISTOTLE en excluant ce site (35 patients sur 18201, si vous ne m’avez pas écouté quelques lignes plus haut).

Je ménage mon effet en insistant: 35 patients exclus sur 18201…

Et bien, sans ces 35 patients, ARISTOTLE devient négatif sur le critère mortalité toutes causes:

(Source: page 58 du doc FDA cité en bas de note)

Le fameux p passe de 0,0465 à 0,0565.

Détail fascinant: 35 est encore un chiffre bien trop impressionnant, vous remarquerez en regardant le tableau qu’il a fallu uniquement  3 morts en moins dans le bras warfarine pour faire pencher la balance sur la mortalité toutes causes (3 morts sur… les 18201 patients de l’essai) 

Pffff, exit l’intérêt sur la mortalité. Cette fraude qualifiée d’isolée par la FDA explique pourquoi, malgré les données publiées dans le NEJM, les fabricants de Eliquis® n’ont jamais pu communiquer sur son bénéfice sur la mortalité globale:

(Source: page 2 du doc FDA cité en bas de note)

(Aucune mention de diminution de la mortalité. Caramba, encore raté)

J’imagine facilement leur rage et leur frustration car un tel bénéfice, bien mis en avant aurait tué toute concurrence.

Morale de l’histoire: 3 morts en moins suffisent pour faire disparaître un bénéfice dans un énorme essai clinique. Cela signifie que ce bénéfice est (était?) microscopique, mais que la puissance de l’essai a permis de le discerner. Si on ne considère, comme beaucoup de commentateurs français pourtant illustres, que la diminution moyenne du risque relatif qui est de 11%, celle-ci semble pourtant loin d’être microscopique. Du moment que p<0,05, tout passe, même des vessies pour les lanternes. Quel médecin, même raisonnable irait cracher sur une diminution de mortalité de 11% chez ses patients?

Si on regarde les intervalles de confiance, ici (0.8-0.998), et notamment le 0,998 qui représente l’effet minimal de l’apixaban sur la mortalité, on commence déjà se dire que le bénéfice peut ne pas bien être grand.

Si enfin on regarde les chiffres absolus: 669 décès dans le groupe warfarine, 603 dans le groupe apixaban, soit 66 décès de différence pour 18201 patients suivis durant 1,8 ans, on pouvait aussi se dire que le bénéfice absolu n’était pas monstrueux.

°0°0°0°0°0°0°0°0°0°0°0°0°0°0°0°0°0°

J’avais déjà souligné qu’il suffit parfois de très peu pour changer les résultats d’un essai clinique dans cette note sur la dronédarone.

Un document passionnant (j’ai lu 3 pages sur 393…) de la FDA sur l’essai ARISTOTLE. Comme je suis prudent, je suis allé vérifier que ce doc annoté par je ne sais pas trop qui était bien authentique. Il l’est, on le trouve sur le site de la FDA ici.

Un article un peu polémique sur cette histoire qu’il voudrait bien faire mousser (un volontaire pour l’envoyer au Parisien?). Bof, pas de quoi fouetter un comprimé de Mediator®…

Le RCP européen de l’Eliquis® (apixaban). Aucune mention de diminution de mortalité dans le 4.1 (ouf!).

L’article de John Mandrola qui a mis le feu aux poudres (j’en profite pour remercier mon lecteur pour cette histoire).