Commentaires sur la note précédente

La note précédente est bien entendu une vaste blague et la très vénérable INSEE n’a bien évidemment pas participé à cette pseudo étude. Par contre, toutes les données que j’ai utilisées sont rigoureusement exactes.

L’idée de cette note m’a été donnée par l’étude Doctolib/Withings sur les déserts médicaux qui a été pas mal reprise par la presse début juillet. Pour résumer, cette étude a comparé (plutôt mis côte à côte) le temps d’attente pour obtenir un rendez-vous médical (délai qui serait diminué par l’utilisation de Doctolib) et des données biométriques collectées par Withings (leur suivi serait censé améliorer la morbi-mortalité).

Vous voyez rapidement que cette « étude » commune, bien présentée, est potentiellement très bénéfique d’un point de vue financier, on ne parle ici bien entendu pas de santé publique. J’ai demandé à plusieurs reprises à Withings d’avoir accès à un peu plus de données, en vain. C’est Doctolib qui m’a gentiment répondu. Certes pas ce que je demandais, mais au moins ils n’ont pas été méprisants et j’ai apprécié.

Je leur demandais seulement si ces données, mises côte à côte avaient bénéficié d’un traitement statistique, au delà de faire des histogrammes sur Excel®. Sans réponse, je suis parti du principe que non.

tw1Peut-on dire que la transparence d’une non-réponse soit claire? Dans un certain sens, oui…

pasdereponsedoctolib

Je n’ai jamais eu de réponse à ces deux tweets…

Nous sommes donc probablement devant une simple juxtaposition de données qui n’a évidemment absolument totalement aucune valeur autre que commerciale. Si une méthodologie statistique a été employée par Doctolib/Withings, je m’engage à écrire une note afin de revoir le problème.

Doctolib m’a donc répondu, et encore une fois, sans aucune ironie je les remercie, même si ils n’ont rien dit.

Quoique…

Leur réponse est très intéressante d’un point de vue statistique. Ils répondent qu’ils observé une corrélation et non une causalité. Leur réponse est un axiome essentiel des statistiques: la corrélation n’entraîne pas la causalité

large_correlation_not_causation(source)

Dans un pays ensoleillé, il y a beaucoup de coups de soleil et il se vend beaucoup de lunettes de soleil. Mais ce n’est pas le port de ces lunettes qui provoque les coups de soleil…

C’est la même chose pour cette étude. Et encore, je ne suis même pas certain que les auteurs aient recherché une corrélation statistique.

Les auteurs du communiqué, du moins les relecteurs savent que cette juxtaposition de données n’a pas de sens, car ils connaissent cet axiome. Ils ne vont pas tomber dans le panneau, et à aucun moment ils vont écrire qu’il y a un lien de causalité entre délai d’attente de rendez-vous médicaux et HTA ou obésité (ou bien ils ont eu peur de froisser leurs potentiels clients?). Ils ne vont donc pas l’écrire noir sur blanc, mais juxtaposer ainsi les données le suggère de façon assez subtile.

tw2

Je suis peut-être tordu, mais les « journalistes » qui ont repris mot pour mot ce communiqué de presse se sont parfois (pas tout le temps!) empressés de faire une relation de cause à effet entre durée d’attente et morbidité, donc entre une potentielle diminution de ce temps et une amélioration de la santé publique:

docto1 docto2 docto3 docto4

tw3

On peut donc féliciter le service de PR qui a réussi à faire dire quelque chose à la presse tout en s’interdisant de le dire eux-mêmes, simplement en le suggérant.

Grande classe.

J’ai beaucoup apprécié, je me suis donc dit que j’allais écrire une note. Pas un cours sur les stats, que je serais bien incapable de faire, mais une caricature du communiqué Doctolib/Withings. J’ai repris ce communiqué quasiment mot pour mot pour utiliser les mêmes éléments de langage. Après, je me suis amusé à torturer des données récupérées sur le site de l’INSEE (le fameux Data Dredging) pour les faire parler et montrer l’aberration du raisonnement. J’ai même ré-utilisé R (après des années, ce fut douloureux) pour chercher des corrélations stupides:

cordoctolib1

RplotPuis après m’être amusé avoir perdu pas mal de temps, j’ai fait, encore une fois je présume, comme les auteurs du communiqué, j’ai fait du cherry picking en choisissant des données sans aucun lien entre elles, mais en les accolant pour leur donner un semblant de corrélation.

Moralité de l’histoire?

  • les PR de Doctolib et Withings sont forts.
  • les journalistes qui font un simple copié-collé des communiqués de presse des PR sont en dessous de tout car ils ne font pas leur travail et surtout ils véhiculent des concepts totalement erronés.
  • Une initiation aux statistiques et à la lecture critique d’articles (pas forcement médicaux!) devrait être faite en secondaire, cela diminuerait mécaniquement le nombre d’âneries pseudo scientifiques avec lesquelles on nous gave comme des oies tous les jours.
  • R, et bien, c’est vraiment dur…

J’espère que vous vous êtes autant amusés que moi en lisant ces notes. Ré-écrire m’a fait un bien fou. Merci à Doctolib et Withings!

3 Replies to “Commentaires sur la note précédente”

Répondre à José Lemaire Annuler la réponse.

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur la façon dont les données de vos commentaires sont traitées.