Je remonte donc doucement mais surement le cours des articles de Significance.
J’ai encore du travail, J’ai lu 2013-2012, il me reste encore 2011-2004…
En décembre 2011, Christopher Weir et Gordon Murray (que je ne connais ne d’Adam ni d’Ève) ont fait publier un excellent petit article: Fraud in clinical trials. Les deux auteurs jouent pour nous aux statisticiens Sherlock Holmes, afin de dépister les fraudes dans les essais cliniques.
L’analyse de la masse considérable de données issues d’un essai clinique (si il est de taille respectable) va permettre d’en déterminer la tendance centrale, la variance, et ainsi de repérer les données aberrantes. De même, des données trop normales doivent éveiller la suspicion. Les auteurs donnent ainsi l’exemple d’un suivi clinique qui aurait lieu tous les lundis de la semaine durant 6 mois. Les aléas de la vie, les vacances… rendent peu probable que chaque patient d’un centre puisse se rendre au jour dit donner leurs données 😉 de façon métronomique. Idem si les intervalles de visites sont invariants.
Les auteurs donnent une foule de petits indices permettant de repérer une fraude.
L’article est excellent, surtout si vous avez déjà participé à un gros essai multi-centrique avec une ARC tatillonne sur les talons (la mienne était biélorusse), et d’interminables séries de données aberrantes (pour le clinicien) à collecter (par exemple, la température d’un frigo neuf, régulier et exact comme une fréquence de quartz, où étaient entreposés les médicaments de l’essai).
Vous voyez ce que je veux dire…
L’article touche au sublime, pour un béotien comme moi, quand il me fait découvrir l’extraordinaire loi de Benford, qui peut permettre de suspecter que des données aient été inventées.
Un chercheur (non statisticien) qui souhaite inventer une donnée, quelle qu’elle soit, va inscrire des nombres « au hasard » dans les petites cases. Ce « hasard » signifie implicitement que chaque nombre de 1 à 9 à la même probabilité probabilité qu’un autre (1/9 ou 11.1.%) d’avoir sa place en première position, en seconde position… de la donnée.
Ben, en fait non!
Le 1 a 30.1% d’apparaître en premier, le 2 17.6%, le 3, 12.5%. Après le troisième chiffre, les probabilités ont tendance à s’égaliser…
Pour en savoir plus sur la loi de Benford:
- Un superbe article de l’excellent DataGenetics
- Pour tester plusieurs bases de données.
- L’article de Wikipedia
Moi aussi, j’ai voulu jouer…
Mais je n’ai pas de données en grand nombre à la maison.
J’ai quand même deux bases de ma vraie vie pas trop petites: le nombre de visites sur 499 de mes billets les plus lus et le nombre de visiteurs amenés par mes 424 plus importants adresseurs.
(Merci WordPress pour ces statistiques…)
Si je prends chacun des premiers chiffres du nombre de visites de mes 499 billets les plus lus, j’obtiens la distribution suivante:
Ça colle pas trop mal à la loi de Benford, étant donné la petite taille de mes séries, non ?
Bonjour,
Ayant participé à des essais cliniques nationaux et internationaux, ayant constaté des fraudes manifestes que le labo ne souhaitait pas divulguer car les essais cliniques font partie du mix marketing des produits, nous disions toujours aux ARC ou aux CRA que le seul point important était de savoir si le patient existait.
a propos de sherlock holmes, tu as vu qu’il va y avoir une saison 3 ? bisous
Bof, je ne suis pas allé au-delà du dernier épisode de la première saison!
Désolée, les statistiques, c’est pas mon truc.
Par contre, j’aime bien le « nouveau décor » du blog. L’ancienne version était sympa aussi.
Au fait, à qui appartient le visage, peint à l’huile ?
Rembrandt, autoportrait!
Envoyé de mon iPhone
>
Bonjour,
Inconditionnel de votre site depuis que je l’ai découvert, votre billet sur la loi de Benford m’a fait un grand choc en réveillant une vieille lubie que je n’ai jamais pu mettre en pratique (pas le niveau en informatique, s’il y a des volontaires…) :
Si un script pouvait extraire facilement les nombres « utiles » (hors numéros de pages, appels à références…) d’un article à partir d’un pdf, il devrait être possible de tester si leurs chiffres suivent la loi de Benford (pas forcément les premiers chiffres, j’ai vu un article recommandant de tester plutôt les dernières chiffres http://www.tandfonline.com/doi/abs/10.1080/02664760601004940#.UpzSD-KDpNM). En entrant tous les papiers d’un auteur ou d’une équipe « suspects », on pourrait avoir de bons indices de fraude.
La difficulté est évidemment d’obtenir une extraction automatisée ou semi automatisée qui ne ramène pas trop de déchets (extraire manuellement les chiffres sur des centaines d’articles est efficace mais un peu fastidieux…).
Sinon le nombre de visites me parait dévier pas mal de la loi de Benford (1 et 2 sous représentés) mais je ne pense pas que l’on soit dans un cas ou elle s’applique.
Un grand bravo pour votre site en tout cas
Je ne suis pas certain qu’il y ait assez de données sur les articles publiés. 500 n’est pas suffisant. DataGenetics à utilisé un exemple avec 122000 données!
Lisez http://www.amazon.com/Deadly-Medicines-Organised-Crime-Healthcare/dp/1846198844/ref=sr_1_1?s=books&ie=UTF8&qid=1386185633&sr=1-1,
ensuite achetez une corde.
Marcia Angell et Kassirer, anciens rédacteurs en chef du New England J mEd ont raison , il faut se rendre à l’évidence. On ne peut plus croire ce qui est publié, parce que c’est publié et surtout dans les journaux huppés come l’ex-leur.
C’est bien pire que cette fraude là que la dure loi de Benford révèle. .