La loi de Benford

Je remonte donc doucement mais surement le cours des articles de Significance.

J’ai encore du travail, J’ai lu 2013-2012, il me reste encore 2011-2004…

En décembre 2011, Christopher Weir et Gordon Murray (que je ne connais ne d’Adam ni d’Ève) ont fait publier un excellent petit article: Fraud in clinical trials. Les deux auteurs jouent pour nous aux statisticiens Sherlock Holmes, afin de dépister les fraudes dans les essais cliniques.

L’analyse de la masse considérable de données issues d’un essai clinique (si il est de taille respectable) va permettre d’en déterminer la tendance centrale, la variance, et ainsi de repérer les données aberrantes. De même, des données trop normales doivent éveiller la suspicion. Les auteurs donnent ainsi l’exemple d’un suivi clinique qui aurait lieu tous les lundis de la semaine durant 6 mois. Les aléas de la vie, les vacances… rendent peu probable que chaque patient d’un centre puisse se rendre au jour dit donner leurs données😉 de façon métronomique. Idem si les intervalles de visites sont invariants.

Les auteurs donnent une foule de petits indices permettant de repérer une fraude.

L’article est excellent, surtout si vous avez déjà participé à un gros essai multi-centrique avec une ARC tatillonne sur les talons (la mienne était biélorusse), et d’interminables séries de données aberrantes (pour le clinicien) à collecter (par exemple, la température d’un frigo neuf, régulier et exact comme une fréquence de quartz, où étaient entreposés les médicaments de l’essai).

Vous voyez ce que je veux dire…

L’article touche au sublime, pour un béotien comme moi, quand il me fait découvrir l’extraordinaire loi de Benford, qui peut permettre de suspecter que des données aient été inventées.

Un chercheur (non statisticien) qui souhaite inventer une donnée, quelle qu’elle soit, va inscrire des nombres « au hasard » dans les petites cases. Ce « hasard » signifie implicitement que chaque nombre de 1 à 9 à la même probabilité probabilité qu’un autre (1/9 ou 11.1.%) d’avoir sa place en première position, en seconde position… de la donnée.

Ben, en fait non!

Le 1 a 30.1% d’apparaître en premier, le 2 17.6%, le 3, 12.5%. Après le troisième chiffre, les probabilités ont tendance à s’égaliser…

Pour en savoir plus sur la loi de Benford:

Moi aussi, j’ai voulu jouer…

Mais je n’ai pas de données en grand nombre à la maison.

J’ai quand même deux bases de ma vraie vie pas trop petites: le nombre de visites sur 499 de mes billets les plus lus et le nombre de visiteurs amenés par mes 424 plus importants adresseurs.

(Merci WordPress pour ces statistiques…)

Si je prends chacun des premiers chiffres du nombre de visites de mes 499 billets les plus lus, j’obtiens la distribution suivante:

billetsbilletspcentPareil pour les adresseurs:

adradrpcentÇa colle pas trop mal à la loi de Benford, étant donné la petite taille de mes séries, non ?

Auteur : Jean-Marie Vailloud

Cardiologue de formation, je suis aussi l'administrateur du blog Grange Blanche.

8 thoughts on “La loi de Benford”

  1. Bonjour,
    Ayant participé à des essais cliniques nationaux et internationaux, ayant constaté des fraudes manifestes que le labo ne souhaitait pas divulguer car les essais cliniques font partie du mix marketing des produits, nous disions toujours aux ARC ou aux CRA que le seul point important était de savoir si le patient existait.

  2. Désolée, les statistiques, c’est pas mon truc.
    Par contre, j’aime bien le « nouveau décor » du blog. L’ancienne version était sympa aussi.
    Au fait, à qui appartient le visage, peint à l’huile ?

  3. Bonjour,
    Inconditionnel de votre site depuis que je l’ai découvert, votre billet sur la loi de Benford m’a fait un grand choc en réveillant une vieille lubie que je n’ai jamais pu mettre en pratique (pas le niveau en informatique, s’il y a des volontaires…) :
    Si un script pouvait extraire facilement les nombres « utiles » (hors numéros de pages, appels à références…) d’un article à partir d’un pdf, il devrait être possible de tester si leurs chiffres suivent la loi de Benford (pas forcément les premiers chiffres, j’ai vu un article recommandant de tester plutôt les dernières chiffres http://www.tandfonline.com/doi/abs/10.1080/02664760601004940#.UpzSD-KDpNM). En entrant tous les papiers d’un auteur ou d’une équipe « suspects », on pourrait avoir de bons indices de fraude.
    La difficulté est évidemment d’obtenir une extraction automatisée ou semi automatisée qui ne ramène pas trop de déchets (extraire manuellement les chiffres sur des centaines d’articles est efficace mais un peu fastidieux…).
    Sinon le nombre de visites me parait dévier pas mal de la loi de Benford (1 et 2 sous représentés) mais je ne pense pas que l’on soit dans un cas ou elle s’applique.
    Un grand bravo pour votre site en tout cas

  4. Lisez http://www.amazon.com/Deadly-Medicines-Organised-Crime-Healthcare/dp/1846198844/ref=sr_1_1?s=books&ie=UTF8&qid=1386185633&sr=1-1,
    ensuite achetez une corde.
    Marcia Angell et Kassirer, anciens rédacteurs en chef du New England J mEd ont raison , il faut se rendre à l’évidence. On ne peut plus croire ce qui est publié, parce que c’est publié et surtout dans les journaux huppés come l’ex-leur.
    C’est bien pire que cette fraude là que la dure loi de Benford révèle. .

Laissez une réponse

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s