La loi de Benford

Je remonte donc doucement mais surement le cours des articles de Significance.

J’ai encore du travail, J’ai lu 2013-2012, il me reste encore 2011-2004…

En décembre 2011, Christopher Weir et Gordon Murray (que je ne connais ne d’Adam ni d’Ève) ont fait publier un excellent petit article: Fraud in clinical trials. Les deux auteurs jouent pour nous aux statisticiens Sherlock Holmes, afin de dépister les fraudes dans les essais cliniques.

L’analyse de la masse considérable de données issues d’un essai clinique (si il est de taille respectable) va permettre d’en déterminer la tendance centrale, la variance, et ainsi de repérer les données aberrantes. De même, des données trop normales doivent éveiller la suspicion. Les auteurs donnent ainsi l’exemple d’un suivi clinique qui aurait lieu tous les lundis de la semaine durant 6 mois. Les aléas de la vie, les vacances… rendent peu probable que chaque patient d’un centre puisse se rendre au jour dit donner leurs données 😉 de façon métronomique. Idem si les intervalles de visites sont invariants.

Les auteurs donnent une foule de petits indices permettant de repérer une fraude.

L’article est excellent, surtout si vous avez déjà participé à un gros essai multi-centrique avec une ARC tatillonne sur les talons (la mienne était biélorusse), et d’interminables séries de données aberrantes (pour le clinicien) à collecter (par exemple, la température d’un frigo neuf, régulier et exact comme une fréquence de quartz, où étaient entreposés les médicaments de l’essai).

Vous voyez ce que je veux dire…

L’article touche au sublime, pour un béotien comme moi, quand il me fait découvrir l’extraordinaire loi de Benford, qui peut permettre de suspecter que des données aient été inventées.

Un chercheur (non statisticien) qui souhaite inventer une donnée, quelle qu’elle soit, va inscrire des nombres « au hasard » dans les petites cases. Ce « hasard » signifie implicitement que chaque nombre de 1 à 9 à la même probabilité probabilité qu’un autre (1/9 ou 11.1.%) d’avoir sa place en première position, en seconde position… de la donnée.

Ben, en fait non!

Le 1 a 30.1% d’apparaître en premier, le 2 17.6%, le 3, 12.5%. Après le troisième chiffre, les probabilités ont tendance à s’égaliser…

Pour en savoir plus sur la loi de Benford:

Moi aussi, j’ai voulu jouer…

Mais je n’ai pas de données en grand nombre à la maison.

J’ai quand même deux bases de ma vraie vie pas trop petites: le nombre de visites sur 499 de mes billets les plus lus et le nombre de visiteurs amenés par mes 424 plus importants adresseurs.

(Merci WordPress pour ces statistiques…)

Si je prends chacun des premiers chiffres du nombre de visites de mes 499 billets les plus lus, j’obtiens la distribution suivante:

billetsbilletspcentPareil pour les adresseurs:

adradrpcentÇa colle pas trop mal à la loi de Benford, étant donné la petite taille de mes séries, non ?

Significance

@PotardDechaine m’a fait découvrir la revue Significance, qui est publiée sous l’égide de la Royal Statistical Society et l’American Statistical Association.

Vous allez dire, encore des statistiques…

Les MOOC, R, même dans mon travail, je suis un peu monothématique en ce moment.

Et bien, ça change de la cardio!

Et puis Significance est une revue tout à fait surprenante.

Les articles ne comportent quasiment pas de formules mathématiques ou de notions statistiques compliquées (en tout cas à mon tout petit niveau). Significance est une revue de statistiques appliquées, et c’est cela qui en fait son intérêt.  Chaque numéro explore du point de vue du statisticien (amateur ou professionnel) une foultitude de sujets: économie, médecine, écologie, archéologie, sport, actualités, sujet sociaux, cuisine…

Imaginez une revue de presse à la fois généraliste et spécialisée, écrite par des gens qui savent ce qu’est une statistique, et comment l’interpréter. Au début, je ne lisais que les articles qui pouvaient m’intéresser a priori. Puis j’ai découvert des choses intéressantes, même sur des sujets qui me paraissent totalement baroques, par exemple le lien entre les blaireaux britannique et la tuberculose bovine!

J’ai twitté quelques extraits d’articles, en voici trois pour vous illustrer la variété des sujets abordés:

export

MISTTeaCe qui me plait beaucoup, aussi, est l’écriture très très britannique de ces articles, les sujets, donc, mais aussi dans la façon d’écrire qui est pleine d’humour pince sans rire.

Si je vous ai donné envie d’aller découvrir cette revue pas comme les autres, jusqu’au 31 décembre, sur simple inscription, tous les numéros de 2013 sont gratuits sur tablettes.

(J’oubliais, il y a aussi un blog avec des articles en accès libre.)

R for fun

Ce matin, c’était le Midterm Exam du MOOC de Princeton sur les statistiques. Pas de pression, le nombre de tentatives était illimité, et de toute façon, ce MOOC n’est pas sanctionné par un certificat.

En le faisant un peu en dilettante, j’ai eu 15/20 au premier essai. Si j’avais été plus attentif, j’aurais pu faire mieux. Mais c’est dire comme le niveau n’est pas trop élevé, car je suis loin d’être satisfait de mon niveau en statistiques.

Reste qu’au fil des semaines, je commence à apprécier ce satané R.

Hier je me suis amusé à faire une petite régression linéaire, simplement par plaisir.

J’ai repris les 12 auteurs de la recommandation sur la fibrillation auriculaire du sujet âgé et je me suis demandé si le nombre de liens d’intérêts était corrélé à la productivité scientifique de ces experts.

On dit bien que l’industrie n’engage que les meilleurs, et donc que les meilleurs ne peuvent qu’avoir des liens d’intérêts. Sous-entendu, ceux qui n’ont pas de liens d’intérêt ne sont pas bons.   

J’ai donc compté le nombre de liens d’intérêts des 12 experts et regardé sur PubMed le nombre d’articles dans lesquels ils apparaissent comme auteurs.

Je voulais voir si les deux étaient corrélés.

Comme je suis une bille, j’ai recueilli mes données sur Excel, et je les ai enregistrées en format texte avec séparation des champs par tabulation:

data J’ai ouvert RStudio et téléchargé mon fichier texte (nommé COI).

Les lignes de commande sont en bleu.

D’abord quelques statistiques descriptives:

describeLe nombre moyen de liens d’intérêts est de 6 (5.67) par auteur, le nombre moyen d’articles publiés est de 163 (163.33).

Et si on faisait maintenant une petite régression linéaire?

lm1Le coefficient de régression est de 12.245. Mais ce modèle n’est pas statistiquement significatif (p=0.166). Le nombre de liens n’explique que 18.28% de la variance du nombre de publications.

On peut aussi rechercher l’intervalle de confiance du coefficient de régression:

lm3Il englobe 0 (-6 à 30), ce qui est attendu, étant donné l’absence de significativité du modèle.

Qu’est-ce ça donne en graphique?

Avec son intervalle de confiance?

(woohoooo!):

lm2

lmgraphJoli, non?

On peut aussi normaliser et centrer la régression (scores z):

lm4Le coefficient de régression est maintenant de 0.4275.

Et, si on demandait à R de calculer le coefficient de corrélation?

corrIl est de…0.427.

CQFD

Dans une régression linéaire simple, le coefficient de corrélation est égal au coefficient de régression normalisé.

Mouhahahahahahaha, je fais le singe savant!

C’est grave Docteur?

Vivent les MOOC!

°0°0°0°0°0°0°0°0°0°0°0°0°0°0°0°0°0°

J’ai fait la même chose avec les quelques 60 auteurs de la recommandation de l’ESC 2013 sur l’HTA.

On ne peut pas trouver plus de liens d’intérêts que chez les hypertensiologues, non?

COIMalgré cela, là aussi, aucune corrélation entre le nombre de liens d’intérêts et le nombres de publications…

(Comme j’ai été assez stupide pour balancer mes données et que j’ai aucune envie de recommencer, il va falloir que vous me fassiez confiance…)

Daft Punk ft. Panda Bear – Doin’ It Right

La vie est pleine de connexions, de choses qui rentrent en résonance.

Un objet, et une histoire m’ont marqué aujourd’hui.

Un objet commun avec quelqu’un, à la fois fascinant et inquiétant, avec qui je n’avais justement rien de commun. Un objet, des ressentis communs, un bref instant de communion dont il restera nécessairement quelque chose.

Une histoire commune avec un patient. Autres âges, autres lieux, mais la même histoire, à un objet près, toujours le même. Très impressionnant d’entendre raconter sa vie par quelqu’un d’autre. Je crois que le patient a été aussi impressionné que moi.

Je commence à croire, comme Michel Tournier, que tout est lié, tout se réplique.

De façon statistiquement significative ? (merci @PotardDechaine)

If statistical significance is all you want, just increase your sample size.