R for fun

Ce matin, c’était le Midterm Exam du MOOC de Princeton sur les statistiques. Pas de pression, le nombre de tentatives était illimité, et de toute façon, ce MOOC n’est pas sanctionné par un certificat.

En le faisant un peu en dilettante, j’ai eu 15/20 au premier essai. Si j’avais été plus attentif, j’aurais pu faire mieux. Mais c’est dire comme le niveau n’est pas trop élevé, car je suis loin d’être satisfait de mon niveau en statistiques.

Reste qu’au fil des semaines, je commence à apprécier ce satané R.

Hier je me suis amusé à faire une petite régression linéaire, simplement par plaisir.

J’ai repris les 12 auteurs de la recommandation sur la fibrillation auriculaire du sujet âgé et je me suis demandé si le nombre de liens d’intérêts était corrélé à la productivité scientifique de ces experts.

On dit bien que l’industrie n’engage que les meilleurs, et donc que les meilleurs ne peuvent qu’avoir des liens d’intérêts. Sous-entendu, ceux qui n’ont pas de liens d’intérêt ne sont pas bons.   

J’ai donc compté le nombre de liens d’intérêts des 12 experts et regardé sur PubMed le nombre d’articles dans lesquels ils apparaissent comme auteurs.

Je voulais voir si les deux étaient corrélés.

Comme je suis une bille, j’ai recueilli mes données sur Excel, et je les ai enregistrées en format texte avec séparation des champs par tabulation:

data J’ai ouvert RStudio et téléchargé mon fichier texte (nommé COI).

Les lignes de commande sont en bleu.

D’abord quelques statistiques descriptives:

describeLe nombre moyen de liens d’intérêts est de 6 (5.67) par auteur, le nombre moyen d’articles publiés est de 163 (163.33).

Et si on faisait maintenant une petite régression linéaire?

lm1Le coefficient de régression est de 12.245. Mais ce modèle n’est pas statistiquement significatif (p=0.166). Le nombre de liens n’explique que 18.28% de la variance du nombre de publications.

On peut aussi rechercher l’intervalle de confiance du coefficient de régression:

lm3Il englobe 0 (-6 à 30), ce qui est attendu, étant donné l’absence de significativité du modèle.

Qu’est-ce ça donne en graphique?

Avec son intervalle de confiance?

(woohoooo!):

lm2

lmgraphJoli, non?

On peut aussi normaliser et centrer la régression (scores z):

lm4Le coefficient de régression est maintenant de 0.4275.

Et, si on demandait à R de calculer le coefficient de corrélation?

corrIl est de…0.427.

CQFD

Dans une régression linéaire simple, le coefficient de corrélation est égal au coefficient de régression normalisé.

Mouhahahahahahaha, je fais le singe savant!

C’est grave Docteur?

Vivent les MOOC!

°0°0°0°0°0°0°0°0°0°0°0°0°0°0°0°0°0°

J’ai fait la même chose avec les quelques 60 auteurs de la recommandation de l’ESC 2013 sur l’HTA.

On ne peut pas trouver plus de liens d’intérêts que chez les hypertensiologues, non?

COIMalgré cela, là aussi, aucune corrélation entre le nombre de liens d’intérêts et le nombres de publications…

(Comme j’ai été assez stupide pour balancer mes données et que j’ai aucune envie de recommencer, il va falloir que vous me fassiez confiance…)