Un MOOC francophone: Virchow-Villerme/Fondamentaux en statistique

Je me suis inscrit au MOOC « Fondamentaux en statistique » de la plateforme FUN par curiosité, et je trouve l’expérience plutôt sympa. Les MOOC francophones se développent, j’avais déjà parlé de celui de la Lorraine University ici.

L’enseignant principal se nomme Avner Bar-Hen, et j’ai eu la très heureuse surprise d’échanger quelques tweets avec lui hier. Pour connaître la démarche ayant conduit à l’organisation de ce MOOC, je vous suggère ce lien.

La plateforme utilisée est une adaptation de celle de EdX, donc pas de mauvaise surprise. Certains devoirs doivent être déposés sur une plateforme externe, mais là-aussi, pas de souci particulier.

Les vidéos de cette première semaine sont claires nettes et précises.

J’ai été très surpris par le format très court des vidéos (autour de 8 minutes), alors que jusqu’à présent mes précédents MOOC m’avaient plutôt habitué à une durée de 15-30 minutes. Difficile de tirer une conclusion au bout de 6 vidéos, mais ce format ultra-court est pas mal et correspond bien à mon emploi du temps un peu trépidant.

Les quiz sont sympa, et l’exercice d’application m’a fait remettre le nez dans la syntaxe de R, que j’avais presque totalement oubliée après 2-3 semaines de non-utilisation.

Par contre, ce R, quel plaisir de sortir un graphique en boxplot avec une seule ligne de commande: boxplot().

Sur Excel, et bien, c’est tout simplement imbitable… L’exercice d’application m’a aussi fait découvrir la commande quantile().

Comme pour les MOOC que j’ai pu faire précédemment, il faut ne pas se laisser abuser par le « pas/peu de pré-requis ». ll faut avoir l’esprit curieux et savoir ouvrir un autre onglet pour aller chercher son bonheur sur Google. Différents fora de discussion et un wiki permettent et permettront à l’étudiant inscrit de se retrouver un peu si il est perdu.

Sinon, mon opinion des MOOC n’a pas tellement changé.

Les MOOC suivent clairement une courbe de type Technology Hype de Gartner.

Cette démarche est intéressante pour l’esprit curieux qui n’a pas besoin de diplôme, pour le reste (et l’avenir), Wait and See….

Pour conclure, j’aime beaucoup cette phrase de Avner Bar-Hen:

Les MOOCs : c’est une nouvelle ruée vers l’or, on se souviendra plus de la ruée que de l’or.

Ça, c’est chez nous…

Néanmoins, je ne suis pas certain que quelques universités américaines ne fassent pas quand même quelques dollars en vendant à plusieurs milliers d’étudiants avides de « diplômes » US des certificats « vérifiés ».

La preuve, le compte Instagram d’un statisticien américain de l’école bayésienne qui organise des MOOC, d’un cardiologue interventionnel du sud de la France, d’un baron de la drogue mexicain.

Un merveilleux exemple de Narcocorrido.

Mouhahahahahahahaha!

Statistics One: le bilan

Je viens de terminer l’examen final de Statistics One, un MOOC de Princeton sur les statistiques. J’ai déjà parlé plusieurs fois de ce MOOC, mais une petite synthèse me paraît utile.

Comme beaucoup de MOOC anglo-saxons, Statistics One est gratuit. Par contre, aucun certificat n’est délivré à son issue. Donc ceux qui en font la chasse doivent passer leur chemin. Les quiz et les deux examens ont d’ailleurs un nombre illimité d’essais (en fait 100…), ce qui permet, même simplement par déduction, de répondre correctement aux QCM.

La note n’a donc aucune importance. Ce n’était pas le cas pour le MOOC de Stanford, où j’ai bien plus transpiré pour un joli certificat. De ce point de vue, j’ai pris bien plus de plaisir à obtenir ce bout de papier car j’ai retrouvé mes sensations (ça fait très sportif, pour un homme de salon comme moi) d’étudiant avant un examen/concours.

Les cours de Princeton sont intuitifs et pédagogiques. Les TD sur R, après un début brutal, sont en fait assez intéressants et représentent un bon début d’initiation (je reste très modeste) à l’utilisation de ce logiciel qui est quand même diabolique, même pour des pros des statistiques. Je suis toujours impressionné de lire dans des articles de Significance que des auteurs ont transpiré à grosses gouttes pour sortir un graphique.

Le seul point noir de ce MOOC est un certain laxisme de la part de l’équipe enseignante qui transparaît notamment dans les quiz. Pas mal de quiz comportaient une erreur ou une difficulté stupide qui empêchait d’avoir la note maximale.

Imaginez la scène se répétant presque chaque semaine: le quiz est un prolongement du TP avec quelques questions théoriques, mais surtout des questions sur l’utilisation pratique d’une fonction de R. Vous faites tourner R (en copiant/collant le TP, ce qui évite pas mal de migraines) et vous obtenez un résultat numérique. Vous êtes contents, mais le quiz répond que le résultat est faux. Perplexité, on recommence, c’est encore faux… Vous vous jetez sur les fora: en fait, il ne faut pas répondre 0.68 mais .68 (à l’américaine). Bon, ça, ça va encore. Mais d’autres fois, vous vous rendez compte qu’il faut répondre la valeur de la médiane, alors que c’est la moyenne qui est demandée, ou un p issu d’un test de Tukey pour la population A, alors que c’est la population B qui est demandée…

La plupart du temps, ce n’est pas le staff qui corrige le problème, mais d’autres étudiants qui trouvent le truc.

C’est énervant, mais rien de bien terrible.

Revoir des notions de bases et manipuler des statistiques, surtout via R, qui est peu commode, a été pour moi une bonne expérience.

Ces statistiques sont finalement tombées à un moment parfait pour moi. Un changement professionnel a fait exploser mon nombre de soucis à gérer et s’effondrer mon temps d’esprit libre. Je n’ai pour l’instant pas de regrets, et j’ai trouvé dans les statistiques un dérivatif sur lequel me fixer, totalement différent de ce que je fais toute la journée.

L’an prochain, je ferai un autre MOOC de statistiques, pour me rafraîchir l’esprit. Je vous raconterai!

(J’ai aussi trouvé pour le printemps 2014 un MOOC qui me parle bien: Unethical Decision Making in Organizations de l’Université de Lausanne.) 

R for fun

Ce matin, c’était le Midterm Exam du MOOC de Princeton sur les statistiques. Pas de pression, le nombre de tentatives était illimité, et de toute façon, ce MOOC n’est pas sanctionné par un certificat.

En le faisant un peu en dilettante, j’ai eu 15/20 au premier essai. Si j’avais été plus attentif, j’aurais pu faire mieux. Mais c’est dire comme le niveau n’est pas trop élevé, car je suis loin d’être satisfait de mon niveau en statistiques.

Reste qu’au fil des semaines, je commence à apprécier ce satané R.

Hier je me suis amusé à faire une petite régression linéaire, simplement par plaisir.

J’ai repris les 12 auteurs de la recommandation sur la fibrillation auriculaire du sujet âgé et je me suis demandé si le nombre de liens d’intérêts était corrélé à la productivité scientifique de ces experts.

On dit bien que l’industrie n’engage que les meilleurs, et donc que les meilleurs ne peuvent qu’avoir des liens d’intérêts. Sous-entendu, ceux qui n’ont pas de liens d’intérêt ne sont pas bons.   

J’ai donc compté le nombre de liens d’intérêts des 12 experts et regardé sur PubMed le nombre d’articles dans lesquels ils apparaissent comme auteurs.

Je voulais voir si les deux étaient corrélés.

Comme je suis une bille, j’ai recueilli mes données sur Excel, et je les ai enregistrées en format texte avec séparation des champs par tabulation:

data J’ai ouvert RStudio et téléchargé mon fichier texte (nommé COI).

Les lignes de commande sont en bleu.

D’abord quelques statistiques descriptives:

describeLe nombre moyen de liens d’intérêts est de 6 (5.67) par auteur, le nombre moyen d’articles publiés est de 163 (163.33).

Et si on faisait maintenant une petite régression linéaire?

lm1Le coefficient de régression est de 12.245. Mais ce modèle n’est pas statistiquement significatif (p=0.166). Le nombre de liens n’explique que 18.28% de la variance du nombre de publications.

On peut aussi rechercher l’intervalle de confiance du coefficient de régression:

lm3Il englobe 0 (-6 à 30), ce qui est attendu, étant donné l’absence de significativité du modèle.

Qu’est-ce ça donne en graphique?

Avec son intervalle de confiance?

(woohoooo!):

lm2

lmgraphJoli, non?

On peut aussi normaliser et centrer la régression (scores z):

lm4Le coefficient de régression est maintenant de 0.4275.

Et, si on demandait à R de calculer le coefficient de corrélation?

corrIl est de…0.427.

CQFD

Dans une régression linéaire simple, le coefficient de corrélation est égal au coefficient de régression normalisé.

Mouhahahahahahaha, je fais le singe savant!

C’est grave Docteur?

Vivent les MOOC!

°0°0°0°0°0°0°0°0°0°0°0°0°0°0°0°0°0°

J’ai fait la même chose avec les quelques 60 auteurs de la recommandation de l’ESC 2013 sur l’HTA.

On ne peut pas trouver plus de liens d’intérêts que chez les hypertensiologues, non?

COIMalgré cela, là aussi, aucune corrélation entre le nombre de liens d’intérêts et le nombres de publications…

(Comme j’ai été assez stupide pour balancer mes données et que j’ai aucune envie de recommencer, il va falloir que vous me fassiez confiance…)