Le grand chemin

Mon Nord-Isère n’a effectivement pas grand chose d’attrayant. Coincé entre une petite ville médiévale et la lourde présence d’une centrale nucléaire, se déroule un paysage de champs caillouteux, de marais, de haies de muriers morts, de villages de pierres mités par des constructions en agglomérés sous un ciel souvent bas. Mais c’est chez moi, ce sont mes racines. Je me suis rendu compte à quel point j’aimais cette région en la quittant puis en y revenant.

vélosMon enfance est constellée d’échappées belles en vélo le long de chemins dont je frissonnais de ne pas voir la fin. Les bords du Rhône, pourtant pas si loin de la maison, étaient mon horizon. Je testais l’horizon. Jusqu’à où aller?

acaciasMaintenant, j’emmène mes fils sur les chemins de mon enfance. La ballade des bords du Rhône est devenue commune. Commune en terme de fréquence, pas en terme d’expérience, car elle restera toujours magique pour moi. La nature est belle, notamment en cette saison. la nature est toujours belle, c’est un truisme. Mais les constructions des hommes sont belles aussi: tel mur de pierres dorées, telle petite chapelle, telle source, tel palis…

splashIl faut savoir se concentrer sur les détails. Élargir l’horizon n’apporte souvent  qu’inquiétude, ça marche aussi bien pour les enfants que pour les adultes. Au delà de la source, la centrale nucléaire, au delà des murs dorés les murs gris et sales en agglos, au delà des bords de la source, de gros tuyaux en PVC, des sacs en plastique ça et là… Je ne vais pas faire le coup du c’était mieux avant. Dans les années 80-90, c’était pareil, voire même pire.

cheminLe chemin n’est pas idéal, il n’est pas coupé du temps qui passe. Mais il me permet d’aller et venir entre mon enfance et celle de mes garçons.

Le problème du char d’assaut allemand

Ce titre de note est tout à fait digne des Monty Python. C’est aussi un problème statistique (je sais, je suis un peu monomaniaque en ce moment…) assez rigolo.

Imaginons qu’une guerre moderne oppose, disons les bleus contre les rouges. Les rouges planifient une attaque massive qui va reposer essentiellement sur l’utilisation de blindés, mais ils savent que les bleus ont mis en production depuis quelques mois un char d’assaut qui surpasse tous les leurs.

Le point crucial, pour les rouges, est de savoir combien les bleus pourront aligner de ces chars de nouvelle génération lors de cette attaque.

Problème, de nombreux espions Bothan sont morts sans pouvoir ramener cette information.

Les espions rouges connaissent néanmoins la date de début de leur production, et aussi savent que chaque char d’assaut possède un numéro de série unique qui s’incrémente de 1 à chaque char produit: par exemple 1, 2, 3, ….

Les rouges ont réussi à capturer (« aléatoirement ») 5 chars plus ou moins intacts, avec 5 numéros de série. Par exemple 5, 48, 69, 110, et 16.

Pouvons-nous en déduire le nombre total de chars de nouvelle génération produits par les bleus, et ainsi leur production mensuelle?

Et bien, comme vous pouvez vous en douter, on peut estimer ce chiffre (avec une marge d’erreur potentiellement très raisonnable).

La formule à utiliser est même remarquablement simple:

n=m(1 + (1/k)) – 1

n est l’estimation du nombre de chars produits, k le nombre d’exemplaires capturés, et m le numéro de série le plus élevé observé sur ces exemplaires.

Dans notre cas, n=110(1+(1/5))-1 soit 131 blindés. Si la production a commencé il y a 2 mois, les bleus produisent donc environ 65 blindés par mois.

Bon, arrivés à ce point, vous devez vous dire que c’est n’importe quoi, que vous ayez ou pas des connaissances en statistiques, car ce chiffre est invérifiable.

(Ceux qui connaissent les statistiques peuvent me jeter des pierres, je ne fais pas bien mieux qu’un singe savant).

C’est là que cette histoire peut devenir drôle.

Imaginons que les bleus aient produit effectivement 342 chars. Imaginons que les rouges aient été un peu meilleurs, et qu’ils aient capturé 25 chars (plus l’échantillon capturé est important, meilleure est la précision).

Je vais demander à R de me donner 25 numéros de série aléatoires, parmi une population en comprenant 342.

En langage R, ça donne cela:

R GTP1Les lignes 1 et 2 permettent de créer une population pop de 342 numéros de série qui se suivent.

La ligne 3 permet d’extraire de pop un échantillon x de 25 numéros, que voici:

R GTP2Les lignes 4 et 5 définissent m et k.

Les deux dernières définissent n (est.n) qui est ici de…337.

Pas mal, non?

(pour ceux qui dorment, la bonne réponse est 342.)

Ok, vous ne me croyez toujours pas?

Je vais demander à R de créer 10.000 échantillons aléatoires x de 25 numéros tirés de pop (pop=342, k=25):

R GTP3

R GTP4La moyenne observée des populations prédites sur ces 10.000 échantillons est de… 342.07.

😉

Un petit coup de hist(sim.est.n) pour avoir un histogramme:

Rplot01(L’histogramme est pourri mais je suis incapable de configurer R pour le rendre acceptable.)

On peut aussi voir que la formule du problème du char d’assaut allemand (ce n’est pas son vrai nom, mais vous verrez à la fin pourquoi le char est allemand, et pas bleu) peut donner une approximation raisonnable de la population de pop en considérant la corrélation entre des populations pop et ces mêmes populations estimées par la formule, sur de nombreux essais.

Pour avoir une plus jolie corrélation, j’ai utilisé les paramètres suivants: k=25, pop autour de 100 et 1000 essais:

Rplot02Joli, non?

Pour en savoir plus sur le problème du char allemand (et pourquoi ce nom):

  • Le site d’ où j’ai tiré les codes de R.
  • Randall Munroe (xkcd) fait allusion succinctement à ce problème dans cette note.

Statistics One: le bilan

Je viens de terminer l’examen final de Statistics One, un MOOC de Princeton sur les statistiques. J’ai déjà parlé plusieurs fois de ce MOOC, mais une petite synthèse me paraît utile.

Comme beaucoup de MOOC anglo-saxons, Statistics One est gratuit. Par contre, aucun certificat n’est délivré à son issue. Donc ceux qui en font la chasse doivent passer leur chemin. Les quiz et les deux examens ont d’ailleurs un nombre illimité d’essais (en fait 100…), ce qui permet, même simplement par déduction, de répondre correctement aux QCM.

La note n’a donc aucune importance. Ce n’était pas le cas pour le MOOC de Stanford, où j’ai bien plus transpiré pour un joli certificat. De ce point de vue, j’ai pris bien plus de plaisir à obtenir ce bout de papier car j’ai retrouvé mes sensations (ça fait très sportif, pour un homme de salon comme moi) d’étudiant avant un examen/concours.

Les cours de Princeton sont intuitifs et pédagogiques. Les TD sur R, après un début brutal, sont en fait assez intéressants et représentent un bon début d’initiation (je reste très modeste) à l’utilisation de ce logiciel qui est quand même diabolique, même pour des pros des statistiques. Je suis toujours impressionné de lire dans des articles de Significance que des auteurs ont transpiré à grosses gouttes pour sortir un graphique.

Le seul point noir de ce MOOC est un certain laxisme de la part de l’équipe enseignante qui transparaît notamment dans les quiz. Pas mal de quiz comportaient une erreur ou une difficulté stupide qui empêchait d’avoir la note maximale.

Imaginez la scène se répétant presque chaque semaine: le quiz est un prolongement du TP avec quelques questions théoriques, mais surtout des questions sur l’utilisation pratique d’une fonction de R. Vous faites tourner R (en copiant/collant le TP, ce qui évite pas mal de migraines) et vous obtenez un résultat numérique. Vous êtes contents, mais le quiz répond que le résultat est faux. Perplexité, on recommence, c’est encore faux… Vous vous jetez sur les fora: en fait, il ne faut pas répondre 0.68 mais .68 (à l’américaine). Bon, ça, ça va encore. Mais d’autres fois, vous vous rendez compte qu’il faut répondre la valeur de la médiane, alors que c’est la moyenne qui est demandée, ou un p issu d’un test de Tukey pour la population A, alors que c’est la population B qui est demandée…

La plupart du temps, ce n’est pas le staff qui corrige le problème, mais d’autres étudiants qui trouvent le truc.

C’est énervant, mais rien de bien terrible.

Revoir des notions de bases et manipuler des statistiques, surtout via R, qui est peu commode, a été pour moi une bonne expérience.

Ces statistiques sont finalement tombées à un moment parfait pour moi. Un changement professionnel a fait exploser mon nombre de soucis à gérer et s’effondrer mon temps d’esprit libre. Je n’ai pour l’instant pas de regrets, et j’ai trouvé dans les statistiques un dérivatif sur lequel me fixer, totalement différent de ce que je fais toute la journée.

L’an prochain, je ferai un autre MOOC de statistiques, pour me rafraîchir l’esprit. Je vous raconterai!

(J’ai aussi trouvé pour le printemps 2014 un MOOC qui me parle bien: Unethical Decision Making in Organizations de l’Université de Lausanne.) 

%d blogueurs aiment cette page :