4.5 Pour aller plus loin
L’histoire des statistiques prend racine au XVIIe siècle avec le « Down Survey » de William Petty. Cette étude cadastrale de l’Irlande, menée en 1655-1656, visait à faciliter la redistribution précise des terres irlandaises confisquées par les Anglais. Le nom « Down Survey » aurait été choisi par Petty soit parce que les résultats étaient reportés sur des cartes, soit en référence à la chaîne d’arpenteur qui devait être « posée » (down) lors des mesures. À l’époque, ce travail représentait l’une des cartographies les plus précises et constituait la première étude topographique impériale britannique d’un territoire conquis entier. (Wikipedia)
Cet exemple fondateur illustre parfaitement la naissance des statistiques: un outil développé pour répondre aux besoins de l’État de collecter des données afin d’administrer population et économie. Cette dimension est reflétée dans l’étymologie même du mot « statistique », issu du latin
« statisticum » (affaires d’État), terme introduit en allemand par Gottfried Achenwall sous la forme
« Statistik ». Au cours du XIXe siècle, ces méthodes se sont diversifiées et ont été appliquées à de nombreux domaines, élargissant considérablement leur champ d’application. (Vogt & Osipenko)
La compréhension statistique s’est développée progressivement. La théorie des probabilités fut d’abord explorée par Christiaan Huygens en 1657, suivie par la théorie des erreurs de Roger Cotes en 1722 (publiée à titre posthume). Des avancées majeures furent réalisées par de nombreux savants, notamment Jakob Bernoulli, Abraham de Moivre, Thomas Simpson et Pierre-Simon Laplace, aboutissant aux axiomes de probabilité d’Andreï Kolmogorov au XXe siècle.
Florence Nightingale, célèbre sous le surnom de « Dame à la lampe », était bien plus qu’une simple infirmière. Mathématicienne et statisticienne de talent, elle fut également une véritable précurseure dans les domaines de la data science et de la visualisation de données.
Née le 12 mai 1820 dans une famille aisée, Florence reçut une éducation soignée supervisée par son père. Celui-ci lui enseigna non seulement les matières appropriées pour les femmes victoriennes, telles que le dessin et les travaux d’aiguille, mais aussi des matières académiques traditionnelles. Dès son plus jeune âge, Florence manifesta une passion exceptionnelle pour l’apprentissage.
Son intérêt précoce pour les statistiques transparaît dans une lettre adressée à sa grand-mère, où la jeune Florence énumérait méticuleusement les animaux observés lors de ses visites à la Société zoologique, démontrant déjà son goût pour la collecte et l’organisation des données :
Chère grand-mère. Le bébé est joli. Je suis allé deux fois à la Société zoologique. Il y a 2 léopards, 2 ours, 2 perroquets, 2 émeus (qui sont de très gros oiseaux). 2 lapins. 1 lion,2 cacatoès, 3 écureuils, 4 kangourous, 6 singes (3 dans une cage, 3 enchaînés à un poteau avec une petite maison au sommet). 1 ratel,(une créature très féroce). plusieurs chiens esquimaux, le chien esquimau du capitaine Parry, 1 cochon d’Inde, 1 Costi Monti, 3 lamas, (1brun, 1 blanc et un petit brun), et d’autres créatures dont j’ai oublié le nom.1
Bien qu’elle excellât dans toutes les matières, sa véritable passion demeurait les mathématiques. Sa sœur Parthenope témoigna de cette dévotion en écrivant: (Bostridge, 2008) :
Florence s’est mise aux mathématiques – et comme pour tout ce qu’elle entreprend, elle s’y plonge à fond et travaille dur.
Refusant le destin conventionnel d’une femme au foyer, Nightingale aspira à exercer une profession liée aux statistiques. Pour contourner les restrictions imposées aux femmes de son époque, elle choisit d’étudier les sciences infirmières en Allemagne, l’une des rares voies professionnelles acceptables pour les femmes. Lorsque la guerre de Crimée éclata en 1853, elle saisit l’opportunité de mettre ses compétences en pratique et partit comme infirmière militaire un an plus tard.
Pendant ses deux années en Crimée, Nightingale entreprit une transformation radicale des hôpitaux militaires tout en supervisant le travail de la Commission royale sur l’état sanitaire de l’armée. Collaborant étroitement avec plusieurs statisticiens, elle rédigea de nombreux rapports et articles. C’est durant cette période qu’elle gagna son célèbre surnom lorsque le Times rapporta qu’elle parcourait les salles la nuit, une lampe à la main, pour veiller sur les blessés.
Sa mission principale était de mettre en lumière les conditions déplorables des soldats et les défaillances dans l’organisation des statistiques militaires. Nightingale collecta rigoureusement les données pertinentes, les interpréta avec précision et développa des visualisations innovantes pour communiquer efficacement ses conclusions.
Les diagrammes sont d’une grande utilité pour comprendre certaines questions de statistiques vitales.
Source: Source: (Bradshaw, 2017)
Ses diagrammes révélèrent l’effroyable mortalité au sein de l’armée britannique, identifiant comme causes principales la surpopulation, la mauvaise ventilation et l’insalubrité des casernes. Pour démontrer à quel point les casernes sont surpeuplées, Nightingale crée la visualisation suivante.
Source: Source: (Bradshaw, 2017)
Face aux statistiques médicales chaotiques de l’armée anglaise, qu’elle décrivait comme étant « en grande confusion », Nightingale plaida inlassablement pour :
- L’utilisation correcte des données
- La nécessité de rapporter précisément les informations
- La collecte uniforme des statistiques hospitalières
Grâce à sa persévérance, les statistiques médicales de l’armée furent finalement réorganisées et une filière statistique du corps médical fut établie.
Florence Nightingale demeure une figure visionnaire dont l’impact sur la réforme hospitalière et les systèmes de santé fut considérable. Son approche pionnière, utilisant des diagrammes pour raconter des histoires basées sur les données, était révolutionnaire à son époque, particulièrement pour une femme. Par sa maîtrise des visualisations et son analyse rigoureuse des données, elle peut légitimement être considérée comme l’une des premières femmes à exercer ce que nous appelons aujourd’hui la science des données, posant ainsi les fondements d’une discipline désormais essentielle.
Pour les lecteurs intéressés, nous réfèrons à l’intéressante conférence de Sarah Hart, The Mathematical Life of Florence Nightingale :
1 Dear Grandmama. The baby is pretty. I have been to the Zoological Society twice. There are 2 leopards, 2 bears, 2 parrots, 2 emeus (which are very large birds), 2 rabbits. 1 lion, 2 cockaatoos, 3 squirrells, 4 kanguroos, 6 monkies, (3 in a cage, 3 chained to a pole with a little house at the top). 1 rattel, (a very fierce creature), several Esquimaux dogs, Captain’s Parry’s Esquimaux dog, 1 guinea pig, 1 Costi Monti, 3 lamas, (1brown one, 1 white one, & a small brown one), & other creatures that I forget the name of.
Naviguer dans l’univers des statistiques peut s’avérer complexe, notamment lorsque des données chiffrées sont présentées dans les domaines médiatiques, politiques, économiques ou sanitaires, créant parfois des situations paradoxales. Il est essentiel d’examiner attentivement ces données pour éviter toute interprétation erronée. Dans la vidéo de VideoDiMath ci-dessous, Élise Janvresse nous guide à travers ce dédale statistique en s’appuyant sur des exemples concrets et des paradoxes célèbres.
La vidéo suivante, plus concise, produite par Lucie Zeches et Jean-Paul Bertemes pour la série Ziel mer keng du site science.lu, nous éclaire sur les erreurs statistiques courantes que nous rencontrons au quotidien.
L’équipe MIDAS (Modelling, Interdisciplinary research, Data science, Applied mathematics and Statistics) de l’Université du Luxembourg autour du Professeur Christophe Ley ont pour objectif de développer des procédures statistiques et d’apprentissage automatique innovantes basées sur de nouveaux outils mathématiques et informatiques pour relever les défis posés par les ensembles de données de plus en plus complexes et volumineux de nos jours.
Selon la légende, le roi MIDAS est mort parce que tout ce qu’il touchait se transformait en or, et par conséquent il ne pouvait plus ni manger ni boire. Avec les données, la même chose peut se produire : avoir des tonnes de données peut sembler génial à première vue (comme la capacité du roi Midas), mais si vous ne savez pas quoi en faire, elles vous induiront en erreur ou vous ne pourrez tout simplement rien en faire. L’équipe MIDAS souhaite précisément fournir et expliquer des méthodes qui empêchent de finir avec des données comme le roi Midas.1
Un des thèmes phares de l’équipe MIDAS sont les analyses sportives (sports analytics). Les analyses sportives sont des recueils de statistiques historiques pertinentes qui peuvent procurer un avantage concurrentiel à une équipe ou à un individu en aidant à informer les joueurs, les entraîneurs et les autres membres du personnel et à faciliter la prise de décision pendant et avant les événements sportifs.2
Christophe Ley a publié un livre sur le sujet des statistiques sportives, qui traite des combinaisons les plus diverses et les plus fructueuses entre l’analyse des données et le sport, comme par exemple une étude menée par le LIH sur les chaussures de course qui permettent de moins se blesser en courant, ou les techniques de reconnaissance d’images pour des analyses de match plus efficaces.
En 2018, Christophe Ley, professeur en statistique à l’Université de Gand (Belgique) à l’époque, avait pour la première fois combiné les statistiques et le sport. Ensemble avec des collègues, il avait développé une nouvelle méthode pour prédire le gagnant de la coupe du monde de 2018.
Contrairement aux méthodes traditionnelles utilisées par les bookmakers qui s’appuient principalement sur l’analyse humaine des données de paris et de performances, l’approche de Ley combine les statistiques avec l’apprentissage automatique pour créer un modèle plus fiable.
Le cœur de leur méthode repose sur l’utilisation du « Random Forest » (forêt aléatoire), un algorithme d’apprentissage automatique composé d’arbres de décision qui sont constamment parcourus par un programme informatique. Les paramètres de décision concernant les joueurs, les adversaires et l’environnement sont définis en partie par des machines et en partie par des êtres humains, et la Coupe du monde est rejouée encore et encore. Comme chaque répétition est associée à un processus d’apprentissage (automatique), les prévisions deviennent de plus en plus fiables (Hauser, 2018).
Récemment, Christophe Ley, accompagné de membres de son équipe MIDAS, a visité les installations du Borussia Dortmund, un club de football alllemand, juste avant leur match de Ligue des Champions contre Paris. Cette visite s’inscrit dans le cadre du projet Math4Sports, qui réunit plusieurs grands clubs européens de football : Arsenal FC, Athletic Bilbao, PSV Eindhoven, Benfica Lisbonne et Borussia Dortmund.
L’objectif principal de cette collaboration est d’utiliser les statistiques et l’analyse de données pour améliorer la prévention des blessures dans le football. Lors d’une réunion à Dortmund, des chercheurs universitaires et des scientifiques du sport ont échangé sur la façon dont la science pourrait aider à réduire les risques de blessures, un problème récurrent pour le BVB ces dernières saisons.
Les statistiques sont de plus en plus utilisées dans le sport moderne : les mouvements des joueurs sont suivis pendant l’entraînement et les matchs, générant d’énormes quantités de données que les statisticiens peuvent analyser pour optimiser les performances et prévenir les blessures.
Un exemple concret pour illustrer l’utilité des statistiques sportives est une autre collaboration de l’équipe MIDAS avec les Doneck Dolphins Trier, une équipe de basket-ball en fauteuil roulant. Ley et ses collègues ont développé une méthode pour prédire les performances des joueurs et proposer des compositions d’équipe optimales en tenant compte des règles spécifiques concernant les points de handicap dans ce sport (Bertemes, 2024).
1 Description tirée de la page web de MIDAS.
2 https://en.wikipedia.org/wiki/Sports_analytics
Le LUCET (Luxembourg Centre for Educational Testing) de l’Université du Luxembourg est un groupe de recherche en éducation dont la mission principale est la mise en œuvre, l’amélioration et l’assurance du monitoring scolaire au Luxembourg, activité qui mobilise la majorité de ses ressources.
Fondé conjointement par l’Université du Luxembourg et le Ministère de l’Éducation en juillet 2014, ce centre de recherche et de transfert unique en son genre est l’aboutissement du projet « Épreuves Standardisées » (ÉpStan). Ce programme de recherche à long terme (2007-2014), financé par le ministère luxembourgeois de l’Éducation, était déjà consacré au suivi scolaire et à l’analyse des défis éducatifs du pays.
Face à l’importance des enjeux identifiés, le Contrat d’Établissement Pluriannuel 2014-2017 entre l’État et l’Université a officiellement intégré ce programme à la structure universitaire, créant ainsi un centre de recherche rattaché à la Faculté.
Les Épreuves Standardisées (ÉpStan) servent aujourd’hui d’outils de monitoring scolaire au Luxembourg et se composent de tests et de questionnaires présentés en version papier-crayon, et/ou sur ordinateur. Ces tests évaluent de manière standardisée les compétences dans les domaines-clés de la formation scolaire ou des aspects centraux de la qualité de l’enseignement, du climat d’école et de classe et de la motivation des élèves à apprendre. Plus précisément, les ÉpStan permettent de contrôler une fois par an, au début du nouveau cycle d’apprentissage de la scolarité obligatoire, donc aux cycles 2.1, 3.1, 4.1 ainsi qu’en 7e et 5e de l’ESC/ESG, pour tous les élèves des niveaux d’étude correspondants, si les objectifs de formation du cycle d’apprentissage précédent ont pu être atteints. Chaque année, l’ensemble des élèves de chaque classe concernée participe aux ÉpStan. Cela représente environ 28 000 élèves par an. Pour garantir une comparaison équitable des performances, les ÉpStan tiennent compte systématiquement du contexte socio-économique et socio-culturel des élèves, et par là même de caractéristiques dont il est démontré qu’elles ont en moyenne une grande influence sur la réussite scolaire.
Le Luxembourg fait face à un défi éducatif majeur : gérer efficacement une population étudiante de plus en plus diverse. Selon les études PISA de l’OCDE, ce défi n’est pas unique au pays, mais y est particulièrement prononcé en raison de facteurs spécifiques comme sa petite taille, sa position centrale en Europe, son multilinguisme et son économie basée sur l’immigration.
Cette situation fait du Luxembourg un véritable « laboratoire vivant » où les changements démographiques se manifestent plus rapidement qu’ailleurs. Les solutions développées au Luxembourg pour offrir des chances égales de réussite à tous les élèves, indépendamment de leur origine socio-économique, culturelle ou linguistique, pourraient donc servir de modèle pour d’autres pays qui feront face à des défis similaires dans les décennies à venir.
C’est dans ce contexte que les Épreuves Standardisées (ÉpStan) jouent un rôle crucial. Ces évaluations fournissent des données pertinentes qui contribuent grandement au pilotage éducatif et à la recherche empirique en matière de formation. Elles permettent d’évaluer objectivement la performance, l’équité et l’évolution du système scolaire luxembourgeois sur le long terme, offrant ainsi une base scientifique solide pour répondre aux défis de la diversité.
Alors que les évaluations pour toutes les écoles élémentaires sont sur papier, les ÉpStan pour les écoles secondaires sont entièrement informatisées et basées sur le web (en utilisant OASYS, le système d’évaluation en ligne interne de LUCET).
Grâce au programme de suivi scolaire luxembourgeois, le LUCET fournit non seulement des informations opportunes et pertinentes aux acteurs nationaux de l’éducation, mais constitue également une base de données longitudinales unique et incroyablement riche sur l’évolution des profils de compétences des élèves et de leur parcours scolaire et, éventuellement, de leur parcours de vie.
Références
1. Andrews, R. 2021. The radiant diagrams of Florence Nightingale Michael Friendly.
2. Bertemes, J-P. 2024. BVB: Wird ein luxemburgischer Forscher Borussia Dortmund in Zukunft helfen? Science.lu. https://science.lu/fr/node/16698
3. Bostridge, M. 2008. Florence Nightingale. London: Penguin Books.
4. Bradshaw, NA. 2017. Florence Nightingale (1820–1910): A Pioneer of Data Visualisation. In: Beery, J., Greenwald, S., Jensen-Vallin, J., Mast, M. (eds) Women in Mathematics. Association for Women in Mathematics Series, vol 10. Springer, Cham. https://doi.org/10.1007/978-3-319-66694-5_11
5. Hauser, S. 2018. Luxemburger Forscher weiß (ziemlich sicher), wer Fußball-Weltmeister wird. Science.lu. https://science.lu/fr/treffsichere-prognose/luxemburger-forscher-weiss-ziemlich-sicher-wer-fussball-weltmeister-wird
6. Luxembourg Centre for Educational Testing (LUCET), https://www.uni.lu/fhse-en/research-groups/luxembourg-centre-for-educational-testing-lucet/
7. Vogt A., Osipenko M. What is statistics? – From a historical perspective (SE). https://www.wiwi.hu-berlin.de/de/forschung/irtg/lvb/statistik/Teaching_Moodle/ss13/hist
8. Wikipedia. Down Survey. https://en.wikipedia.org/wiki/Down_Survey