Billet dédié à quelqu'un que j'aime beaucoup qui se reconnaîtra.
Verbo, quelle est la formule ?
Les Cent tours de Centour était, un siècle avant les Télétubbies, une émission pour les enfants. Le coquin de Centour piégeait les humains et Verbo, un extra-terrestre de sa planète, à l'aide de formules magiques à répéter, corrigeait les bêtises de Centour.
Il n'est pas rare qu'en sciences pures ou appliquées et même en mathématique que, comme Verbo, nous utilisions des formules magiques pour nous sortir des vilains tours des résolutions de problème.
La formule quadratique !
Le théorème de Pythagore !
Les formules de dérivation !
Les formules d'aires et de volume !
Il faut cependant faire attention lorsque, pour accélérer le processus, on se limite à ne faire que du "ploïllage" de formules.
Il arrive que la formule quadratique plante.
(Ben oui, tout le monde sait ça, une parabole peut ne pas avoir de zéro.)
C'est encore plus vrai en statistique.
Je me plais à dire que la statistique, c'est la science humaine des mathématiques. Une espèce de flou, d'incertitude, de relativité sous-jacente, un peu de magie et d'entourloupette.
Facts are stubborn things, but statistics are more pliable, disait Mark Twain.
Quand on fait des statistiques, il importe de toujours regarder d'abord les données que l'on possède. Dès que l'on regroupe les données, dès qu'on en désigne un représentant, on perd de l'information.
On fait de plus en plus de statistique dans le curriculum scolaire. Les enfants font leurs premiers diagrammes à bandes en première année du primaire. Les jeunes travaillent l'analyse de régression et le coefficient de corrélation bien avant la fin du secondaire. C'est une très bonne chose, car nous sommes submergés de statistiques.
Il existe au secondaire trois collections en mathématique approuvées par le MELS : Visions, Intersection mathématique et Point de vue.
Toutes s'entendent sur les formules pour calculer la moyenne, la médiane ou l'étendue, mais elles ne donnent pas la même formule pour le rang centile.
Houhouhouhouhou : Ces formules n'étant pas équivalentes, quelle est la véritable formule du rang centile ?
Le rang centile est une mesure de position diabolique, donc tordue, donc utilisée par le MELS ! HA !
On connaît bien la médiane, cette mesure de position qui est également une mesure de tendance centrale. La médiane sépare en deux parties égales une base de données ordonnées. C'est le centre de position. Au moins 50 % des données sont inférieures ou égales à la médiane. Au moins 50 % des données sont supérieures ou égales à la médiane.
Hein ? Au moins, au moins ?
Imaginons qu'à une épreuve de français du MELS, tous les étudiants obtiennent la note parfaite de 100 %. Les directions d'école célèbrent, les chercheurs de partout dans le monde se ruent au Québec pour scruter notre modèle pédagogique et le MELS, dans son vaisseau d'or, clament que nous sommes la nouvelle Finlande.
La médiane se pointe : au moins 50 % de la classe a un résultat inférieur ou égal à 100 %.
Mais on n'en a rien à cirer de la médiane ! Allons, que la fête continue !
Une médiane, deux moitiés.
On pourrait séparer le gâteau de données en 4 parties avec 3 coups de quartiles.
En 5 parties, avec 4 quintiles.
En 10 parties, avec 9 déciles.
En 100 parties, avec 99 centiles.
Comme un kouign amann, on sépare le gâteau en fonction de la base de données. Diviser en 100 parties le gâteau quand on est tout seul, c'est ridicule, il finira tout entier dans un seul estomac. De même, pour qu'il soit utile de diviser une base de données en 100 parties, il faut en voir des centaines de données !!!
Au fait, avez-vous remarqué la différence entre le centile et sa partie ?
Le centile, c'est là où glisse le couteau comme dans du beurre.
Le centile ne se mange pas.
On ne mange que les morceaux découpés.
Donc jusqu'ici tout va bien, la formule incontestée de la médiane peut être adaptée pour les quartiles, les quintiles, les déciles et tous les autres débiles de la même espèce.
C'est alors qu'un tordu est arrivé et s'est dit... tant qu'à séparer les choses en 100 morceaux, on pourrait non plus considérer la position du coup de couteau (centile) dans le kouign, mais établir la position d'un bout de gâteau par rapport au coup de couteau. En d'autres mots, aux 100 morceaux de gâteau, on associe les 99 coups de couteau. Hum... ça ne correspond pas exactement, mais ce n'est pas grave, on fait des stats. Et puis, ce qui est encore plus marrant, c'est que ce rang, dit centile, pourrait être bien confondant (au chocolat) avec la note (attention aux allergies).
Alors, par convention, on s'est dit qu'on accorderait le rang 1 au premier pourcent des données les plus poches, 99 au 99e morceau et son suivant. La modestie est une vertu.
Donc, le rang centile est la proportion de données ayant une valeur inférieure ou égale à une donnée, arrondie à l'entier supérieur, avec un maximum à 99.
Retournons à notre épreuve de français où tout le monde a eu 100 %.
Quel est le rang centile de l'élève Adèle Abdalah ?
Euh où coupe-t-on... ok, on sépare la liste en 100...
Rang centile : 1.
Bouhouhouhouhouhouhouhou...
Ben j'ai ordonné les données et le logiciel les a ensuite ordonnées par ordre alphabétique de noms, alors comme elle est la première sur la liste, son rang est 1 !!!
Renvoyé.
On recommence.
Rang centile de Adèle : 50.
AAAAAAAAAAARRRRRRRGGGGG... Aux armes, citoyens !
Renvoyé.
Rang centile de Adèle : 99.
Bouhouhouhouhou... le téléphone ne dérougit pas.
Comment se fait-il que mon "infant" qui a eu 100 % se retrouve avec un rang centile de 99 ? Ça n'a pas de bon sens, il se retrouve maintenant en bas de la moyenne !!!
Mais c'est le maximum possible pour un rang centile !!!
Ben changez votre loi ! On veut des bulletins chiffrés, des moyennes de groupe et des rangs centiles qui vont jusqu'à 100.
Que faire quand plusieurs personnes ont la même note ?
La première astuce, la généreuse, consiste à appliquer tout simplement la définition du rang centile, de calculer la proportion de données de la base qui ont un résultat inférieur ou égal, arrondir et attribuer ainsi le rang. Tous les égaux du morceau touchent au couteau. Adèle Abdalah s'appelle maintenant comme toutes ses semblables Zoé Zamfir. C'est la formule choisie par Intersection.
Pour notre examen, Intersection décrète que le rang centile de chaque élève de la classe serait de 100. Voilà de quoi plaire aux parents... sauf peut-être ceux qui savent qu'un rang centile ne doit pas dépasser 99. Ils pourraient alors soupçonner qu'il y a des magouilles louches et contacter le Journal de Mourial.
La deuxième astuce regroupe les notes semblables en son centre. Adèle Abdalah et Zoé Zamfir comme toutes leurs semblables s'appellent Madeleine Marchand. Dans notre exemple, Vision (comme la majorité des auteurs) accorderait un rang centile de 50 à chaque élève. Les parents ne seront pas contents.
Oui mais c'est quoi le vrai rang centile ?
Le rang centile est une mesure de position utile quand la base de données est très grande.
Une mesure de position sert à "positionner".
Ce n'est pas une note.
L'important, c'est que les rangs d'une population soit toujours attribués de la même manière, de sorte que l'on puisse comparer la position relative d'un individu dans des bases de données différentes (par exemple Adèle pourrait être au rang centile 99 en français et au rang centile 50 en mathématique) ou encore pour que l'on puisse dans une série de données donnée (!), discriminer les meilleurs élèves des "champions".
1 commentaire
Merci :)
Publier un commentaire