|
Dossier
utile
Ensemble
de documents utiles pour l'étude de séries statistiques

Bibliographie
bibliographie
pour les statistiques
proposée par Marc David
Liens
utiles
Voici
une liste
de liens sur les statistiques
Conférence
Conférence
de
Bernard Parzysz
professeur à l'IUFM d'Orléans
La
Statistique
vue par
Gérard Grancher
ingénieur
chercheur au CNRS
|
|
Nous voulons mettre à votre disposition dans ce dossier une série
de documents utilitaires pour l'étude d'une série statistique
: une fiche de vocabulaire, le résumé à cinq valeurs
de John Tukey (1977), une fiche Excel qui permet de construire de manière
automatique l'histogramme et la boîte à moustaches d'une
série de notes, un fichier Excel permettant de comparer de manière
automatique jusqu'à cinq séries de données et qui
superpose sur un même graphique les boîtes à moustaches
des cinq séries, et enfin un exemple de marche aléatoire
sur un tétraèdre réalisé sous Excel.
|
i
|
Fiche de vocabulaire et résumé
à cinq valeurs de John Tukey (1977)
|
|
|
|
|
-
Fiche de vocabulaire
Une vue d'ensemble du vocabulaire de statistiques abordé
en classe de première vous est proposé dans le fichier
image ci-dessous. Les définitions fournies sont inspirées
du livre : "Premiers pas en statistiques" de Yadolah
Dodge (édité chez Springer Verlag, France, 1999).
En cliquant sur l'image, vous obtiendrez la fiche complète.

- Résumé
à cinq valeurs de John Tukey (1977) (d'après "Premiers
pas en statistiques" de Yadolah Dodge, Springer, 1999)
Le résumé à 5 valeurs (John Tukey, 1977)
est une façon de transmettre l'information essentielle
dans une distribution :
|
Médiane
|
|
Premier quartile
|
Troisième quartile
|
|
Minimum
|
Maximum
|
Calcul de la médiane
et des quartiles
Soit n le nombre d'observations et les données rangées
par ordre croissant.
On définit :
rang médiane = (n+1)/2
rang quartile = (r+1)/2
où r est le rang de la médiane tronqué à
l'entier inférieur.
La médiane et les quartiles seront les données correspondant
aux rangs calculés, pour un ensemble de données
classes par ordre croissant. Des rangs non-entiers signifient
que l'on calculera la moyenne entre les deux valeurs les plus
proches pour obtenir la médiane ou les quartiles.
Exemple : Indice des revenus des cantons de la Suisse par habitant
:
|
Canton
|
indice
|
Canton
|
indice
|
|
1
|
125,7
|
14
|
99,2
|
|
2
|
86,2
|
15
|
84,3
|
|
3
|
87,9
|
16
|
72,6
|
|
4
|
88,2
|
17
|
89,3
|
|
5
|
94,5
|
18
|
92,4
|
|
6
|
80,3
|
19
|
98,0
|
|
7
|
108,9
|
20
|
87,4
|
|
8
|
101,4
|
21
|
87,4
|
|
9
|
170,2
|
22
|
97,4
|
|
10
|
90,9
|
23
|
80,5
|
|
11
|
88,3
|
24
|
87,3
|
|
12
|
124,2
|
25
|
116,0
|
|
13
|
105,1
|
26
|
75,1
|
Rang médiane = (n+1)/2=(26+1)/2=13,5
Ainsi la médiane sera la moyenne entre la 13e et la 14e
observation de la série ordonnée par ordre croissant,
c'est-à-dire :
médiane = (89,3+90,9)/2 = 90,1
Ensuite on calcule :
rang quartile = (13+1)/2 = 7
Le 1er quartile sera donc la 7e observation depuis le bas, et
le 3e quartile la 7e observation depuis le haut (toujours pour
la série ordonnée), c'est-à-dire :
1er quartile = 87,3
3e quartile = 101,4
Les extrêmes inférieurs sont respectivement 72,6
et 170,2. Ainsi, on obtient le résumé à 5
valeurs :
|
90,1
|
|
87,3
|
101,4
|
|
72,6
|
170,2
|
C'est John Tukey qui a introduit la boîte
à moustaches (ou Box plot) en 1977 : c'est un moyen de
représenter graphiquement les valeurs du résumé
à 5 valeurs défini ci-dessus.
|
|
i
|
Histogramme et boîte à moustaches
d'une série de notes
|
|
|
|
|
Voici un fichier Excel permettant de construire l'histogramme et
la boîte à moustaches d'une série de notes obtenue
par une classe. Télécharger
le document.
A l'aide de ce document Excel, nous pouvons comparer par exemple
le résultat d'un test identique effectué dans deux
classes différentes. Ce test permettait notamment de contrôler
que les élèves avaient effectivement fait leur travail
de vacances de l'été austral. Voici les résultats
de ces tests :

La série des notes brutes obtenues par la classe de PE1 est
:
16 19 18,5 15 10,5 6 17 5,5 18 10 13,5 17 7 12,5 12 16 20 9,5 16,5
12,5 13,5 18,5 13,5 18 20 20 18,5 17 13,5 20 12,5 19 10 4,5 12,5
12
et celle obtenue par la classe de PL1 est :
6,5 19 17,5 7 6,5 12,5 14,5 18,5 9 8 5,5 3 17,5 6 7 3 7 3 13,5 8,5
4

Au vu de ces deux graphiques, il est clair que la classe de PE1
a été très consciencieuse dans la réalisation
de ses devoirs de vacances, alors que la classe de PL1 présente
deux sous-séries d'élèves très nettement
différenciées : une partie de la classe (7 élèves
sur 21) ont effectué leur travaux avec sérieux, mais
l'autre partie (14 élèves) les a visiblement bâclés.
Il peut être alors intéressant pour l'enseignant de
comparer les deux séries sur le même graphique, c'est
ce que nous proposons ci-dessous.
|
|
i
|
Comparaison de séries de données
|
|
|
|
|
Le fichier Excel ComparaisonDonnees.xls
permet de calculer les éléments caractéristiques
de (au plus) 5 séries statistiques.
Dans chacune des feuilles (Serie1 à Serie5), on entre les données
de la série statistique en colonne A (à partir de la
cellule A2). On les trie par ordre croissant en colonne B (à
partir de la cellule B2).
Les feuilles BoxPlot1 à BoxPlot5
sont les boîtes à moustaches de ces séries, basées
sur le résumé à 5 valeurs de John Tukey.
La feuille BoxPlot1a5 regroupe les 5 boîtes à moustaches
et permet ainsi une comparaison des séries.
Sur le graphique ci-dessous, l'une des cinq boîtes à
moustaches est la série moyenne des quatre autres séries.
Laquelle est-ce ?
|
|
i
|
Marche
aléatoire sur un tétraèdre
|
|
|
|
|
Nous vous proposons un fichier Excel PromenadeAleatoireTetraedreF.xls
simulant la marche aléatoire sur un tétraèdre
décrite dans le document d'accompagnement de la classe de
seconde (page 41) distribué aux enseignants de lycée
à la rentrée 2000 :
On promène un pion sur les sommets d'un tétraèdre
; toutes les secondes, on déplace le pion d'un sommet à
un autre, en choisissant au hasard parmi les trois sommets possibles.
On s'intéresse au temps écoulé entre le début
de la promenade du pion et le premier retour au point de départ.
On limite la promenade à une minute. On utilise des lancers
de dés, simulés, pour les déplacements du pion.
(Voir les feuilles intitulées Promenade et PromenadeGraphique).

On appelle jeu un ensemble de 20 promenades. On simule 30 jeux.
Pour chaque promenade, on étudie les temps de premier retour
: ce sont des nombres inférieurs à 60 (on a limité
la promenade à 60 déplacements). La feuille intitulée
Calculs présente un tableau d'une simulation de 30 jeux.
On y a représenté l'histogramme des fréquences
du premier jeu simulé, puis celui des fréquences des
30 jeux.
Histogramme des fréquences obtenues sur 60 promenades
|
|