Introduction
La plus importante des distributions de probabilité est sans aucun doute la
distribution normale, tellement importante que beaucoup l'appellent « loi
normale ».
Selon W. J. Youden du National Bureau of Standards : « La loi normale des erreurs constitue une des
généralisations les plus étendues de la philosophie naturelle dans I'histoire
de I'humanité.. Elle est un outil précieux pour la recherche en sciences
physiques et sociales ainsi qu'en médecine, en agriculture et en génie. Elle
est indispensable á l'analyse et á l'interprétation des données obtenues par
l'observation ou l'expérience ».

On observe la distribution normale partout dans la nature. On l'observe
généralement presque partout lorsque l'on prend des mesures.
Les distributions du poids des souris et du poids des baleines respectent toutes
les deux cette distribution. Il en va de même pour la longueur, la
température et la plupart des caractéristiques physiques mesurables.
Un graphique de la distribution normale ressemble un peu à une cloche.
Dans une distribution normale, la
moyenne arithmétique, la
médiane et le mode sont égaux.
Définition
La distribution normale est une distribution symétrique en forme de
cloche qui est modélisée mathématiquement. Elle est intéressante parce que la très
grande majorité des phénomènes naturels tendent vers cette distribution quand
on prend un grand nombre de mesures. Par exemple, la distribution de la durée de
vie des ampoules électriques a la forme de la distribution normale.
Sommaire
Description de la courbe normale
Paramètres de la courbe normale
L'écart-type
La moyenne
Interprétation de la distribution normale
Écart type et probabilité
Conclusion
Tester la distribution normale
Distribution symétrique
Coefficient d'asymétrie
Coefficient d'aplatissement
Exemple de vérification de distribution normale
Vérifier le degré d'asymétrie
Vérifier le degré d'aplatissement
Conclusion
Calcul des coefficients d'asymétrie et d'aplatissement avec un logiciel
Interprétation des résultats

Un graphique de la distribution normale ressemble un peu à une cloche symétrique.
Le centre de cette cloche correspond à la moyenne.
La courbe de probabilité est gonflée au centre, autour de la moyenne, mais
baisse rapidement pour s'approcher de zéro, sans toutefois l'atteindre.
Dans une distribution normale, la
moyenne arithmétique, la
médiane et le mode sont égaux.
L'évasement de la courbe correspond à l'écart-type.

En étudiant une courbe de distribution
normale, on voit que les mesures près de la moyenne sont plus probables que
les mesures éloignées.
La distribution normale s'applique aussi aux phénomènes physiques. Par exemple, la distance parcourue
par un véhicule avec un litre d'essence varie d'une mesure à l'autre. Cela peut être dû à de légers changements dans
les conditions expérimentales ou, encore, tout simplement au hasard.


Mais comment la distribution normale peut-elle modéliser le poids des
souris, la longueur des baleines ou la consommation d'essences, des
réalités si différentes ? La distribution normale tient compte de deux
paramètres la
moyenne μ
et l'écart-type
σ.
L'écart-type exprime la
dispersion des mesures. Plus elle est élevée, plus les mesures sont dispersées
et plus la courbe s'aplatit. La figure ci-dessous illustre trois courbes aillant la même moyenne et des
écarts types différents.

La surface sous la courbe de distribution normale doit rester constante et
égale à 1. C'est pourquoi un aplatissement du sommet résulte en un gonflement
du reste de la courbe.
L'autre paramètre, la moyenne est
plus facile à comprendre. Dans l'exemple ci-dessous, les trois courbes ont
le même écart-type, mais des moyennes différentes :

La forme des distributions ne change pas, la distribution se déplace
simplement sur l'axe.

La surface sous une courbe de distribution normale représente la
probabilité qu'un phénomène se produise dans cet intervalle. La surface
totale sous la courbe vaut toujours 1. Dans le monde des probabilités 1
signifie la certitude qu'un phénomène se produise et 0 l'impossibilité. Entre
0 et 1, c'est la probabilité qu'un évènement se produise.
Reprenons l'exemple où la distance parcourue par un véhicule avec un litre d'essence
varie d'une mesure à l'autre. Nous avons tracé la distribution normale de la
probabilité de parcourir une certaine distance en supposant que la distance moyenne parcourue est de
dix kilomètres et que l'écart-type est d'un kilomètre.
Pour évaluer la probabilité de parcourir entre neuf et
onze kilomètres avec un litre d'essence, il faut calculer la surface en vert sous la
courbe du graphique ci-dessous :
Dans cet exemple, nous obtenons 68 %. Cela signifie qu'avec ce véhicule la
probabilité de parcourir entre neuf et onze kilomètres est de 68 %.
L'intérêt de la distribution normale est que, quelque soit le phénomène mesuré,
on obtient 68% pour cent de probabilité pour une variation de -1 écart-type à +1
écart-type.
Il est plus commode de calculer la probabilité en fonction de
l'écart-type autour de la moyenne qu'en fonction du phénomène mesuré parce
que la relation entre la probabilité et l'écart-type est
fixe. Quitte, par la suite, à convertir dans les unités du phénomène
mesuré en multipliant par l'écart-type.
Relation entre écart-type et probabilité
Par exemple, 68 % des cas observés ont des valeurs comprises entre la moyenne
arithmétique moins 1 écart-type et la moyenne arithmétique plus
1 écart-type. Cela se vérifie pour tout phénomène ayant la distribution
normale.
Pour 2 écarts types
autour de la moyenne la probabilité est 95 % :
Pour rassembler 99 % des cas, on doit sélectionner 2.6
écarts types autour de la moyenne :
En résumé
Pour tout phénomène respectant la distribution normale le tableau suivant vous
donne la probabilité selon l'écart-type.
|
Écart |
Probabilité |
| -1 a 1 |
68 % |
| -2 à 2 |
95 % |
| -2,6 à 2,6 |
99 % |
Ce tableau prend de l'importance dans les
analyses avancées en
statistiques

La distribution normale s'applique bien à la plupart des phénomènes naturels.
La courbe a un peu la forme d'une cloche. Ayant 2 paramètres importants sont la moyenne et l'écart-type. L'écart-type mesure la dispersion.
- 68 % des résultats se retrouvent à un écart-type.
- 95 % des résultats se retrouvent à deux écarts types.
- 99 % des résultats se retrouvent à 2,6 écarts types.
On appelle aussi la distribution normale une « distribution Gaussienne » ou
encore « loi normale ».
La distribution normale ne peut s'utiliser pour des phénomènes qui ne
sont pas continus.

La distribution normale revient souvent en statistique et beaucoup de
formules supposent que la distribution est normale. L'évaluation de l'écart-type
suppose que les données respectent
la distribution normale.
Il est rare que l'on obtienne une distribution ressemblant parfaitement à la
distribution normale. Les fluctuations statistiques donnent des variations
produisant de légères différences. Comme beaucoup de calculs statistiques
demandent la conformité avec la distribution normale, iI faut établir des critères nous assurant
qu'une distribution est de type « Normale ».

Une distribution symétrique a la propriété d'avoir sa moyenne
égale à sa médiane. Chacune des valeurs à
gauche de la moyenne à une valeur qui lui correspond à égale distance à la
droite de la moyenne. Le troisième quartile
est à la même distance de la moyenne que le premier quartile :
(Q3 - Q2) = (Q2 - Q1)


On observe que les distributions des variables sont plus ou moins symétriques. Les fluctuations statistiques normales donnent des variations
produisant des asymétries. Pour distinguer les
asymétries dues aux fluctuations statistiques de celles qui sont réelles, on
mesure l'asymétrie de la distribution.
Une des mesures les plus utilisées du coefficient d'asymétrie est le « Skewness ».
Une distribution avec un coefficient d'asymétrie positif indique une longue
queue vers la droite. Une distribution avec un coefficient d'asymétrie négatif
signifie une longue queue vers la gauche.
Là où ça devient intéressant est que l'on peut utiliser le rapport du coefficient d'asymétrie sur l'erreur type pour vérifier
si la distribution des valeurs d'une variable ne suit pas la distribution normale. On peut
rejeter la normalité si le ratio est inférieur à -2 ou supérieur à +2. Le
Skewness est utilisé, conjointement à la statistique du kurtosis, pour estimer
si une variable est normalement distribuée.
La distribution normale est symétrique et a donc une valeur du coefficient
d'asymétrie de zéro.

À cause des fluctuations statistiques, il est possible que les données s'amassent
dans les extrémités provoquant une sorte d'aplatissement. Le contraire se
produit si les données s'amassent au centre et donne une forme plus bombée à la cloche
de la distribution normale. Pour distinguer l'aplatissement dû aux fluctuations statistiques de celui qui
est réel, on
utilise un coefficient d'aplatissement de la distribution.
Une des mesures les plus utilisées de coefficient d'aplatissement est le « kurtosis ». C'est une mesure du degré de concentration des observations dans les
queues. Pour une distribution normale, la valeur de la statistique de kurtosis
est 0. Pour les échantillons issus d'une distribution normale, les valeurs du
kurtosis fluctuent autour de 0. Un kurtosis négatif indique que les queues
comptent moins d'observations que dans une distribution gaussienne. Un kurtosis
positif indique que les queues comptent plus d'observations que dans une
distribution gaussienne.
Comme pour le coefficient d'asymétrie, on utilise le rapport du coefficient d'aplatissement sur l'erreur type pour vérifier
si la distribution des valeurs d'une variable suit la distribution normale. On peut
rejeter la normalité si le ratio est inférieur à -2 ou supérieur à +2. Le
kurtosis est utilisé, conjointement à la statistique de Skewness, pour estimer
si une variable est normalement distribuée.
La distribution normale n'a pas d'aplatissement et a donc une valeur du coefficient
d'aplatissement de zéro.

Exemple de vérification de distribution normale
Prenons l'exemple de la distribution que nous montre le
diagramme à bâtons ci-dessous.

Pour vérifier si la distribution s'approche suffisamment de la distribution
normale, il nous faut faire la démarche suivante :
On voit que la distribution à une longue queue vers la droite. Cela signifie
une asymétrie positive.

Le calcul des coefficients d'asymétrie nous donne le tableau ci-dessus, cela
confirme notre intuition sur l'asymétrie positive. La valeur du coefficient
d'asymétrie est de 0,345.
L'autre coefficient, l'erreur type (Erreur std) vaut 0,464. Il nous permet
d'évaluer si la distribution des valeurs de la variable ne respecte pas la
distribution normale.
Le ratio du coefficient d'asymétrie sur l'erreur type (0,345/0,464) est
compris entre -2 et 2, ce qui ne peut rejeter la distribution normale. Nous
pouvons faire le deuxième test.
Reprenons les calculs pour les mêmes données, mais cette fois pour le
coefficient d'aplatissement.

Le calcul de l'aplatissement nous donne le tableau ci-dessus. La valeur du
kurtosis vaut -0,527 ce qui montre un déficit d'observations dans les queues et
que notre distribution serait un peu bombée au centre.
L'autre coefficient l'erreur type (Erreur std) vaut 0,902. Il nous permet
d'évaluer si la distribution des valeurs de la variable ne respecte pas la
distribution normale.
Le ratio du coefficient d'aplatissement sur l'erreur type (-0,527/0,902) est
compris entre -2 et 2 ce qui nous permet d'affirmer que la distribution des
données ne peut rejeter la distribution normale.
Comme les analyses d'aplatissement et d'asymétrie n'invalident pas la
distribution normale, on peut continuer à croire que la distribution de nos
variables respecte la distribution normale et poursuivre nos analyses.

On peut voir à la figure ci-dessus la courbe normale superposée à
l'histogramme des données de cet exemple.

Dans le logiciel SPSS version 10 en français.
Entrez vos données dans SPSS.
Nous utilisons des données fictives. Si vous voulez suivre cet
exemple, téléchargez les données offertes dans l'un des deux formats suivants :
SPSS ou
ASCII.
Les données sont celles utilisés pour l'histogramme de l'exemple.
Calcul du coefficient d'asymétrie
- Menu Analyse --> Statistiques descriptives --> Caractéristiques,
une fenêtre intitulée Caractéristiques s'ouvre. Placez à droite
dans la fenêtre variable(s), les variables dont vous souhaitez faire l'analyse;
- Cliquez sur le bouton Options, une fenêtre
intitulée «Fréquences : Statistiques» s'ouvre et offre
des choix d'analyses;
- Cochez les cases « Aplatissements » et « Asymétries »
dans l'encadré « Distribution » et décochez les
autres cases, s'il y a lieu.
- Cliquez sur le bouton Poursuivre
pour fermer la fenêtre;
- De retour à la fenêtre Caractéristiques, cliquez sur le bouton OK pour
faire faire le calcul par SPSS.
Dans l'explorateur de
résultats, cliquez sur « Descriptives », pour faire afficher ce
tableau.

En haut du tableau, on peut lire le nom le nom du tableau : Statistiques
descriptives.
- N - Statistique : 25 est l'effectif. le nombre d'observations ou d'enregistrements;
- Asymétrie Statistique 0,345 est le coefficient
d'asymétrie.
- Asymétrie Erreur std 0,464 est l'erreur
type sur l'asymétrie. Cette mesure nous donne une évaluation de la variation de
l'asymétrie de la distribution;
- Kurtosis -0,527 est la mesure d'aplatissement de nos données;
- Kurtosis Erreur std 0,902 est l'erreur
type sur l'aplatissement. Cette mesure nous donne une évaluation de la variation de
l'aplatissement de la distribution;
Consultez l'exemple sur cette section pour
l'interprétation de ce tableau.
Voir aussi
Pour produire un histogramme
|