Université du Québec à Rimouski

Distribution Normale


Accueil ] Remonter ]Plan du site ] [ Définitions ]


Introduction

La plus importante des distributions de probabilité est sans aucun doute la distribution normale, tellement importante que beaucoup l'appellent « loi normale ».

Selon W. J. Youden du National Bureau of Standards : « La loi normale des erreurs  constitue une des généralisations les plus étendues de la philosophie naturelle dans I'histoire de I'humanité.. Elle est un outil précieux pour la recherche en sciences physiques et sociales ainsi qu'en médecine, en agriculture et en génie. Elle est indispensable á l'analyse et á l'interprétation des données obtenues par l'observation ou l'expérience ».

On observe la distribution normale partout dans la nature. On l'observe généralement presque partout lorsque l'on prend des mesures. Les distributions du poids des souris et du poids des baleines respectent toutes les deux cette distribution. Il en va de même pour la longueur, la température et la plupart des caractéristiques physiques mesurables.

Un graphique de la distribution normale ressemble un peu à une cloche. Dans une distribution normale, la moyenne arithmétique, la médiane et le mode sont égaux. 

Définition

La distribution normale est une distribution symétrique en forme de cloche qui est modélisée mathématiquement. Elle est intéressante parce que la très grande majorité des phénomènes naturels tendent vers cette distribution quand on prend un grand nombre de mesures. Par exemple, la distribution de la durée de vie des ampoules électriques a la forme de la distribution normale.

Sommaire

Description de la courbe normale

Paramètres de la courbe normale

L'écart-type

La moyenne

Interprétation de la distribution normale

Écart type et probabilité

Conclusion

Tester la distribution normale

Distribution symétrique

Coefficient d'asymétrie

Coefficient d'aplatissement

Exemple de vérification de distribution normale

Vérifier le degré d'asymétrie

Vérifier le degré d'aplatissement

Conclusion

Calcul des coefficients d'asymétrie et d'aplatissement avec un logiciel

Interprétation des résultats

 

Description de la courbe normale

Un graphique de la distribution normale ressemble un peu à une cloche symétrique. Le centre de cette cloche correspond à la moyenne. La courbe de probabilité est gonflée au centre, autour de la moyenne, mais baisse rapidement pour s'approcher de zéro, sans toutefois l'atteindre.  Dans une distribution normale, la moyenne arithmétique, la médiane et le mode sont égaux. 

 L'évasement de la courbe correspond à l'écart-type.

En étudiant une courbe de distribution normale, on voit que les mesures près de la moyenne sont plus probables que les mesures éloignées. 

La distribution normale s'applique aussi aux phénomènes physiques. Par exemple, la distance parcourue par un véhicule avec un litre d'essence varie d'une mesure à l'autre. Cela peut être dû à de légers changements dans les conditions expérimentales ou, encore, tout simplement au hasard. 

 

Paramètres de la courbe normale

Mais comment la distribution normale peut-elle modéliser le poids des souris, la longueur des baleines ou la consommation d'essences, des réalités si différentes ? La distribution normale tient compte de deux paramètres la moyenne μ et l'écart-type σ.  

L'écart-type

L'écart-type exprime la dispersion des mesures. Plus elle est élevée, plus les mesures sont dispersées et plus la courbe s'aplatit. La figure ci-dessous illustre trois courbes aillant la même moyenne et des écarts types différents.

La surface sous la courbe de distribution normale doit rester constante et égale à 1. C'est pourquoi un aplatissement du sommet résulte en un gonflement du reste de la courbe.

La moyenne

L'autre paramètre, la moyenne est plus facile à comprendre. Dans l'exemple ci-dessous, les trois courbes ont le même écart-type, mais des moyennes différentes :

           

La forme des distributions ne change pas, la distribution se déplace simplement sur l'axe.

 

Interprétation de la distribution normale

La surface sous une courbe de distribution normale représente la probabilité qu'un phénomène se produise dans cet intervalle. La surface totale sous la courbe vaut toujours 1. Dans le monde des probabilités 1 signifie la certitude qu'un phénomène se produise et 0 l'impossibilité. Entre 0 et 1, c'est la probabilité qu'un évènement se produise.

Reprenons l'exemple où la distance parcourue par un véhicule avec un litre d'essence varie d'une mesure à l'autre. Nous avons tracé la distribution normale de la probabilité de parcourir une certaine distance en supposant que la distance moyenne parcourue est de dix kilomètres et que l'écart-type est d'un kilomètre. 

Pour évaluer la probabilité de parcourir entre neuf et onze kilomètres avec un litre d'essence, il faut calculer la surface en vert sous la courbe du graphique ci-dessous :

Dans cet exemple, nous obtenons 68 %. Cela signifie qu'avec ce véhicule la probabilité de parcourir entre neuf et onze kilomètres est de 68 %. L'intérêt de la distribution normale est que, quelque soit le phénomène mesuré, on obtient 68% pour cent de probabilité pour une variation de -1 écart-type à +1 écart-type.

Écart type et probabilité

Il est plus commode de calculer la probabilité en fonction de l'écart-type autour de la moyenne qu'en fonction du phénomène mesuré parce que la relation entre la probabilité et l'écart-type est fixe. Quitte, par la suite, à convertir dans les unités du phénomène mesuré en multipliant par l'écart-type.

Relation entre écart-type et probabilité

Par exemple, 68 % des cas observés ont des valeurs comprises entre la moyenne arithmétique moins 1 écart-type et la moyenne arithmétique plus 1 écart-type. Cela se vérifie pour tout phénomène ayant la distribution normale.

 

        Pour 2 écarts types autour de la moyenne la probabilité est 95 % :

 

Pour rassembler 99 % des cas, on doit sélectionner 2.6 écarts types autour de la moyenne :

En résumé

Pour tout phénomène respectant la distribution normale le tableau suivant vous donne la probabilité selon l'écart-type.

Écart Probabilité
-1 a 1  68 %
-2 à 2  95 %
-2,6 à 2,6   99 %

Ce tableau prend de l'importance dans les analyses avancées en statistiques

 

Conclusion

La distribution normale s'applique bien à la plupart des phénomènes naturels. 

La courbe a un peu la forme d'une cloche. Ayant 2 paramètres importants sont la moyenne et l'écart-type. L'écart-type mesure la dispersion.

  •     68 % des résultats se retrouvent à un écart-type.
  •     95 % des résultats se retrouvent à deux écarts types.
  •     99 % des résultats se retrouvent à 2,6 écarts types.

On appelle aussi la distribution normale une « distribution Gaussienne » ou encore « loi normale ».

La distribution normale ne peut s'utiliser pour des phénomènes qui ne sont pas continus.

 

Tester la distribution normale

La distribution normale revient souvent en statistique et beaucoup de formules supposent que la distribution est normale. L'évaluation de l'écart-type suppose que les données respectent la distribution normale.

Il est rare que l'on obtienne une distribution ressemblant parfaitement à la distribution normale. Les fluctuations statistiques donnent des variations produisant de légères différences. Comme beaucoup de calculs statistiques demandent la conformité avec la distribution normale, iI faut établir des critères nous assurant qu'une distribution est de type « Normale ».

 

Distribution symétrique

Une distribution symétrique a la propriété d'avoir sa moyenne égale à sa médiane. Chacune des valeurs à gauche de la moyenne à une valeur qui lui correspond à égale distance à la droite de la moyenne. Le troisième quartile est à la même distance de la moyenne que le premier quartile :

(Q3 - Q2) = (Q2 - Q1)

 

 

 

Coefficient d'asymétrie

On observe que les distributions des variables sont plus ou moins symétriques. Les fluctuations statistiques normales donnent des variations produisant des asymétries. Pour distinguer les asymétries dues aux fluctuations statistiques de celles qui sont réelles, on mesure l'asymétrie de la distribution.

Une des mesures les plus utilisées du coefficient d'asymétrie est le « Skewness ». Une distribution avec un coefficient d'asymétrie positif indique une longue queue vers la droite. Une distribution avec un coefficient d'asymétrie négatif signifie une longue queue vers la gauche.

Là où ça devient intéressant est que l'on peut utiliser le rapport du coefficient d'asymétrie sur l'erreur type pour vérifier si la distribution des valeurs d'une variable ne suit pas la distribution normale. On peut rejeter la normalité si le ratio est inférieur à -2 ou supérieur à +2. Le Skewness est utilisé, conjointement à la statistique du kurtosis, pour estimer si une variable est normalement distribuée. 

La distribution normale est symétrique et a donc une valeur du coefficient d'asymétrie de zéro.

 

Coefficient d'aplatissement

À cause des fluctuations statistiques, il est possible que les données s'amassent dans les extrémités provoquant une sorte d'aplatissement. Le contraire se produit si les données s'amassent au centre et donne une forme plus bombée à la cloche de la distribution normale. Pour distinguer l'aplatissement dû aux fluctuations statistiques de celui qui est réel, on utilise un coefficient d'aplatissement de la distribution.

Une des mesures les plus utilisées de coefficient d'aplatissement est le « kurtosis ». C'est une mesure du degré de concentration des observations dans les queues. Pour une distribution normale, la valeur de la statistique de kurtosis est 0. Pour les échantillons issus d'une distribution normale, les valeurs du kurtosis fluctuent autour de 0. Un kurtosis négatif indique que les queues comptent moins d'observations que dans une distribution gaussienne. Un kurtosis positif indique que les queues comptent plus d'observations que dans une distribution gaussienne.

Comme pour le coefficient d'asymétrie, on utilise le rapport du coefficient d'aplatissement sur l'erreur type pour vérifier si la distribution des valeurs d'une variable suit la distribution normale. On peut rejeter la normalité si le ratio est inférieur à -2 ou supérieur à +2. Le kurtosis est utilisé, conjointement à la statistique de Skewness, pour estimer si une variable est normalement distribuée. 

La distribution normale n'a pas d'aplatissement et a donc une valeur du coefficient d'aplatissement de zéro.

 

Exemple de vérification de distribution normale

Prenons l'exemple de la distribution que nous montre le diagramme à bâtons ci-dessous.

 

Pour vérifier si la distribution s'approche suffisamment de la distribution normale, il nous faut faire  la démarche suivante :

 

Vérifier le degré d'asymétrie

On voit que la distribution à une longue queue vers la droite. Cela signifie une asymétrie positive.

Le calcul des coefficients d'asymétrie nous donne le tableau ci-dessus, cela confirme notre intuition sur l'asymétrie positive. La valeur du coefficient d'asymétrie est de 0,345.

L'autre coefficient, l'erreur type (Erreur std) vaut 0,464. Il nous permet d'évaluer si la distribution des valeurs de la variable ne respecte pas la distribution normale. Le ratio du coefficient d'asymétrie sur l'erreur type (0,345/0,464) est compris entre -2 et 2, ce qui ne peut rejeter la distribution normale. Nous pouvons faire le deuxième test.

Vérifier le degré d'aplatissement

Reprenons les calculs pour les mêmes données, mais cette fois pour le coefficient d'aplatissement.

Le calcul de l'aplatissement nous donne le tableau ci-dessus. La valeur du kurtosis vaut -0,527 ce qui montre un déficit d'observations dans les queues et que notre distribution serait un peu bombée au centre.

L'autre coefficient l'erreur type (Erreur std) vaut 0,902. Il nous permet d'évaluer si la distribution des valeurs de la variable ne respecte pas la distribution normale. Le ratio du coefficient d'aplatissement sur l'erreur type (-0,527/0,902) est compris entre -2 et 2 ce qui nous permet d'affirmer que la distribution des données ne peut rejeter la distribution normale.

Conclusion

Comme les analyses d'aplatissement et d'asymétrie n'invalident pas la distribution normale, on peut continuer à croire que la distribution de nos variables respecte la distribution normale et poursuivre nos analyses.

On peut voir à la figure ci-dessus la courbe normale superposée à l'histogramme des données de cet exemple.

 

Calcul des coefficients d'asymétrie et d'aplatissement avec un logiciel

Dans le logiciel SPSS version 10 en français.

Entrez vos données dans SPSS. Nous utilisons des données fictives. Si vous voulez suivre cet exemple, téléchargez les données offertes dans l'un des deux formats suivants :  SPSS ou ASCII.

Les données sont celles utilisés pour l'histogramme de l'exemple.

Calcul du coefficient d'asymétrie

  • Menu Analyse --> Statistiques descriptives --> Caractéristiques, une fenêtre intitulée Caractéristiques s'ouvre.  Placez à droite dans la fenêtre variable(s), les variables dont vous souhaitez faire l'analyse;
  • Cliquez sur le bouton Options, une fenêtre intitulée «Fréquences : Statistiques» s'ouvre et offre des choix d'analyses; 
    • Cochez les cases « Aplatissements » et « Asymétries » dans l'encadré « Distribution » et décochez les autres cases, s'il y a lieu.
    • Cliquez sur le bouton Poursuivre pour fermer la fenêtre;
  • De retour à la fenêtre Caractéristiques, cliquez sur le bouton OK pour faire faire le calcul par SPSS.

Interprétation des résultats

Dans l'explorateur de résultats, cliquez sur « Descriptives », pour faire afficher ce tableau.

En haut du tableau, on peut lire le nom le nom du tableau : Statistiques descriptives.

  • N - Statistique : 25 est l'effectif. le nombre d'observations ou d'enregistrements; 
  • Asymétrie Statistique 0,345 est le coefficient d'asymétrie.
  • Asymétrie Erreur std 0,464 est l'erreur type sur l'asymétrie. Cette mesure nous donne une évaluation de la variation de l'asymétrie de la distribution;
  • Kurtosis -0,527 est la mesure d'aplatissement de nos données;
  • Kurtosis Erreur std 0,902 est l'erreur type sur l'aplatissement. Cette mesure nous donne une évaluation de la variation de l'aplatissement de la distribution;

Consultez l'exemple sur cette section pour l'interprétation de ce tableau.

 

Voir aussi

Pour produire un histogramme

   Étendue Quantile Intervalles interquartiles Écart-type Coefficient de variation Distribution Normale Cote Z