Université du Québec à Rimouski

Dispersion


Accueil ] Remonter ] Étendue ] Quantile ] Intervalles interquartiles ] Écart-type ] Coefficient de variation ] Distribution Normale ] Cote Z ]Plan du site ] [ Définitions ]


La dispersion

Les indices de tendances centrales qui décrivent globalement les variables (moyenne, médiane ou mode) ne donnent aucun renseignement sur la distribution des données. Par exemple, on peut se demander si les données sont concentrées autour de la moyenne ou répartie sur un large intervalle. Y a-t-il des valeurs extrêmes ? La distribution est-elle la distribution normale ? Ces caractéristiques importantes sont des aspects pris en compte dans les analyses de dispersion.

Si vos microdonnées utilisent un facteur de pondération, consultez la page sur la pondération avant de faire vos analyses statistiques.

Sommaire

Importance de l'évaluation de la dispersion

L'étendue

L'intervalle interquartile

La distribution normale

L'écart-type et la variance

Le coefficient de variation

La cote Z

Conclusion

 

Importance de l'évaluation de la dispersion

Certaines variables peuvent avoir la même moyenne, mais présenter une réalité complètement différente. Prenons l'exemple fictif des salaires des travailleurs industriels et de ceux de la population générale. Les diagrammes à bâtons ci-dessous nous montrent la répartition des salaires des deux groupes.

 

 

Les deux distributions ont la même médiane, la même moyenne et le même mode, mais elles sont très différentes. En regardant les diagrammes à bâtons, nous pouvons observer une réalité complexe : la dispersion des données diffère de manière importante entre les groupes. On observe que les salaires industriels sont moins variés que ceux de la population. C'est une caractéristique importante, de deux réalités bien différentes. 

Il existe d'autres situations où la dispersion joue un rôle important. Par exemple, si la moyenne d'une distribution est relativement élevée par rapport à son mode ou à sa médiane, cela implique que les valeurs faibles ont une plus forte fréquence que les valeurs élevées. Cela s'observe dans la distribution des revenus de beaucoup de communautés.

 

L'étendue

Le premier réflexe quand on étudie la dispersion des données est de calculer l'étendue, c'est-à-dire l'écart entre la valeur maximum et minimum.

Bien qu'étant une mesure simple, l'étendue est une bonne introduction à la dispersion.

 

L'intervalle interquartile

L’intervalle interquartile (IIQ) est un bon estimateur de la dispersion et il est beaucoup plus simple à comprendre et à calculer que l'écart-type.

Nous proposons cette étude en deux étapes :

 

La distribution normale

La dispersion des données forme ce qu'on appelle sa distribution. C'est un caractère important d'une distribution, car il reflète de la variabilité des données. La distribution la plus connue en statistique est la distribution normale. En fait, presque toutes les mesures que vous faites, ont la forme de la distribution normale.

La distribution normale est intéressante parce qu'en connaissant la valeur de l'écart-type et la moyenne d'une variable nous possédons suffisamment d'informations pour calculer les probabilités associées à cette variable.

Une grande partie des calculs en statistique requiert que les variables soient distribuées selon la distribution normale. La page sur la distribution normale explique l'importance de cette distribution, ses principales caractéristiques et les tests de vérifications de conformité des variables à la distribution.

 

L'écart-type et la variance

Associées à la distribution normale, nous avons deux mesures importantes de dispersion : l'écart-type et la variance. Relativement facile à calculer ces mesures de dispersion jouent fréquemment un rôle important dans les analyses statistiques. C'est pourquoi on les évalue systématiquement.

 

Le coefficient de variation

Le coefficient de variation, permet de comparer en pourcentage la dispersion des distributions de variables de nature différente. On peut comparer la dispersion des mesures sur les souris en millimètres et avec celles des baleines en mètres. Ce que l'écart-type ne peut faire.

 

La cote Z

La cote Z n'est pas une mesure de dispersion. Mais elle y est associée étroitement parce qu'elle nous permet de comparer des groupes ayant une moyenne et une dispersion différente. Un travailleur dans une usine vétuste peut être aussi méritant qu'un autre dans une usine moderne. Le premier n'a tout simplement pas les outils adéquats.

La page sur la cote Z nous montre comment faire des comparaisons dans ces circonstances.

 

Présentation

Le premier réflexe quand on utilise un ensemble de données est d'en calculer la moyenne. Cependant, la moyenne n'est pas toujours adéquate ou suffisante pour caractériser nos données, ce que l'on veut savoir, en réalité, c'est la tendance centrale.

L'expression « tendance centrale » regroupe l'ensemble des techniques statistiques visant à donner une mesure du milieu, du centre d’un ensemble de données. Les indices de tendance centrale sont utiles parce qu'ils sont strictement définis et ils ne laissent pas place à l'appréciation de l'observateur. Ils sont faciles à comprendre et à calculer.

L'analyse et la présentation des résultats de la tendance centrale forment un tout. Vous ne pouvez vous contenter de ne faire que le calcul de la moyenne, il faut passer par toutes ces étapes :

Si vos microdonnées utilisent un facteur de pondération, consultez la page sur la pondération avant de faire vos analyses statistiques.

 

Présentation synthétique

La moyenne est la mesure la plus connue et la plus utilisée des mesures de tendance centrale. Elle est calculée en calculant la somme des valeurs et en divisant par le nombre de mesures. Fréquemment mal utilisée, il faut toujours comparer la moyenne avec la médiane et le mode. 

Dans certains cas, on préfère choisir la donnée au centre de la distribution, c'est la médiane.

Dans d'autres cas, il est préférable de choisir la donnée la plus fréquente, c'est le mode.

Par ailleurs, les chercheurs utilisent les histogrammes et les tableaux de fréquence avant de passer au calcul des tendances centrales. 

Mais il existe de nombreux cas où l'utilisation de la tendance centrale pose des problèmes, il est bon d'être attentif aux subtilités statistiques que leur utilisation demande.

Exemples

Prenons l'exemple de l'analyse du revenu des gens d'un quartier : 

  • La moyenne est un excellent indice de la richesse du quartier;
  • Le mode nous indique le revenu le plus fréquent;
  • La médiane divise exactement en deux groupes égaux : celui des plus fortunés et les autres. La moyenne et le mode ne divisent pas toujours le groupe en deux parties égales.

Quand la distribution est aussi simple que celle-ci :

La moyenne, la médiane et le mode sont pratiquement égaux.

Mais :

  • La moyenne des salaires sera très influencée par la présence d'une valeur extrême comme un millionnaire vivant dans le quartier;

  • La médiane varie beaucoup d'un quartier à l'autre lorsque les revenus sont très variables. Par contre, elle ne sera pas très influencée par la présence de millionnaires.

 

  • Le mode peut indiquer une population pauvre alors que la majorité des gens jouissent d'un revenu confortable;

On voit donc l'importance, pour la suite des analyses statistiques, de bien choisir l'indice de mesure de tendance centrale. 

 

Conclusion

La comparaison des paramètres de dispersion est assez souvent déroutante en analyse statistique. Surtout quand on remarque que des paramètres mesurant une même caractéristique « la dispersion » donnent tous des valeurs différentes.

L'étude des paramètres de dispersion et de leurs méthodes de calculs permet toutefois de comprendre cette apparente contradiction et l'importance de la dispersion pour les analyses futures.

 

Voir aussi

Variables Tendance centrale Dispersion Graphique Utilisation d'échantillons Les relations L'aide SPSS Définitions