La dispersion
Les indices de tendances centrales qui
décrivent globalement les variables (moyenne, médiane ou mode) ne
donnent aucun renseignement sur la distribution des données. Par exemple,
on peut se demander si les données sont concentrées autour de la moyenne
ou répartie sur un large intervalle. Y a-t-il des valeurs extrêmes ? La
distribution est-elle la distribution normale ? Ces caractéristiques
importantes sont des aspects pris en compte dans les analyses de
dispersion.
Si vos microdonnées utilisent un facteur de pondération, consultez la
page sur la pondération avant de faire
vos analyses statistiques.
Importance de l'évaluation de la dispersion
L'étendue
L'intervalle interquartile
La distribution normale
L'écart-type et la variance
Le coefficient de variation
La cote Z
Conclusion

Certaines variables peuvent avoir la même moyenne, mais
présenter une réalité complètement différente. Prenons l'exemple fictif des salaires
des travailleurs industriels et de ceux de la population
générale. Les
diagrammes à bâtons ci-dessous nous montrent la répartition des
salaires des deux groupes.

Les deux distributions ont la même médiane, la même moyenne et le même
mode, mais elles sont très différentes. En regardant les diagrammes à
bâtons, nous pouvons observer une réalité complexe : la dispersion des données
diffère de manière importante entre les groupes. On observe que les
salaires industriels sont moins variés que ceux de la population. C'est
une caractéristique importante, de deux réalités bien différentes.
Il existe d'autres situations où la dispersion joue un rôle important.
Par exemple, si la moyenne d'une distribution est relativement élevée par rapport à
son mode ou à sa
médiane, cela implique que les valeurs faibles
ont une plus forte fréquence que les valeurs élevées. Cela s'observe dans
la distribution des revenus de beaucoup de communautés.

Le premier réflexe quand on étudie la dispersion des données est de
calculer l'étendue, c'est-à-dire l'écart entre la valeur maximum et
minimum.
Bien qu'étant une mesure simple, l'étendue
est une bonne introduction à la dispersion.
L’intervalle interquartile (IIQ) est un bon estimateur de la
dispersion et il est beaucoup plus simple à comprendre et à calculer que
l'écart-type.
Nous proposons cette étude en deux étapes :
La dispersion des données forme ce qu'on appelle sa distribution. C'est
un caractère important d'une distribution, car il reflète de la variabilité des données. La
distribution la plus connue en statistique est la
distribution normale. En fait,
presque toutes les mesures que vous faites, ont la forme de la
distribution normale.

La distribution normale est intéressante parce qu'en connaissant la
valeur de l'écart-type et la moyenne d'une variable nous possédons suffisamment
d'informations pour calculer les probabilités associées à cette variable.
Une grande partie des calculs en statistique requiert que les variables
soient distribuées selon la distribution normale. La page sur la
distribution normale explique
l'importance de cette distribution, ses principales caractéristiques et
les tests de vérifications de conformité des variables à la distribution.
Associées à la distribution normale, nous avons deux mesures
importantes de
dispersion : l'écart-type et la
variance. Relativement facile à calculer ces mesures de dispersion jouent
fréquemment un rôle important dans les analyses statistiques. C'est
pourquoi on les évalue systématiquement.
Le coefficient de variation, permet de
comparer en pourcentage la dispersion des distributions de variables de
nature différente. On peut comparer la dispersion des mesures sur les
souris en millimètres et avec celles des baleines en mètres. Ce que
l'écart-type ne peut faire.
La cote Z n'est pas une mesure de dispersion. Mais elle y est associée
étroitement parce qu'elle nous permet de comparer des groupes ayant une
moyenne et une dispersion différente. Un travailleur dans une usine
vétuste peut être aussi méritant qu'un autre dans une usine moderne. Le
premier n'a tout simplement pas les outils adéquats.
La page sur la cote Z nous montre
comment faire des comparaisons dans ces circonstances.

Présentation
Le premier réflexe quand on utilise un ensemble de données est d'en
calculer la moyenne. Cependant, la moyenne n'est pas toujours adéquate ou
suffisante pour caractériser nos données, ce que l'on veut savoir, en
réalité, c'est la tendance centrale.
L'expression « tendance centrale » regroupe
l'ensemble des
techniques statistiques visant à donner une mesure du milieu, du centre d’un ensemble de données. Les indices de tendance centrale sont utiles parce qu'ils
sont strictement définis et ils ne laissent pas place à l'appréciation de
l'observateur. Ils sont faciles à comprendre et à calculer.
L'analyse et la présentation des résultats de la tendance centrale forment un
tout. Vous ne pouvez vous contenter de ne faire que le calcul de la moyenne, il
faut passer par toutes ces étapes :
Si vos microdonnées utilisent un facteur de pondération, consultez la page
sur la pondération avant de faire vos
analyses statistiques.

La moyenne est la mesure la plus connue et
la plus utilisée des mesures de tendance centrale. Elle
est calculée en calculant la somme des valeurs et en divisant par le nombre de
mesures. Fréquemment mal utilisée, il faut toujours comparer la moyenne avec
la médiane et le mode.

Dans certains cas, on préfère choisir la donnée au centre de la
distribution, c'est la médiane.
Dans d'autres cas, il est préférable de choisir la donnée la plus
fréquente, c'est le mode.
Par ailleurs, les chercheurs utilisent les histogrammes
et les tableaux de fréquence avant de passer au
calcul des tendances centrales.
Mais il existe de nombreux cas où l'utilisation de la tendance centrale pose
des problèmes, il est bon d'être attentif aux
subtilités statistiques que leur utilisation demande.

Exemples
Prenons l'exemple de l'analyse du revenu des gens d'un
quartier :
- La moyenne est un excellent indice de la richesse du
quartier;
- Le mode nous indique le revenu le plus fréquent;
- La médiane divise exactement en deux groupes égaux :
celui des plus
fortunés et les autres. La moyenne et le mode ne divisent pas toujours le
groupe en deux parties égales.
Quand la distribution est aussi simple que
celle-ci :

La moyenne, la médiane et le mode sont pratiquement égaux.
Mais :

On voit donc l'importance, pour la suite des analyses
statistiques, de bien choisir l'indice de mesure de tendance centrale.

La comparaison des paramètres de dispersion est assez souvent déroutante en analyse statistique.
Surtout quand on remarque que des paramètres mesurant une même caractéristique
« la dispersion » donnent tous des
valeurs différentes.
L'étude des paramètres de dispersion et de leurs méthodes de calculs
permet toutefois de comprendre cette apparente contradiction et
l'importance de la dispersion pour les analyses futures.

Voir aussi
|