Les valeurs (ou états) sous lesquelles se présente une même variable. Par
exemple, les catégories de la variable « Sexe » pourraient être
« Masculin et Féminin ». Voir le texte sur
les variables et
observations.
Les centiles divisent
les données en cent classes égales. Chacune des classes contient le même
nombre de données à plus ou moins 1. Voir le texte sur les
quantiles.
La « Cote Z » permet de comparer les
valeurs dans des distributions différentes. Prenons l'exemple où l'on veut
comparer les notes de deux étudiants de deux écoles différentes, les « valeurs »
sont les notes d'examens et les « distributions » correspondent aux deux écoles.
Voir le texte sur la cote Z.
Rarement utilisé, c'est une mesure d'intensité de la liaison
fondée sur le khi carré. Voir le texte sur
coefficient de contingence
Le coefficient de variation est une mesure de dispersion des observations.
C'est une mesure neutre,
calculée en divisant l'écart-type par la moyenne. On exprime souvent le
coefficient de variation en
pourcentage. Sans unité, il permet de comparer facilement la dispersion des
variables différentes. Cette mesure ne dépend pas de
l'amplitude des observations, tout en donnant une bonne représentation de la
réalité. Voir le texte sur le
coefficient de variation.
Covariance
La covariance (σxy, sigma de X et
Y) permet d'étudier les variations simultanées de deux
variables
quantitatives par rapport à leur moyenne respective. Cet indice n'est pas normalisé, rendant
impossible les comparaisons avec d'autres mesures, ce qui lui enlève
beaucoup d'intérêts. Il est utilisé pour calculer les coefficients de
corrélation et de
régression. Voir le texte
sur la covariance.
La distribution normale est une distribution symétrique en forme de
cloche qui est modélisée mathématiquement. Elle est intéressante parce que la très
grande majorité des phénomènes naturels tendent vers cette distribution quand
on prend un grand nombre de mesures. Par exemple, la distribution de la durée de
vie des ampoules électriques a la forme de la distribution normale. Voir le
texte sur la distribution normale.
La variance et l'écart-type sont deux mesures de dispersion des observations d'une
variable
quantitative. On les calcule de
manière systématique pour chacune des variables utilisées. Ces mesures, liées à la moyenne,
donnent une bonne représentation de la réalité, surtout si la variable respecte la distribution
normale.
En eux-mêmes, ces indicateurs n'évoquent rien de précis, cependant ils
permettent de comparer mathématiquement la dispersion des variables. Voir le
texte sur l'écart-type.
Partie, sous-ensemble de la population. Voir le texte sur
les échantillons.
Mode d'échantillonnage sur une population qui répond à ces critères :
- Connaissance de l'ensemble des échantillons;
- Chaque échantillon a une
probabilité connue de sélection;
- Chaque échantillon a une
probabilité non nulle de sélection;
- Chaque échantillon est choisi aléatoirement.
Voir le texte sur l'échantillonnage
aléatoire.
Échantillon qui reproduit les caractéristiques d'une population de manière à
ce que les conclusions obtenues avec cet échantillon se généralisent à la
population. Voir le texte sur les
échantillons
représentatifs.
Échantillonnage en grappes
Échantillonnage probabiliste reposant sur la sélection aléatoire de grappes.
Une grappe est un ensemble d'unités d'une population qu'on
constitue à l'aide de critères bien définis. Il peut s'agir d'un groupe
qui existe dans la population (îlot urbain, hôpital, etc.) ou d'un groupe
théorique (aires d'un quadrillage de carte, etc.). Voir le
texte sur les
échantillonnages en grappes.
Échantillonnage où les strates de l'échantillon global représentent des
proportions différentes de la population. Avant d'utiliser l'échantillon global,
il faut faire un ajustement, accorder à chacune des strates un coefficient de
pondération en fonction de la proportion qu'elles représentent dans la
population. Voir le
texte sur les échantillonnages en strates.
Collecte de données sur une partie ou de la totalité d'une population orientée
sur un sujet d'intérêt. Cela se fait en utilisant des concepts, des méthodes et des procédures définies
souvent réutilisées régulièrement. Ces données sont suivies d'une analyse et
présentées sous un format plus compréhensible et plus utile.
Erreurs dues au fait que les observations varient d'un échantillon à l'autre
et sont attribuables au hasard. Voir le texte sur les
échantillons.
Mesure du degré de variation de la moyenne d'un échantillon sur l'autre,
lorsque ceux-ci sont issus de la même population. C'est l'écart-type
de la distribution de toutes les moyennes possibles lorsque des échantillons de
même taille sont prélevés à plusieurs reprises.Voir le texte sur les
erreurs type.
L'étendue est l'intervalle de variation
d'une variable quantitative. C'est la différence entre la valeur maximale et la valeur minimale d'une variable. Voir
le texte sur l'étendue.
Hypothético-déductive
Approche scientifique d'analyse, qui
suppose que les systèmes, ou les organisations, sont structurés et les
phénomènes que l’on veut étudier sont mesurables et liés statistiquement entre eux. Dans cette approche le
chercheur suit une démarche ressemblant à celle-ci :
- Trouver une idée;
- Formuler une
question de recherche;
- Produire
une théorie;
- Émettre des
hypothèses;
- Vérifier
ses hypothèses afin de les infirmer ou de les confirmer.
Hypothèse soumise à la vérification.
L'hypothèse nulle, notée H0,
attribue une valeur à un paramètre statistique, avance qu'il n'y pas de
différence entre deux populations ou de relation entre des variables.
Voir le texte sur l'hypothèse
nulle.
Hypothèse définie sous forme d'inégalité
ou faisant état de l'existence d'une relation entre des variables.
Voir le texte sur l'hypothèse
nulle.
L’intervalle interquartile (IIQ) est la différence entre le premier et le
troisième quartile. Les quartiles
divisent les
données en 4 groupes contenant exactement le même nombre d'observations.
Voir le texte sur l'intervalle
interquartile.
Le khi carré est un paramètre ou une mesure qui donne une valeur reflétant
l'écart entre les effectifs théoriques et observés dans un
tableau croisé. Plus le
Khi carré est élevé, plus forte est la probabilité qu'il y aie une
relation entre les variables étudiées. Cependant, il n'y a pas de lien direct
entre la valeur du khi carré et la force du lien entre deux variables.
Le khi carré est symbolisé par
c2. On l'appelle
aussi le khi deux, le carré de contingence et le khi carré de Pearson. Voir le
texte sur le khi carré.
Lambda
Voir le texte sur le Tau de Goodman et de Kruskal (τy)
Mesure de tendance centrale qui donne la valeur qui occupe la position centrale dans une série; elle divise
la série en
deux blocs égaux. Voir le texte sur les
médianes.
Données brutes, correspondant aux réponses individuelles à
chacune des questions posées lors d’une enquête, épurées des éléments de
confidentialité. En anglais, on utilise le terme « microdata ».
Le mode est l'observation la plus fréquente d'une série
d'observations. Le mode est une mesure de
concentration. Voir le texte sur le mode.
Moyenne arithmétique
Mesure de tendance centrale qui marque le point d’équilibre,
le centre de gravité, d'une série. C'est la mesure la plus connue et le
plus couramment utilisée. Voir le texte sur les
moyennes.
Le niveau de confiance donne la probabilité qu'une valeur
statistique tombe dans la marge d'erreur spécifiée. Par exemple :
μ = 29 ± 2 à 95 %
Cela signifie que la moyenne de l'échantillon est de 29 et que la
moyenne de la population se situe quelque part entre 27 (la moyenne - 2)
et 31 (la moyenne + 2). Le niveau de confiance à 95 % signifie
que vous avez 95 % des chances que la moyenne de la population soit dans
la marge d'erreur spécifiée. Généralement, on demande des niveaux de
confiance de 95 % ou de 99 %. Voir le texte sur le
cadre opératoire à
ce sujet et le seuil de signification.
Ensemble des informations recueillies pour une variable. On dit souvent
« les données » pour désigner des observations. Par exemple, lors d'une enquête
nous avons fait cent observations pour la variable « Sexe » : 48
de sexe masculin et 52 de sexe féminin. Voir le texte sur
les variables et catégories.
Indice de symétrie utilisé uniquement pour les tableaux croisés 2 x 2,
c'est un cas particulier du V de Cramer. Voir le texte sur le
phi.
Poids
Le poids donne pour chaque unité d'un échantillon
le nombre d'unités qu'il représente dans la population. La plupart des
enquêtes et des sondages utilisent une telle variable. La variable de
poids porte souvent le nom anglais de « Weigth » ou
une variante orthographique. La variable de poids est le plus souvent la
dernière variable énumérée dans la liste des variables du guide de
l'enquête. Les calculs des statistiques utilisant une variable de poids
doivent se faire avec des logiciels statistiques comme SAS
ou SPSS. Voir le texte sur la pondération.
Ensemble des unités qui définissent
l'objet d'étude. Voir le texte sur l'échantillonnage.
Les quantiles divisent une série en classes de tailles
égales. Par exemple, la médiane divise une série en deux. Voir le texte
sur les quantiles.
Les quartiles divisent
les données en quatre classes égales. Chacune des classes contient le même
nombre de données à plus ou moins 1. Voir le texte sur les
quantiles.
Le rapport de corrélation (η2 - êta
carré) est une mesure d'association importante, qui permet d'estimer le rapport entre une variable indépendante qui est
qualitative nominale ou
ordinale et une variable dépendante qui est quantitative. On utilise
aussi le rapport de corrélation pour des relations non linéaires entre des
variables quantitatives. Voir le texte sur le
rapport de corrélation.
Collecte de données sur toutes les
unités d'une population. Pour Statistique Canada le terme « Recensement » [avec la majuscule initiale]
désigne habituellement le Recensement de la population à l'échelle
nationale.
L'analyse de régression nous permet de produire un modèle de relation entre
nos variables, d'estimer l'adéquation de ce modèle et de voir graphiquement la
correspondance entre nos données et notre modèle. Ce type analyse nous donne
les paramètres pour des relations
linéaires ou des
relations non linéaires.
Probabilité de commettre une erreur de mesure.
Plus le seuil de signification est faible, plus la probabilité
qu'on doive rejeter l'hypothèse nulle est faible. On désigne le seuil par α
(alpha). Voir le texte sur
seuil de signification
ou le texte sur l'échantillonnage.
Généralement, on établit le seuil à 5 % et même 1%. Dans des circonstances
défavorables on se contente d'un seuil 10 %.
Voir aussi niveau de confiance.
Investigation le plus souvent sociologique, destinée à recueillir des informations
d'un échantillon représentatif d'une population. Les
résultats sont élargis ensuite à l'ensemble de la population en vue d'estimer quelles
sont les caractéristiques, attitudes et préférences de cette population face aux
événements et aux questions d'intérêt général. Voir le texte sur les
échantillons.
Le tableau de fréquences présente les observations
d'une variable et leurs fréquences sous une forme
de tableau synthétique, dans un format
facile à lire et à interpréter, sans perdre l’essentiel de l’information.
Voir le texte sur les tableaux de
fréquences.
Le tableau croisé, en anglais
« crosstab », nous présente sous forme d'un tableau, les fréquences des
croisements des
catégories de deux ou plusieurs variables. Cela nous permet de faire des analyses de l'interdépendance
des variables. Voir le texte sur les
tableaux croisés
Le concept derrière le lambda (λ)
et le tauy de Goodman et de Kruskal (τy) est d'estimer dans quelle proportion la
variable indépendante
influence la variable dépendante.
Ces indices ont l'avantage d'être clairs, faciliter la compréhension, permettre
facilement les comparaisons et de donner une bonne estimation de la mesure dans
laquelle les liens entre les variables sont dus au hasard ou sont réels. Voir le
texte sur le lambda (λ)
et le tauy
Unité
statistique
Élément de la population
étudiée. Les « unités » peuvent être des individus tels que des travailleurs,
des patrons, des étudiants, etc. Ils peuvent être aussi des objets tels
qu'organisations, sociétés ou équipements.
Une
valeur standardisée est une valeur sur laquelle on a appliqué la
cote Z.
Valeur manquante
Lors d'une enquête ou d'un sondage il arrive que pour différentes raisons
(refus de répondre, ne sait pas, ne s'applique pas) que nous n'ayons pas de
réponse à une question. Dans ce cas, la valeur est dite manquante.
Caractéristique pouvant prendre plusieurs des valeurs d'un ensemble d'observations
possibles auxquelles une mesure ou une qualité peut être appliquée, par exemple
revenu, âge, poids, couleur. Ainsi si l'on demande à 50 répondants leur âge,
on utilise le concept de variable pour désigner les différentes réponses de
leur âge. Voir le texte sur
les variables et celui sur
cadre opératoire.
Variable centrée réduite
L'utilisation de la cote Z sur toute une variable, nous donne une variable
centrée réduite, une variable dont la moyenne est 0 et l'écart-type.
Variable totalement ou partiellement expliquée par la
variable indépendante. On l'appelle dépendante
parce que sa valeur peut être influencée par l'autre variable. Par exemple,
pour le couple de variables « Sexe » et « Taille », la
variable « Taille » est dépendante parce que l'on pense que le « Sexe » influence partiellement la taille d'une personne à l'âge adulte.
Dans les équations statistiques, on la représente par le symbole Y
pour les valeurs observées et Y' pour les valeurs prédites.
Voir le texte sur le cadre opératoire.
Variable utilisée pour prédire les valeurs d'une
autre variable (dépendante) dans un modèle. On l'appelle aussi variable
prédictive, ou variable explicative dans un modèle de régression
parce que la valeur de cette variable nous permet de savoir avec une
certaine précision la valeur de la variable dépendante. On l'appelle
indépendante parce que sa valeur n'est pas influencée par l'autre variable.
Par exemple pour le couple de variables « Sexe » et « Taille », la variable « Sexe » est indépendante parce que le sexe ne change
pas en fonction de la taille.
Dans les équations statistiques, on la représente par le symbole X.
Voir le texte sur le cadre opératoire.
Variable métrique
Voir variable quantitative.
Une variable qualitative contient des valeurs qui
expriment une qualité comme le sexe, la couleur ou le nom
par exemple. Voir le texte sur
les variables.
Une variable est qualitative nominale quand ses valeurs sont
des
éléments d'une catégorie non hiérarchique. C'est-à-dire que ses
éléments ne peuvent pas se ranger dans une gradation logique. Voir le texte sur
les variables.
Une variable est qualitative ordinale quand ses valeurs sont
des
éléments d'une catégorie hiérarchique. C'est-à-dire que ses
éléments peuvent être rangés dans une gradation logique. Voir le texte sur
les variables.
Chacune des valeurs d'une donnée quantitative ou métrique doit être telle
que des intervalles égaux représentent des distances égales dans la
propriété mesurée. Voir le texte sur
les variables.
Les variables continues peuvent prendre toutes les valeurs possibles dans un
intervalle. C'est le cas, par exemple, de la durée que prend un coureur pour
faire cent mètres : 9,8287 secondes. Voir le texte sur
les variables.
Les variables discrètes ne peuvent prendre que des valeurs discrètes,
c'est-à-dire séparées les unes des autres; c'est le cas, par exemple, du nombre
d'habitants d'une municipalité. Voir le texte sur
les variables.
Les variables quantitatives d'intervalles n'ont pas de zéro absolu. C'est-à-dire que le zéro de l'échelle ne correspond pas à l'absence de la propriété. Voir le texte sur
les
variables.
Variable quantitative de
rapport ou rationnelle ou proportionnelle
Une variable est quantitative de rapport quand le zéro correspond à
l'absence. Par exemple, dans un recensement 0 enfant correspond à aucun enfant.Voir le texte sur
les variables.
Variance
Voir écart-type.
L'indice de symétrie le plus utilisé et permettant des
comparaisons entre différentes variables. Cependant, son interprétation reste
floue. Voir le texte sur le
V de Cramer.
|