Université du Québec à Rimouski

Définitions


Accueil ] Remonter ]Plan du site ] [ Définitions ]


Catégories d'une variable

Les valeurs (ou états) sous lesquelles se présente une même variable. Par exemple, les catégories de la variable « Sexe » pourraient être « Masculin et Féminin ». Voir le texte sur les variables et observations.

Centiles

Les centiles divisent les données en cent classes égales. Chacune des classes contient le même nombre de données à plus ou moins 1. Voir le texte sur les quantiles.

Cote Z

La « Cote Z » permet de comparer les valeurs dans des distributions différentes. Prenons l'exemple où l'on veut comparer les notes de deux étudiants de deux écoles différentes, les « valeurs » sont les notes d'examens et les « distributions » correspondent aux deux écoles. Voir le texte sur la cote Z.

Coefficient de contingence

Rarement utilisé, c'est une mesure d'intensité de la liaison fondée sur le khi carré. Voir le texte sur coefficient de contingence

Coefficient de variation

Le coefficient de variation est une mesure de dispersion des observations. C'est une mesure neutre, calculée en divisant l'écart-type par la moyenne. On exprime souvent le coefficient de variation en pourcentage. Sans unité, il permet de comparer facilement la dispersion des variables différentes. Cette mesure ne dépend pas de l'amplitude des observations, tout en donnant une bonne représentation de la réalité. Voir le texte sur le coefficient de variation

Covariance

La covariance (σxy, sigma de X et Y) permet d'étudier les variations simultanées de deux variables quantitatives par rapport à leur moyenne respective. Cet indice n'est pas normalisé, rendant impossible les comparaisons avec d'autres mesures, ce qui lui enlève beaucoup d'intérêts. Il est utilisé pour calculer les coefficients de corrélation et de régression. Voir le texte sur la covariance.

Distribution normale

La distribution normale est une distribution symétrique en forme de cloche qui est modélisée mathématiquement. Elle est intéressante parce que la très grande majorité des phénomènes naturels tendent vers cette distribution quand on prend un grand nombre de mesures. Par exemple, la distribution de la durée de vie des ampoules électriques a la forme de la distribution normale. Voir le texte sur la distribution normale.

Écart type

La variance et l'écart-type sont deux mesures de dispersion des observations d'une variable quantitative. On les calcule de manière systématique pour chacune des variables utilisées. Ces mesures, liées à la moyenne, donnent une bonne représentation de la réalité, surtout si la variable respecte la distribution normale

En eux-mêmes, ces indicateurs n'évoquent rien de précis, cependant ils permettent de comparer mathématiquement la dispersion des variables. Voir le texte sur l'écart-type.  

Échantillon

Partie, sous-ensemble de la population. Voir le texte sur les échantillons.

Échantillonnage aléatoire

Mode d'échantillonnage sur une population qui répond à ces critères :

  1. Connaissance de l'ensemble des échantillons;
  2. Chaque échantillon a une probabilité connue de sélection;
  3. Chaque échantillon a une probabilité non nulle de sélection; 
  4. Chaque échantillon est choisi aléatoirement. 

Voir le texte sur l'échantillonnage aléatoire.

Échantillon représentatif

Échantillon qui reproduit les caractéristiques d'une population de manière à ce que les conclusions obtenues avec cet échantillon se généralisent à la population. Voir le texte sur les échantillons représentatifs.

Échantillonnage en grappes

Échantillonnage probabiliste reposant sur la sélection aléatoire de grappes. Une grappe est un ensemble d'unités d'une population qu'on constitue à l'aide de critères bien définis. Il peut s'agir d'un groupe qui existe dans la population (îlot urbain, hôpital, etc.) ou d'un groupe théorique (aires d'un quadrillage de carte, etc.). Voir le texte sur les échantillonnages en grappes.

Échantillonnage stratifié disproportionné

Échantillonnage où les strates de l'échantillon global représentent des proportions différentes de la population. Avant d'utiliser l'échantillon global, il faut faire un ajustement, accorder à chacune des strates un coefficient de pondération en fonction de la proportion qu'elles représentent dans la population. Voir le texte sur les échantillonnages en strates.

Enquête

Collecte de données sur une partie ou de la totalité d'une population orientée sur un sujet d'intérêt. Cela se fait en utilisant des concepts, des méthodes et des procédures définies souvent réutilisées régulièrement. Ces données sont suivies d'une analyse et présentées sous un format plus compréhensible et plus utile.

Erreurs d'échantillonnage

Erreurs dues au fait que les observations varient d'un échantillon à l'autre et sont attribuables au hasard. Voir le texte sur les échantillons.

Erreur Type

Mesure du degré de variation de la moyenne d'un échantillon sur l'autre, lorsque ceux-ci sont issus de la même population. C'est l'écart-type de la distribution de toutes les moyennes possibles lorsque des échantillons de même taille sont prélevés à plusieurs reprises.Voir le texte sur les erreurs type.

Étendue

L'étendue est l'intervalle de variation d'une variable quantitative. C'est la différence entre la valeur maximale et la valeur minimale d'une variable. Voir le texte sur l'étendue.

Hypothético-déductive

Approche scientifique d'analyse, qui suppose que les systèmes, ou les organisations, sont structurés et les phénomènes que l’on veut étudier sont mesurables et liés statistiquement entre eux. Dans cette approche le chercheur suit une démarche ressemblant à celle-ci :

  •  Trouver une idée;
  •  Formuler une question de recherche;
  •  Produire une théorie;
  •  Émettre des hypothèses;
  •  Vérifier ses hypothèses afin de les infirmer ou de les confirmer.

Hypothèse nulle

Hypothèse soumise à la vérification. L'hypothèse nulle, notée H0, attribue une valeur à un paramètre statistique, avance qu'il n'y pas de différence entre deux populations ou de relation entre des variables. Voir le texte sur l'hypothèse nulle.

Hypothèse de recherche

Hypothèse définie sous forme d'inégalité ou faisant état de l'existence d'une relation entre des variables. Voir le texte sur l'hypothèse nulle.

Intervalle interquartile

L’intervalle interquartile (IIQ) est la différence entre le premier et le troisième quartile. Les quartiles divisent les données en 4 groupes contenant exactement le même nombre d'observations. Voir le texte sur l'intervalle interquartile.

Khi carré

Le khi carré est un paramètre ou une mesure qui donne une valeur reflétant l'écart entre les effectifs théoriques et observés dans un tableau croisé. Plus le Khi carré est élevé, plus forte est la probabilité qu'il y aie une relation entre les variables étudiées. Cependant, il n'y a pas de lien direct entre la valeur du khi carré et la force du lien entre deux variables.

Le khi carré est symbolisé par c2. On l'appelle aussi le khi deux, le carré de contingence et le khi carré de Pearson. Voir le texte sur le khi carré.

Lambda

Voir le texte sur le Tau de Goodman et de Kruskal (τy)

Médiane

Mesure de tendance centrale qui donne la valeur qui occupe la position centrale dans une série; elle divise la série en deux blocs égaux. Voir le texte sur les médianes.

Microdonnées

Données brutes, correspondant aux réponses individuelles à chacune des questions posées lors d’une enquête, épurées des éléments de confidentialité. En anglais, on utilise le terme « microdata ».

Mode

Le mode est l'observation la plus fréquente d'une série d'observations. Le mode est une mesure de concentration. Voir le texte sur le mode.

Moyenne arithmétique

Mesure de tendance centrale qui marque le point d’équilibre, le centre de gravité, d'une série. C'est la mesure la plus connue et le plus couramment utilisée. Voir le texte sur les moyennes.

Niveau de confiance

Le niveau de confiance donne la probabilité qu'une valeur statistique tombe dans la marge d'erreur spécifiée. Par exemple :

μ = 29 ± 2 à 95 %

Cela signifie que la moyenne de l'échantillon est de 29 et que la moyenne de la population se situe quelque part entre 27 (la moyenne - 2) et 31 (la moyenne + 2). Le niveau de confiance à 95 % signifie que vous avez 95 % des chances que la moyenne de la population soit dans la marge d'erreur spécifiée. Généralement, on demande des niveaux de confiance de 95 % ou de 99 %. Voir le texte sur le cadre opératoire à ce sujet et le seuil de signification.

 

Observations d'une variable  

Ensemble des informations recueillies pour une variable. On dit souvent « les données » pour désigner des observations. Par exemple, lors d'une enquête nous avons fait cent observations pour la variable « Sexe » : 48 de sexe masculin et 52 de sexe féminin. Voir le texte sur les variables et catégories

Phi

Indice de symétrie utilisé uniquement pour les tableaux croisés 2 x 2, c'est un cas particulier du V de Cramer. Voir le texte sur le phi.

 

Poids

Le poids donne pour chaque unité d'un échantillon le nombre d'unités qu'il représente dans la population. La plupart des enquêtes et des sondages utilisent une telle variable. La variable de poids porte souvent le nom anglais de « Weigth » ou une variante orthographique. La variable de poids est le plus souvent la dernière variable énumérée dans la liste des variables du guide de l'enquête. Les calculs des statistiques utilisant une variable de poids doivent se faire avec des logiciels statistiques comme SAS ou SPSS. Voir le texte sur la pondération.

Population

Ensemble des unités qui définissent l'objet d'étude. Voir le texte sur l'échantillonnage.

Quantiles

Les quantiles divisent une série en classes de tailles égales. Par exemple, la médiane divise une série en deux. Voir le texte sur les quantiles.

Quartiles

Les quartiles divisent les données en quatre classes égales. Chacune des classes contient le même nombre de données à plus ou moins 1. Voir le texte sur les quantiles.

Rapport de corrélation (η2)

Le rapport de corrélation2 - êta carré) est une mesure d'association importante, qui permet d'estimer le rapport entre une variable indépendante qui est qualitative nominale ou ordinale et une variable dépendante qui est quantitative. On utilise aussi le rapport de corrélation pour des relations non linéaires entre des variables quantitatives. Voir le texte sur le rapport de corrélation.

Recensement

Collecte de données sur toutes les unités d'une population. Pour Statistique Canada le terme « Recensement » [avec la majuscule initiale] désigne habituellement le Recensement de la population à l'échelle nationale.

Régression linéaire et non linéaire

L'analyse de régression nous permet de produire un modèle de relation entre nos variables, d'estimer l'adéquation de ce modèle et de voir graphiquement la correspondance entre nos données et notre modèle. Ce type analyse nous donne les paramètres pour des relations linéaires ou des relations non linéaires.

Seuil de signification

Probabilité de commettre une erreur de mesure. Plus le seuil de signification est faible, plus la probabilité qu'on doive rejeter l'hypothèse nulle est faible. On désigne le seuil par α (alpha). Voir le texte sur seuil de signification ou le texte sur l'échantillonnage.

Généralement, on établit le seuil à 5 % et même 1%. Dans des circonstances défavorables on se contente d'un seuil 10 %.  

Voir aussi niveau de confiance.

Sondage ou sondage d'opinion

Investigation le plus souvent sociologique, destinée à recueillir des informations d'un échantillon représentatif d'une population. Les résultats sont élargis ensuite à l'ensemble de la population en vue d'estimer quelles sont les caractéristiques, attitudes et préférences de cette population face aux événements et aux questions d'intérêt général. Voir le texte sur les échantillons.

Tableau de fréquences

Le tableau de fréquences présente les observations d'une variable et leurs fréquences sous une forme de tableau synthétique, dans un format facile à lire et à interpréter, sans perdre l’essentiel de l’information. Voir le texte sur les tableaux de fréquences

Tableau croisé

Le tableau croisé, en anglais « crosstab », nous présente sous forme d'un tableau, les fréquences des croisements des catégories de deux ou plusieurs variables. Cela nous permet de faire des analyses de l'interdépendance des variables. Voir le texte sur les tableaux croisés

Tau de Goodman et de Kruskal (τy) et le lambda

Le concept derrière le lambda (λ) et le tauy de Goodman et de Kruskal (τy) est d'estimer dans quelle proportion la variable indépendante influence la variable dépendante. Ces indices ont l'avantage d'être clairs, faciliter la compréhension, permettre facilement les comparaisons et de donner une bonne estimation de la mesure dans laquelle les liens entre les variables sont dus au hasard ou sont réels. Voir le texte sur le lambda (λ) et le tauy

Unité statistique

Élément de la population étudiée. Les « unités » peuvent être des individus tels que des travailleurs, des patrons, des étudiants, etc. Ils peuvent être aussi des objets tels qu'organisations, sociétés ou équipements.

Valeur standardisée

Une valeur standardisée est une valeur sur laquelle on a appliqué la cote Z.

Valeur manquante

Lors d'une enquête ou d'un sondage il arrive que pour différentes raisons (refus de répondre, ne sait pas, ne s'applique pas) que nous n'ayons pas de réponse à une question. Dans ce cas, la valeur est dite manquante.

Variable

Caractéristique pouvant prendre plusieurs des valeurs d'un ensemble d'observations possibles auxquelles une mesure ou une qualité peut être appliquée, par exemple revenu, âge, poids, couleur. Ainsi si l'on demande à 50 répondants leur âge, on utilise le concept de variable pour désigner les différentes réponses de leur âge. Voir le texte sur les variables et celui sur cadre opératoire.

Variable centrée réduite

L'utilisation de la cote Z sur toute une variable, nous donne une variable centrée réduite, une variable dont la moyenne est 0 et l'écart-type.

Variable dépendante

Variable totalement ou partiellement expliquée par la variable indépendante. On l'appelle dépendante parce que sa valeur peut être influencée par l'autre variable. Par exemple, pour le couple de variables « Sexe » et « Taille », la variable « Taille » est dépendante parce que l'on pense que le « Sexe » influence partiellement la taille d'une personne à l'âge adulte.

Dans les équations statistiques, on la représente par le symbole Y pour les valeurs observées et Y' pour les valeurs prédites.

Voir le texte sur le cadre opératoire.

Variable indépendante

Variable utilisée pour prédire les valeurs d'une autre variable (dépendante) dans un modèle. On l'appelle aussi variable prédictive, ou variable explicative dans un modèle de régression parce que la valeur de cette variable nous permet de savoir avec une certaine précision la valeur de la variable dépendante. On l'appelle indépendante parce que sa valeur n'est pas influencée par l'autre variable. Par exemple pour le couple de variables « Sexe » et « Taille », la variable « Sexe » est indépendante parce que le sexe ne change pas en fonction de la taille.

Dans les équations statistiques, on la représente par le symbole X.

Voir le texte sur le cadre opératoire.

Variable métrique

Voir variable quantitative.

Variable qualitative

Une variable qualitative contient des valeurs qui expriment une qualité comme le sexe, la couleur ou le nom par exemple. Voir le texte sur les variables.

Variable qualitative nominale

Une variable est qualitative nominale quand ses valeurs sont des éléments d'une catégorie non hiérarchique. C'est-à-dire que ses éléments ne peuvent pas se ranger dans une gradation logique. Voir le texte sur les variables.

Variable qualitative ordinale

Une variable est qualitative ordinale quand ses valeurs sont des éléments d'une catégorie hiérarchique. C'est-à-dire que ses éléments peuvent être rangés dans une gradation logique. Voir le texte sur les variables.

Variable quantitative ou métrique

Chacune des valeurs d'une donnée quantitative ou métrique doit être telle que des intervalles égaux représentent des distances égales dans la propriété mesurée. Voir le texte sur les variables. 

Variable quantitative continue

Les variables continues peuvent prendre toutes les valeurs possibles dans un intervalle. C'est le cas, par exemple, de la durée que prend un coureur pour faire cent mètres : 9,8287 secondes.  Voir le texte sur les variables.

Variable quantitative discrète

Les variables discrètes ne peuvent prendre que des valeurs discrètes, c'est-à-dire séparées les unes des autres; c'est le cas, par exemple, du nombre d'habitants d'une municipalité. Voir le texte sur les variables.

Variable quantitative d'intervalle

Les variables quantitatives d'intervalles n'ont pas de zéro absolu. C'est-à-dire que le zéro de l'échelle ne correspond pas à l'absence de la propriété. Voir le texte sur les variables.

Variable quantitative de rapport ou rationnelle ou proportionnelle

Une variable est quantitative de rapport quand le zéro correspond à l'absence. Par exemple, dans un recensement 0 enfant correspond à aucun enfant.Voir le texte sur les variables.

Variance

Voir écart-type.

V de Cramer

L'indice de symétrie le plus utilisé et permettant des comparaisons entre différentes variables. Cependant, son interprétation reste floue. Voir le texte sur le V de Cramer.