En statistique, une variable qualitative, est un type de variable qui mesure une qualité d'un individu statistique[a]. Elles sont de type nominale, dit aussi catégorielle, ou bien ordinale.
Définition
Les variables dites qualitative correspondent aux variables nominales, - dit aussi catégorielle[1] - (exemple : garçon, fille ; a voté, n'a pas voté ; physicien, sociologue, biologiste, historien, chimiste, archéologue...) ou ordinale (exemple : pas du tout d’accord, plutôt pas d’accord, plutôt d’accord, tout à fait d’accord ; froid, tiède, chaud, brulant ; inférieur ou supérieure) et indiquent une qualité. Les variables ordinales peuvent être de type qualitative ou quantitative, bien que la distinction est parfois flou[2].
Généralités sur les variables
Une variable est une propriété de quelque chose dont la valeur diffère d’un cas à l’autre (i.e. une variable est quelque chose qui varie) : ceci implique que ce quelque chose possède au moins deux valeurs différentes[3]. L'âge ou la taille sont des variables (il existe plusieurs valeurs que peuvent prendre l'âge ou la taille). Le contraire d’une variable est une constante[3].
Distinction variable qualitative et quantitative
La nature de la variable dépend de l'analyse : ainsi l'âge peut être une variable qualitative (jeune, vieux) ou quantitative (10 ans, 20 ans, 30 ans) ; la taille peut être une variable qualitative (petit, moyen, grand) ou quantitative (1m50, 1m70, 1m90)[4],[5]. Aussi, il est envisageable de passer d'un type de variable à une autre[6],[7]. Autre exemple : le revenu, peut être mesuré soit en tant que variable qualitative ordinale (faible, moyen, élevé), soit en tant que variable quantitative (nombre de dollars par année)[5].
On distingue généralement les variables nominales (dit aussi catégorielle), les variables ordinales, les variables intervalles et les variables de rapports (dit aussi de ratio)[8],[9],[10],[11]. Les variables dites qualitative correspondent aux variables nominales ou ordinale et indiquent une qualité tandis que les variables dites quantitatives correspondent aux variables d'échelle d'intervalle ou de ratio et s'exprime en valeurs numériques[2],[12].
Les modalités des variables qualitatives (nominales et ordinales) sont parfois « numérisées » (i.e. recodage numérique) : par exemple « 0 » homme et « 1 » pour femme ; « 1 » pour classe sociale défavorisée, « 2 » pour classe sociale moyenne, « 3 » pour classe sociale favorisée, ...[2].
De plus, il est possible d’opérer des transformations statistique sur les variables, comme par exemple construire un score factoriel[6]. Comme le précise Pascal Bressoux, professeur en sciences de l'éducation : « Cela procure une certaine flexibilité dans la façon dont on analyse les données. En revanche, il faut reconnaître que cette flexibilité a aussi des inconvénients, en particulier le fait que les résultats, et par conséquent les interprétations qu’on en tire, peuvent être affectés par le type d’échelle de mesure qui a été adopté »[6].
Variable nominale ou catégorielle
Une variable nominale, dit aussi catégorielle[1], permet de classer les individus dans des catégories qualitatives, le plus souvent mutuellement exclusive (un individu est classé dans une seule catégorie)[13],[1]. Les modalités d'une variable nominale marquent des différences qui ne sont pas des différences numériques mais des différences de nature[14]. Exemple : le prénom, le diplôme, la couleur des yeux, le statut matrimonial.
Une variable nominale mesure une relation d’égalité : un individu est soit égal aux autres parce qu’il appartient à la même modalité qu’eux, soit il est différent de tous ceux qui appartiennent à une autre modalité[13]. Exemple : avoir la nationalité française, algérienne, espagnole, italienne, allemande, congolaise, américaine, canadienne, etc. Cet exemple montre que parfois, les modalités catégorielles ne sont pas toujours mutuellement exclusive (un individu peut appartenir a plus d'une modalité de réponse).
Une variable nominale peut être dichotomique, c'est-à-dire n’avoir que deux modalités (exemple : rouge ou bleu ; à réussi ou n'a pas réussi, mineure ou majeur ; rural ou urbain, etc.) ou ou polytomique, c'est-à-dire avoir plus de deux modalités (exemple : rouge, vert, bleu, jaune, violet ; a voter pour le candidat A, a voté pour le candidat B, n'a voté pour aucun candidat, a voté blanc ; petit, moyen, grand ; bébé, enfant, jeune, vieux)[15],[16]. Dans le cas de variables dichotomiques, il n’est pas intuitif de savoir si elles sont nominales ou ordinales : elles peuvent sembler nominales, mais on peut aussi imaginer qu’il s’agit d’une bipolarisation, et que les deux modalités constitues deux pôles d’un continuum[17].
Les modalités d'une variable nominale ne sont pas comparables quantitativement : il n’existe pas de mesure commune de la modalité « marié » et de la modalité « divorcé » de la variable « statut matrimonial »[14]. Par exemple, on ne peut pas faire une moyenne de la modalité « marié » et de la modalité « divorcé ». Autrement dit, il n’est pas possible de les additionner, de les soustraire, de les multiplier ou de les diviser[16].
A strictement parler, les valeurs d’une variables nominales sont des catégories sans ordre[18]. Par exemple, si on dit du drapeau français qu’il est « bleu, blanc, rouge », cet ordonnancement est arbitraire ; il en va de même de l’ordre alphabétique[16].
Variable ordinale
Une variable ordinale permet d’ordonner les individus statistique les uns par rapport aux autres[13],[1],[16]. Autrement dit, là où une variable nominale mesure une relation d’égalité, une variable ordinale mesure une relation d’ordre[13]. Non seulement ceci permet de différencier les individus (propriété de la variable nominale), mais ceci permet aussi d'ordonner les différences entre les individus[13] :
« Par exemple, si un enseignant range ses élèves selon trois catégories, faibles, moyens et forts, on pourra alors dire que, du point de vue de la caractéristique mesurée, les forts sont plus proches des moyens que des faibles. Toutefois, il n’est pas possible d’assigner de valeurs aux écarts (on ne peut donc pas, à proprement parler, définir ces écarts comme des distances) qui séparent deux modalités consécutives et rien n’assure alors qu’ils soient identiques ; dans notre exemple, rien ne dit que l’écart entre faibles et moyens soit le même que celui qui existe entre moyens et forts. La position sociale (défavorisée, moyenne, favorisée), ou les niveaux de sortie du système éducatif (niveau I, niveau II, niveau III, niveau IV, niveau V, niveau VI) sont des exemples de variables ordinales »
Notons qu'une variable ordinale possède des propriétés d'une variable nominale[6] et qu'on attribue souvent des valeurs numériques (1, 2, 3, 4...) à des modalités de réponse ordonnées (pas du tout d’accord, plutôt pas d’accord, plutôt d’accord, tout à fait d’accord...)[6]. Autre exemple de variables ordinales : aliénation faible, moyenne, forte ; taille : très petite, petite, moyenne, grande, très grande ; etc. ; froid, tiède, chaud, très chaud[19]. Par ailleurs, les variables avec des modalités qui correspondent à des classes sont considérées comme qualitative[14],[1]. Par exemple, l'âge peut s'exprimer en classe d'âge : [18-25 ans] ; [26-30 ans] ; [31-40 ans] ; [41-55 ans] ; [56 ans et plus].
Recodage
Le recodage d'une variable consiste à transformer les modalités de réponse de la variable. Concernant une variable qualitative, il est possible de faire un recodage qualitatif ou un recodage quantitatif[6],[7].
Exemple du diplôme
Prenons comme exemple la variable diplôme, régulièrement utilisées en sciences sociales[b],[c]. On cherche à identifier le diplôme le plus élevé qu'a obtenu un individu.
Voici les modalités de réponses possible : aucun diplôme, CEP (Certificat d'études primaires), BEPC, brevet élémentaire, brevet des collèges, CAP, brevet de compagnon, BEP, baccalauréat général, brevet supérieur, baccalauréat technologique ou professionnel, brevet professionnel ou de technicien, BEA, BEC, BEI, BEH, capacité en droit, diplôme de premier cycle universitaire, BTS, DUT, diplôme des professions sociales ou de la santé, d'infirmière, diplôme de deuxième ou troisième cycle, (y compris médecine, pharmacie, dentaire), diplôme d'ingénieur, d'une grande école, doctorat, etc.
Recodage qualitatif
Un premier codage consiste à regrouper des diplômes selon la nomenclature des diplômes par niveau[d]. On obtient six groupes (niveau 3 à 8). Puis on agrège des niveaux de diplômes pour obtenir quatre groupes : niveau inférieur aux BAC (sans diplôme, BEP, CAP, etc.), niveau BAC (général, technologique, professionnel, etc.), niveau de premier cycle universitaire ou équivalent (BAC +2), niveau de deuxième ou troisième cycle universitaire ou équivalent (BAC +5, BAC +8). On obtient un premier recodage qualitatif (sans bac, bac, bac+2, bac+5 ou plus), et il est possible de considérer cette variable comme ordinale suivant la logique « du moins diplômé au plus diplômé ». On peut également réduire le nombre de catégorie (sans bac ou bac ou plus).
Recodage quantitatif
Il est possible d'effectuer un recodage quantitatif, ce qui permet d'élargir le types de traitement statistique. Par exemple, 0 pour sans bac, 1 pour bac, 2 pour bac+2, et 3 pour bac+5 ou plus. L’usage de valeurs numérique (0, 1, 2, 3) pour ces catégories tendrait à faire « comme si » les distance qui les séparent sont équivalente (puisque la distance qui sépare les valeurs numériques 0 et 1 et la même de celle qui sépare 1 et 2, etc.)[13]. Cependant, les distances qui séparent chaque catégorie ne sont pas équivalente[13]. En effet, on ne peut pas dire que la distance qui sépare les catégories 0 et 1 est équivalence à la distance qui sépare les catégories 1 et 2, et à la distance qui sépare les catégories 2 et 3[13].
Exemple de la classe sociale
Selon la manière de coder l'appartenance à une classe sociale, la variable classe sociale sera nominale ou ordinale :
la variable classe sociale mesurée au États-Unis par les valeurs « classes inférieure » (lower classes), « classes intermédiaire » (middle classes), « classes supérieure » (upper classes), est une variable ordinale[16],[20],[21].
la variable classe sociale mesurée par les catégories socioprofessionnelles[e] (Agriculteurs ; Artisans, commerçants et chefs d'entreprises ; Cadres et professions intellectuelles supérieures ; Professions intermédiaires ; Employés ; Ouvriers) est une variable nominale[13].
Dans le premier cas, il existe des positions ordonnée entre les trois classes (par exemple, la classe intermédiaire se situe entre la classe inférieure et la classe supérieure)[22], ce qui n'est pas le cas pour le second cas (toutes les modalités ne sont pas ordonnées).
Contrairement aux variables nominales, les variables ordinales s’inscrivent dans un continuum hiérarchique des valeurs[22]. On peut dire que dans la hiérarchie des classes sociales, une personne provenant de la classe sociale supérieure est plus élevée qu’un personne issue de la classe intermédiaire, et que ce dernier est plus élevé qu’une personne de la classe inférieure. En revanche, on ne peut considérer qu’une personne de la classe sociale supérieure a deux fois plus de classe sociales qu’une personne de la classe inférieure, ou que la distance entre la classe inférieure et la classe intermédiaire est la même que la distance entre cette la classe intermédiaire et la classe supérieure[22]. Il n'est que possible qu’ordonner ces valeurs[22].
Exploitation des variables nominales
Cette section est vide, insuffisamment détaillée ou incomplète. Votre aide est la bienvenue ! Comment faire ?
Les types de traitement statistique de variables sont nombreux : analyse univariée, analyse bivariée, analyse multivariée, indicateur de position, indicateur de dispersion, etc. Les variables nominales permettent de faire des tris à plat, des tris croisés, d'effectifs ou de pourcentages[1].
Notes, références et bibliographie
Notes
↑Un individu statistique est une unité statistique : un objet, une personne, un pays, une couleur, un évènement, etc. (Bressoux 2010, p. 41).
↑L’ISSP est un programme de recherche transnational qui mène des enquêtes sociales sur divers sujets (travail, santé, religion, environnement, etc.) Voir le site internet.
[Blöss et Grossetti 1999] Thierry Blöss et Michel Grossetti, Introduction aux méthodes statistiques en sociologie, Presses Universitaires de France - PUF, (ISBN978-2-13-049880-3)
[Howell 2018] David C. Howell, Méthodes statistiques en sciences humaines, Louvain-La-Neuve, De Boeck Supérieur, , 2e éd. (ISBN978-2-8041-5685-5)
Autres références sur les statistiques descriptives
[Selz 2012] Marion Selz, « Le raisonnement statistique en sociologie », dans L'enquête sociologique, Paris, Presses Universitaires de France - PUF, coll. « Quadrige », (ISBN978-2-13-060873-8, lire en ligne), p. 247-266 — accès gratuit par la bibliothèque Wikipédia.
Références sur la catégorisation des classes sociales utilisées dans l'article
[Desrosières 2008] Alain Desrosières, « Les catégories socioprofessionnelles », Courrier des statistiques, vol. 125,
[Amossé et Penissat 2019] Thomas Amossé et Étienne Penissat, « Entre ordonnancement hiérarchisé des professions et regroupement des métiers par domaine d’activité. La double asymétrie des représentations ordinaires: », L'Année sociologique, vol. Vol. 69, no 2, , p. 511–539 (ISSN0066-2399, DOI10.3917/anso.192.0511, lire en ligne)