L’être humain est un sujet d’étude inépuisable, et passionnant. Voilà d’ailleurs des millénaires que les philosophes, les moralistes, les écrivains, et enfin les savants se penchent sur son cas.
Pour l’étudiant, il existe deux façons d’aborder l’étude des sciences humaines. L’une consiste à se fier aveuglément à ses propres passions ou au jugement d’autrui. L’autre consiste à rechercher la vérité dans les faits, soit par l’observation directe, soit en puisant son information dans la mine d’or des données existantes. Or, les faits observés font souvent l’objet d’une quantification ou d’une comptabilisation, et les données ainsi récoltées prennent alors la forme de chiffres. Il s’agit ensuite d’interpréter ces chiffres à l’aide de quelques outils efficaces et utilisés à bon escient. C’est justement l’objet des méthodes quantitatives en sciences humaines.
L’esprit est souvent victime d’intuitions trompeuses lorsqu’il doit évaluer des données chiffrées, c’est pourquoi il est d’autant plus important d’apprendre à analyser ces données de façon intelligente et efficace.
Pour beaucoup d’étudiants en sciences humaines, l’expression « méthodes quantitatives » réveille instantanément de mauvais souvenirs. Ces étudiants croient bientôt être confrontés à des problèmes de haute statistique, qui dépassent largement leurs compétences. Mais rien n’est plus faux. Il n’est pas question d’avoir recours à de savantes formules mathématiques, mais d’aborder les données chiffrées de façon méthodique. Le contenu mathématique des méthodes quantitatives se limite essentiellement aux opérations arithmétiques de base.
Contrairement à ce que l’on peut trouver dans la plupart des manuels de méthodes quantitatives, la quasi-totalité des exemples présentés dans ce manuel est tirée de la réalité humaine, dans toute sa richesse et sa diversité. Pour développer une approche méthodique, il est en effet primordial d’aiguiser son esprit devant de véritables problèmes de sciences humaines. Pour acquérir une bonne méthodologie, il s’agit avant tout de résoudre des problèmes concrets, et non d’appliquer tant bien que mal des formules abstraites à la complexité des phénomènes humains.
Étant donné l’ampleur du domaine étudié, les méthodes quantitatives en sciences humaines couvrent des concepts très variés. Le sociologue, le psychologue ou l’anthropologue s’intéresseront, par exemple, à des populations composées d’individus, et aux caractéristiques de ces individus (âge, sexe, opinion politique, consommation d’alcool, etc.). L’historien, le politologue ou l’économiste se pencheront fréquemment sur des données chronologiques (démographie, scores électoraux, production, etc.). Toutes ces données seront ensuite transformées, afin de les rendre plus « parlantes » : on calculera, par exemple, la moyenne d’âge des motocyclistes, la proportion de femmes à l’université ou le taux de croissance de la production de maïs transgénique. Les six premiers chapitres de ce manuel seront consacrés à ce type de sujets, que l’on peut qualifier d’essentiellement descriptifs. Par ailleurs, les données récoltées permettent aussi d’aller plus loin : grâce à des méthodes relativement simples, il est possible, à partir d’un simple échantillon, d’estimer les caractéristiques de toute une population ou d’émettre des hypothèses sur cette même population, tout en mesurant le degré d’influence du hasard. Ce sera l’objet des trois derniers chapitres.
Au terme de ce chapitre, vous devriez être en mesure de répondre aux questions suivantes :
Pourquoi est-il important de savoir bien utiliser les chiffres en sciences humaines?
Pourquoi est-il faux de prétendre que les chiffres mentent?
Quelles sont les échelles qui permettent de mesurer ou de classifier les variables?
Comment peut-on représenter graphiquement les informations recueillies?
1. POURQUOI MESURER?
Cette première section du chapitre explique pourquoi il est important de bien manipuler les chiffres lorsqu’on veut comprendre le monde et agir sur lui. Ceux qui sont déjà convaincus de la chose pourront passer directement à la section suivante.
Lorsqu’ils se trouvent confrontés à un problème, nombreux sont les gens qui se fient à leur intuition, plutôt qu’à leur capacité d’analyse. Or, l’esprit humain a ceci de particulier qu’il se laisse souvent berner par ses intuitions, surtout lorsqu’il est confronté à des données quantitatives.
1.1. Réfléchir avant d’agir?
Un premier individu croira, par exemple, qu’une hausse de prix de 100 % sera annulée par une baisse de prix du même pourcentage. Un second individu estimera qu’une température de 20° est deux fois plus élevée qu’une température de 10°. Et si ce second individu se trouve à être un Québécois « moyen », il y a fort à parier qu’il mesure la température de sa piscine et de son aquarium, non plus en degrés Celsius, mais en degrés Fahrenheit, auquel cas il considèrera qu’une eau à 80°F est deux fois plus chaude qu’une eau à 40°F! Par mesure de prudence et d’économie, un troisième individu se déclarera carrément allergique aux chiffres, ce qui le dispensera, croit-il, d’y avoir recours pour se tirer d’embarras. Or, à moins qu’il ne s’agisse de résoudre des problèmes routiniers, cette méthode instinctive (et peu fatigante) se montre rarement efficace.
Comment devrait réagir, par exemple, l’excursionniste qui s’aperçoit qu’il s’est perdu
en forêt? Que devrait faire le premier fabricant mondial de microprocesseurs
lorsque la presse s’aperçoit que sa « puce » a un léger défaut? Quelle
devrait être l’attitude du conseiller municipal qui est appelé à voter
sur le financement de la nouvelle salle de spectacle communautaire?
Ne pas avancer à l’aveuglette.
Nous savons tous que le meilleur moyen de ne plus sortir de la forêt est de courir tête baissée (à l’aveuglette) vers un salut très hypothétique. Il vaut mieux, dans un premier temps, s’asseoir sous un arbre, à l’abri du vent, et réfléchir à la situation : quand ai-je vu le sentier pour la dernière fois? Quelle était ma direction? Où étais-je situé par rapport aux routes ou aux grands cours d’eau et à quelle distance? Y a-t-il un bon poste d’observation à proximité? À quelle vitesse puis-je marcher, et pendant combien de temps? Quelle heure est-il et à quelle heure tombe la nuit? Quels sont les bagages que je possède? En quoi peuvent-ils m’être utiles? Quelle est la quantité d’eau et de nourriture qui s’y trouvent, par exemple? Quelle est la meilleure solution au problème et quelles sont les solutions de rechange? Je fais, en quelque sorte, l’inventaire des informations utiles que je détiens, dont plusieurs sont de nature quantitative. J’essaie si possible d’obtenir d’autres informations et je m’arrange pour combiner toutes ces données de façon à faciliter la résolution de mon problème. Bref, j’ai tout intérêt à procéder de façon méthodique, quitte à me livrer à quelques calculs élémentaires.
Le fabricant de microprocesseurs, quant à lui, peut instinctivement
minimiser le problème de la puce ou même le nier. Il devrait pourtant
se poser lui aussi quelques questions s’il veut vraiment sortir du
bois : quelle est l’ampleur du défaut? Quelle proportion de
ma clientèle est touchée? Quelle proportion de ma clientèle est
susceptible de s’inquiéter ou de s’indigner? Quels sont les coûts
de la réparation? Quels sont les dommages à ma réputation si je ne
répare pas? Quelles sont les différentes manières de réparer?
Le conseiller municipal peut aussi suivre ses impressions personnelles
et voter selon qu’il apprécie ou non les arts de la scène ou les artistes.
Mais pour se prononcer de façon éclairée sur la question de la salle
de spectacle, le conseiller devrait se poser les questions suivantes. Quelle est la clientèle
actuelle? Quelle est la clientèle souhaitée? Quelles sont les infrastructures
existantes? Quels seront les besoins à plus long terme? Quels sont
les coûts du projet? Quelle est l’importance que la population accorde
au projet? Quelles sont les retombées favorables au projet (emploi,
baisse de criminalité)? En quoi le projet favorisera-t-il le développement
des autres branches culturelles et d’autres secteurs (la recherche
scientifique)?
Bien utiliser les chiffres, c’est, avant tout, bien les choisir.
Dans les exemples qui précèdent, certaines variables sont chiffrables
et d’autres pas. Dans ce manuel, nous nous intéressons plus particulièrement
aux variables chiffrables : comment devons-nous les mesurer, les comparer
et les combiner afin de prendre une décision éclairée? Et avant tout,
nous devons nous demander comment les choisir et les utiliser,
compte tenu du problème que nous avons à résoudre et des moyens dont
nous disposons.
Notez comment l’excursionniste perdu ne s’encombre pas la tête de
détails inutiles et ne perd pas son temps à chercher des informations
utiles, mais difficiles à obtenir. De la même façon, notre conseiller
municipal choisira de ne pas se préoccuper de l’évolution en bourse
du cours des matières premières. Cette variable, bien que chiffrable,
est non pertinente ici vu son peu d’effet sur la prise de décision.
Par contre, le coût du projet et ses retombées sont des variables
qu’il convient de chiffrer et de comparer pour appuyer le processus
de prise de décision.
1.2. Les dangers du « pifomètre »
Nous voilà donc convaincus de l’utilité des chiffres : dans bien des
cas, ils permettent une meilleure prise de décision. Il nous reste
à développer une méthode pour transformer en données numériques les
informations que nous jugeons pertinentes. Afin de mieux illustrer
l’importance d’une telle méthode, nous utiliserons un instrument de
mesure universellement répandu, mais rarement suffisant : le pifomètre
(du gaulois pif : nez, et du grec mètre : mesure).
Construction d’une université au pifomètre:
Avis à la population! L’université qui sera enfin construite dans notre ville
devra accommoder pas mal d’étudiants (tous ceux qui sont susceptibles
de poursuivre leurs études dans la région). Il faudra également équiper
un certain nombre de laboratoires et les gymnases nécessaires
et prévoir un stationnement adéquat pour les étudiants et le
personnel qui se déplacent en automobile. Le bâtiment principal devra
être construit plutôt en hauteur, compte tenu du manque
d’espace. Les entrepreneurs sont priés de soumettre leurs devis de
construction dans un délai raisonnable. Ces soumissions devront
être justes et précises.
Cela irait tellement mieux si on disposait de chiffres concrets pour
mesurer les différentes variables du problème. Il est clair qu’on
ne peut pas déterminer avec certitude le nombre d’étudiants qui s’inscriront
effectivement à l’université. Cependant, certaines données facilement
mesurables peuvent nous aider à estimer cette variable essentielle. Il s’agit, entre autres :
du nombre d’étudiants du secteur préuniversitaire de la région;
du taux de passage du préuniversitaire à l’université dans les autres régions;
du nombre d’étudiants originaires de la région qui sont actuellement inscrits dans les autres universités (en tenant compte des programmes qui seront offerts dans la région et de ceux qui ne le seront pas).
Il est également possible d’observer l’évolution des clientèles scolaires
depuis plusieurs années afin de constater l’importance des contingents
qui atteindront l’âge universitaire au cours de la prochaine décennie.
La liste des programmes, des cours et des laboratoires qui en font
partie, et les clientèles aideront également à déterminer l’ampleur
des investissements en laboratoires et gymnases. On aimerait également
obtenir des précisions sur la disponibilité des terrains, leur coût
et leur superficie.
Nous n’avons fait qu’effleurer le problème, mais nous pouvons déjà
constater que beaucoup de chiffres sont disponibles. Il nous manque
toutefois une méthode pour choisir ces chiffres et les utiliser efficacement.
Bien sûr, l’élaboration du devis de construction ne repose pas uniquement
sur des chiffres, car certaines décisions relèvent de choix éducatifs,
sociaux ou politiques. Cependant, le problème ne pourra être résolu
sans l’utilisation intelligente de données chiffrées.
1.3. Croire ou comprendre?
Va pour la construction, mais les chiffres et les sciences
humaines?
Il fut un temps ou les personnes qui œuvraient dans les domaines
des sciences humaines misaient surtout sur l’éloquence de leur discours
ou la beauté de leur plume pour convaincre leur public. Bon nombre d’écrivains
ont peint avec beaucoup de justesse la nature humaine, sans pour autant
utiliser le moindre chiffre. Même de grands économistes comme Marx
ou Keynes évitaient d’avoir recours aux chiffres dans leurs démonstrations.
Aujourd’hui, tout a changé. On use des chiffres (ce qui peut être
fort utile comme nous l’avons remarqué plus haut) et, parfois, on
en abuse. Voyons plutôt.
Au plus fort de la campagne électorale, le débat des chefs se déroule
dans un déluge de chiffres : crochet du droit au taux de chômage, direct
du gauche au déficit, uppercut au taux de criminalité. Soudain,
un des candidats reçoit un sondage d’opinion à la mâchoire, ce qui
a pour effet de lui clouer le bec. Peu après, il va au tapis, assommé
par la baisse des mises en chantiers dans la construction. L’arbitre
arrête le combat.
Que pensent les spectateurs… pardon, les citoyens? Pour certains,
les chiffres constituent des arguments sans appel qu’on accepte sans
trop les comprendre, mais avec respect, comme un acte de foi. Pour
d’autres, plus sûrs d’eux-mêmes, ces chiffres seront réutilisés, après
de légères déformations et réinterprétations, pour discuter avec des
collègues le lendemain. Il s’agira alors plutôt de dérouter l’adversaire
que de le convaincre. Les plus cyniques verront dans les chiffres
un moyen sournois de tromper la population. Pour ces derniers, il
est inutile de se fatiguer à comprendre : les chiffres mentent, un
point c’est tout!
Il existe évidemment une dernière catégorie de gens : ceux qui veulent
conserver leur esprit critique; ceux qui veulent savoir ce qu’un chiffre
dit et ce qu’il ne dit pas; ceux qui veulent comprendre le monde et
la société dans lesquels ils vivent. Voilà, si cela était encore nécessaire,
une excellente raison d’étudier l’utilisation intelligente des chiffres
en sciences humaines.
EXERCICES 1
1. Discussion
Il est souvent essentiel de mesurer avant de pouvoir décider
d’une action à entreprendre. Identifiez, pour chacun des cas suivants,
quelques informations chiffrées qui pourraient aider à la prise de
décision.
a) Un éditeur doit déterminer le tirage d’un manuel.
b) Un collège doit déterminer le nombre de professeurs à embaucher.
c) Une municipalité doit déterminer le nombre de préposés aux parcomètres.
d) La ville de Los Angeles doit contrôler l’accès aux autoroutes pendant
les heures de pointe.
e) Le ministère de l’Environnement veut vérifier l’efficacité de sa
campagne anti-mauvaises herbes.
f) La régie de l’eau doit déterminer la capacité que devra avoir la
nouvelle station d’épuration.
g) Hydro-Québec veut être en mesure de satisfaire à la demande domestique
dans les prochaines années.
Note : Faites d’abord par écrit l’inventaire des variables quantifiables.
Partagez ensuite vos trouvailles entre vous. D’autres étudiants pourront
ajouter ou retrancher des variables. En cas de litige, les étudiants
devront être prêts à justifier leurs réponses.
2. Bulletin météo au pifomètre
Reformulez le bulletin suivant avec des informations chiffrées:
« Aujourd’hui, il fera assez beau dans la région. Ce matin, la température
est relativement fraîche et l’atmosphère est très humide. Le vent
sera plutôt fort. Les skieurs de fond sont priés de s’habiller en
conséquence. »
2. MESURER ET DÉNOMBRER
Nous venons de voir pourquoi il était important, en sciences humaines
comme ailleurs, de mesurer les faits, de quantifier les variables d’un problème
avant de tenter de le régler. Mesure les choses nous aide à mieux les connaître, à mieux les comprendre et à mieux agir sur elles. Après avoir vu
le pourquoi, nous abordons maintenant le comment.
L’étude de l’être humain peut porter sur les personnes elles-mêmes,
mais aussi sur des objets ou des évènements. Intéressons-nous d’abord
aux humains et à leurs caractéristiques.
2.1. Définir ce qu’on mesure
La population représente l’ensemble des individus que l’on a choisi d’étudier. Une fois qu’on a identifié cette population,
on cherche à mesurer certaines caractéristiques des individus qui
la composent.
Choisissons, parmi ces caractéristiques, l’âge, la taille, le salaire,
l’état matrimonial, le lieu de naissance et le métier des êtres humains
qui peuplent la terre. Portons plus précisément notre attention sur le Québécois et la Québécoise « moyens* ». Notre premier spécimen est un homme, âgé de 47 ans, qui a fumé plus de 100 cigarettes dans sa vie (dont la première à l’âge de 15,7 ans). Il pèse 82,7 kg et mesure 1,76 m, ce qui le classe dans la catégorie « embonpoint » de l’indice de masse corporelle (IMC). Il a accompli quelques travaux extérieurs au cours des trois derniers mois, et il possède un diplôme d’études secondaires. Notre second spécimen est une femme, âgée de 48 ans. Elle a fumé moins de 100 cigarettes dans sa vie (dont la première à l’âge de 16,6 ans). Elle pèse 65,5 kg et mesure 1,63 m. Son IMC est classé comme « normal ». Elle n’a pas accompli de travaux extérieurs au cours des trois derniers mois, et elle possède un diplôme universitaire
Une variable est une valeur susceptible de changer
selon l’individu ou selon les circonstances. Dans ce sens, on peut
considérer les caractéristiques d’une population comme des variables.
Toutes ces caractéristiques peuvent varier d’une personne à
l’autre, c’est pourquoi elles sont souvent appelées des variables.
Une fois que l’on a identifié les caractéristiques intéressantes,
il reste à les mesurer, pour chaque élément de la population
que l’on a décidé d’étudier. Cette notion de population ne se limite
d’ailleurs pas aux seuls êtres humains. On pourrait aussi étudier
la population des films (les chefs d’œuvres ou les navets), des baleines
(les grises ou les bleues), ou des jours de l’année (ouvrables ou fériés).
Une variable quantitative est une variable qui prend
ses valeurs dans un ensemble de nombres.
L’âge, le poids et la taille de nos spécimens québécois sont exprimés
par des chiffres. On dira que ce sont des variables quantitatives. On peut faire bien des calculs avec des variables quantitatives. On pourra, par
exemple, calculer le poids moyen des diplômées universitaires et le comparer à celui des autres femmes.
Une variable qualitative est une variable qui prend ses
valeurs dans un ensemble de noms ou de catégories.
D’autres caractéristiques décrivant nos phénomènes sont exprimées par des mots ou des catégories : femme, diplôme universitaire, IMC normal. Ce sont des variables qualitatives.
On ne peut pas faire de calcul direct sur des variables qualitatives.
Personne n’a encore réussi à calculer la moyenne entre deux femmes et trois hommes? Par contre, rien ne nous empêche de compter les diplômés universitaires et les habitants de Montréal. Même lorsque les variables sont qualitatives, on n’échappe pas aux chiffres. D’un côté, on mesure
les variables quantitatives, de l’autre, on dénombre les
individus d’une population qui appartiennent à telle ou telle catégorie
d’une variable qualitative.
On peut imaginer la variable qualitative comme étant composée de boîtes
dans lesquelles on case les individus : on est marié, conjoint de fait,
célibataire, divorcé ou séparé; on est un homme ou bien une femme.
Ces boîtes constituent les catégories de la variable (appelées aussi modalités). La variable quantitative est, quant à elle, comme une ligne sur laquelle on se situe : on possède un certain nombre d’abonnés sur les réseaux sociaux, ou on a une moyenne scolaire
qui se situe entre 0 et 100.
Nous disions plus haut que l’être humain se caractérise aussi par
certains objets ou certains évènements. En voici, quelques exemples.
Des évènements heureux : 51 953 personnes
se sont mariées au Québec en 1973 (le nombre dégringole à 25 021 en 1993, et à 21 138 en 2003). Des évènements tragiques : toujours en 1973, 2209 personnes perdent la vie sur les routes du Québec (ce
chiffre descend systématiquement par la suite pour atteindre 824 en
1994 et 436 en 2013). Le lundi 14 novembre 1994, 1 957 000 téléspectateurs ont regardé
La petite vie à Radio-Canada et le taux directeur de la Banque
du Canada était de 6,04 %. Le 21 mai 2014, ils étaient 935 000 à regarder La Poule aux œufs d’or, alors que le taux directeur de la Banque du Canada était de 1 %. En 1993, le Japon importait 18 millions de bouteilles de cognac, devançant dans l’ordre les États-Unis et Hong Kong. En 2010, la Chine importait 22,6 millions de bouteilles de cognac, se classant derrière les États-Unis et Singapour. En 1993, le Canada comptait 4 162 000 km² de forêts (sur
une superficie totale de 9 971 000 km²) et les Canadiens dépensaient environ 39,9 milliards de dollars pour manger et 18,7 milliards
de dollars pour assouvir certains vices (fumer et boire). En 2013, ces dépenses s’élevaient respectivement à 84,1 milliards et de 34,8 milliards, tandis que les forêts canadiennes couvraient 3 969 000 km².
Vous avez pu constater sans hésiter que certaines de ces variables
sont quantitatives : c’est le cas du taux de la banque centrale, de la superficie
des forêts ou des dépenses des Canadiens. La question est plus délicate
dans le cas des mariages. On peut considérer qu’il s’agit d’une variable
qualitative : le changement d’état civil (avec ses catégories : pas
de changement, mariage, divorce). On peut aussi traiter la variable
comme une variable quantitative (le nombre
de mariages chaque année). À nous de choisir en fonction de
nos besoins et de notre point de vue : l’étudiant en sciences humaines
décide et les chiffres obéissent.
2.2. Classer ce qu’on mesure : les échelles
Chaque variable prend ses valeurs à l’intérieur d’une échelle,
c’est-à-dire parmi un éventail de valeurs possibles. On peut classer
ces échelles en quatre grands modèles : l’échelle nominale et
sa variante l’échelle ordinale (dans lesquelles les valeurs
que prend la variable sont des noms), l’échelle de rapport
et sa sœur cadette l’échelle d’intervalle (dans lesquelles
la variable prend des valeurs numériques). Lorsque la variable semble
ne pas vouloir se conformer à une de ces quatre échelles, c’est peut-être
qu’elle n’a pas été convenablement définie.
Un échantillon représente une partie de la population
que l’on veut observer.
Certains films deviennent des classiques à cause de leur qualité esthétique.
D’autres marquent un point tournant dans l’histoire du cinéma. Bedtime
for Bonzo ne remplit peut-être pas ces critères, mais il fait néanmoins
l’objet d’un véritable culte. Il faut dire que Ronald Reagan (qui
deviendra président des États-Unis 30 ans après le tournage) y joue
le rôle d’un très intellectuel professeur d’université. En compilant
un certain nombre d’ouvrages de référence sur le cinéma, nous avons
établi une liste d’environ 1000 grands classiques (la population
étudiée ici) avec quelques-unes de leurs caractéristiques. Faute de
place, nous ne reproduisons malheureusement qu’une partie de cette
liste dans le tableau 1.1. Il s’agit d’un échantillon qui n’a
rien de représentatif.
Une échelle représente l’ensemble des valeurs que peut
prendre une variable.
Nous regarderons plus particulièrement les quatre caractéristiques (ou
variables) correspondant aux quatre colonnes de droite. Les caractéristiques
genre et cote prennent comme valeur des noms ou des
adjectifs : elles appartiennent à des échelles qualitatives. Par extension,
nous pourrions appeler ces deux caractéristiques des variables
qualitatives, comme nous l’avons déjà fait un peu plus haut. Les
caractéristiques année et durée prennent comme valeur
des nombres : elles appartiennent à des échelles quantitatives (on
peut donc les appeler des variables quantitatives).
L’échelle nominale est constituée d’un ensemble de catégories
exclusives (elles ne se recoupent pas) et exhaustives
(elles couvrent toutes les possibilités).
L’échelle nominale s’applique à une variable qualitative. Les valeurs
que peut prendre la variable s’expriment par des noms ou des catégories.
Les catégories peuvent être délimitées de différentes manières. On
peut les regrouper ou les fractionner selon leur pertinence dans le
projet à l’étude. Le découpage des catégories doit en tous cas respecter
les deux règles suivantes : l’exclusivité (un élément ne peut
appartenir à plusieurs catégories en même temps) et l’exhaustivité
(les catégories doivent couvrir tous les cas possibles).
La variable genre (colonne 4 du tableau 1.1) appartient à une
échelle nominale. Tout film doit appartenir à un genre et un seul.
Dans certains cas, la classification du genre peut s’avérer délicate,
c’est pourquoi il importe de bien définir les catégories au départ.
Si on s’adresse à un public d’initiés, on fera peut-être la distinction
entre film policier, film noir et film d’espionnage. Mais dans tous
les cas, il faudra s’assurer que chaque film pourra être associé à
une catégorie et à une seule.
Dans des enquêtes menées par des étudiants en méthodes quantitatives, il arrive que des individus de la population sondée se voient classés simultanément dans plusieurs catégories de la même échelle. De même qu’un film pourrait être considéré à la fois comme une comédie et un drame historique (variable genre), un individu se voit, par exemple, étiqueté doublement comme Canadien et Japonais (variable nationalité). Ce qui pose problème, c’est que les caractéristiques d’un tel individu pèseraient alors deux fois plus lourd dans les calculs qu’un individu à étiquette unique. Les résultats de l’enquête seraient alors faussés, et, par conséquent, inutilisables. C’est pourquoi il est indispensable de se plier à la règle de l’exclusivité.
L’échelle ordinale est une échelle nominale dont les
catégories peuvent être classées dans un certain ordre.
L’échelle ordinale est une variante de l’échelle nominale. Comme pour
l’échelle nominale, la variable prend ses valeurs dans un ensemble
de catégories. La seule différence est que, dans l’échelle ordinale,
les catégories peuvent être classées dans un certain ordre. Comme
pour l’échelle nominale, le découpage des catégories doit être à la
fois exclusif et exhaustif.
La variable cote (colonne 5) appartient à une échelle ordinale.
Chaque film est associé à une catégorie plus ou moins flatteuse (de
médiocre à excellent, en passant par bon et très bon). Je t’aime un
peu, beaucoup, passionnément, à la folie… pas du tout.
L’échelle d’intervalle est constituée d’un ensemble de
valeurs numériques sans point de référence absolu.
Dans l’échelle d’intervalle, on peut comparer les distances entre
les valeurs que prend la variable, mais il n’existe aucun point de
référence absolu. La variable année de parution (colonne 6)
appartient à l’échelle d’intervalle. Il s’est écoulé autant de temps
entre la sortie de premier et du deuxième film de la liste (1972 – 1954 = 18 ans) qu’entre la sortie du deuxième et du troisième (1990 – 1972 = 18 ans). On ne peut pas pour autant en déduire que Danse avec les loups est 1,018 (soit 1990/1954 = 1,018) fois plus récent
que Les Sept Samouraïs.
L’échelle de rapport est constituée d’un ensemble de valeurs numériques avec un point de référence absolu.
Dans le tableau 1.1, seule la variable durée (colonne 7) appartient
à une échelle de rapport. En effet, on peut dire non seulement que
2001 : Odyssée de l’espace dure 70 minutes de plus que Frankenstein,
mais aussi qu’il est 2 fois plus long (141/70 = 2). Si on se fie
à ce petit échantillon, on remarque que les réalisateurs (ou les
producteurs) ont une prédilection pour les films d’une heure et demie.
2.3. Dénombrer des individus
Observer une caractéristique qualitative est rarement une fin en soi.
Pour le spectateur, qui ne regarde qu’un film à la fois, il est sans
doute intéressant de savoir que le film Les Sept Samouraïs
a été produit par le Japon et a été classé comme excellent par la
critique. Le chercheur, par contre, utilisera souvent les variables
qualitatives pour faire des dénombrements. Il constatera, par
exemple, que le Japon a produit 230 films en 1991 (contre 428 aux
États-Unis, 146 en France et 948 en Inde) ou que la chaîne 99 ne passe
quasiment que des « navets ».
Le nombre d’individus possédant certaines caractéristiques
communes (ou fréquence) constitue aussi une variable.
De la même façon, lorsqu’on cherche, par exemple, à connaître la caractéristique
état civil des individus, c’est soit pour compter la fréquence
de chaque catégorie (le nombre de célibataires, le nombre de personnes
mariées, etc.), soit pour identifier les éléments de la population
qui sont dignes d’être étudiés. Dans le premier cas, on fait un dénombrement,
ou, si l’on préfère, on mesure une fréquence.
Le nombre d’individus appartenant à une catégorie particulière est
aussi une variable (sa valeur peut varier selon les circonstances)
et cette variable est quantitative (elle prend comme valeur
un nombre). Ainsi, on pourra observer la quantité de films canadiens
produits d’une année à l’autre ou d’une province à l’autre.
On peut même utiliser des caractéristiques quantitatives pour
faire des dénombrements. Pour en revenir aux classiques du cinéma,
on pourrait compter le nombre de films parus chaque année, ou
chaque décennie, ou encore le nombre de films « très longs » (deux heures
ou plus) ou de longueur « normale » (moins de deux heures).
En somme, il y a deux manières complémentaires d’étudier une population :
d’une part on mesure un certain nombre de variables pour chaque élément
observé, d’autre part on dénombre les éléments qui possèdent telle
ou telle caractéristique.
Pour mieux comprendre toutes ces notions, nous vous proposons quelques
exemples que nous rattacherons à chacune des quatre échelles de mesure.
2.4. Quelques échelles nominales : évidentes ou cachées
Lors du dernier recensement officiel de l’ex-Yougoslavie, on demandait
aux citoyens de s’identifier à une (et une seule) catégorie d’appartenance
ethnique. Ces catégories étaient généralement déterminées par la langue
(Slovène, Croate), mais parfois par d’autres critères comme la religion
(Serbe*, Musulman).
Toutefois, ces catégories demeuraient valables dans la mesure où les personnes
recensées les reconnaissaient clairement. D’ailleurs, on avait prévu,
en cas de doute, une catégorie fourre-tout, les Yougoslaves, dans
laquelle pouvaient se reconnaître le « Musulman » athée, le Croate marié
avec un Slovène, et le Serbe qui se considérait avant tout comme un
citoyen de la fédération. Dans le tableau 1.2, nous nous sommes limités
à la Bosnie. On peut y constater qu’aucune des catégories ne l’emportait
de façon nette : l’équilibre ethnique y était particulièrement fragile.
Dans le tableau 1.2, les règles de l’exclusivité et de l’exhaustivité
sont respectées. En Bosnie, on ne pouvait pas se déclarer en même
temps Serbe et Croate (même si papa était Serbe et maman, Croate).
Il fallait obligatoirement choisir. D’autre part, si on ne se considérait
ni Musulman, ni Serbe, ni Croate, c’est qu’on était nécessairement
un simple Yougoslave.
Des catégories qui s’ignorent
Parfois, les chercheurs, les statisticiens, ou peut-être les responsables
de la mise en page des études, prennent un malin plaisir à compliquer
la présentation des données pour économiser de l’espace. Observez
le tableau de la figure 1.1 sans regarder le schéma qui se trouve sur sa droite
(en ouvrant seulement l’œil gauche). Êtes-vous en mesure d’affirmer
que les catégories sont bien exclusives et exhaustives (c’est-à-dire
que toutes les possibilités sont couvertes, sans chevauchement)?
Nous avons reconstitué la structure qui sous-tend le tableau. Il y
a, au départ, deux sortes de familles : sans enfants et avec enfants,
et, parmi ces dernières on trouve soit des familles monoparentales,
soit des familles biparentales*.
Les trois catégories figurant dans le tableau de la figure 1.1
correspondent aux trois cases terminales du schéma (celles dont il ne
part aucune flèche). Pour y voir clair dans les chiffres, il suffit
souvent d’un peu d’ordre et d’une simple opération arithmétique (ici,
une addition ou une soustraction).
2.5. Quelques échelles ordinales : authentiques et trafiquées
Vous sentez-vous en sécurité lorsque vous vous promenez tout seul
dans votre quartier, après la tombée de la nuit? C’est la question
que l’on a posée à quelques milliers de Canadiens âgés de 15 ans ou plus lors des Enquêtes sociales générales (voir
le tableau 1.3). On reconnaît dans ce tableau une échelle ordinale
tout à fait typique (très, assez, pas très, pas du tout en sécurité).
Pour rendre l’étude plus intéressante, nous avons rajouté la variable
nominale sexe.
Dans la figure 1.2 figurant ci-après, on reconnaît les caractéristiques
de l’échelle ordinale (qui n’est après tout qu’une échelle nominale
à laquelle on a ajouté une hiérarchie). Le ménage* montréalais fait nécessairement partie de l’une (et une seule) des cinq catégories énumérées.
D’autre part, les ménages sont classés en ordre croissant selon
le nombre de membres qu’ils comptent. Observez les deux dernières
catégories. On a regroupé les ménages de 4 et 5 personnes (après tout,
ça revient à peu près au même) et on a mis dans le même panier tous
les ménages de 6 personnes ou plus (ces ménages sont peu nombreux
et il serait inutile, pour la plupart des observateurs, d’entrer dans
les détails).
Un histogramme est un graphique où les catégories sont représentées par une série de rectangles dont la surface reflète l’importance relative des fréquences de chaque catégorie.
Nous avons représenté les données sur les ménages sous forme d’histogramme
(partie droite de la figure 1.2). Chaque colonne rectangulaire de l’histogramme
représente une catégorie de la variable. Les colonnes se succèdent
dans l’ordre croissant des catégories : si la variable appartenait
à une simple échelle nominale, nous n’aurions pas pu tracer
d’histogramme.
Dans l’histogramme, la surface de chaque colonne est proportionnelle à
la valeur de la catégorie correspondante. La deuxième colonne, par
exemple, est deux fois plus haute que la troisième. Nous avons élargi
la base de la quatrième colonne, puisque la catégorie dont il est
question a une amplitude plus grande que les précédentes (deux personnes
au lieu d’une seule), tout en ajustant sa hauteur en conséquence : on remarque
que la troisième et la quatrième colonne ont à peu près la même surface,
puisque les catégories qu’elles représentent comptent à peu près le
même nombre de ménages. Enfin, pour la dernière catégorie, nous avons
dû nous résigner à fixer une limite arbitraire.
L’histogramme est moins précis que le tableau dont il est issu, mais
il permet d’avoir un bon coup d’œil d’ensemble sur la façon dont
les données sont réparties.
Certains, plus égaux que d’autres.
Dans le tableau 1.4 figurant ci-après, comme dans le précédent, nous avons adapté
une variable quantitative (le revenu, qui peut prendre un nombre
à peu près infini de valeurs) à l’échelle ordinale (la valeur du revenu
n’est alors plus un chiffre, mais une catégorie). Cette astuce permet d’obtenir
un portrait efficace de la répartition (ou distribution) des revenus.
Les catégories (appelées ici des classes) ont été découpées
de façon simple : chiffres ronds, intervalles réguliers (sauf pour
les deux dernières catégories) et nombre raisonnable de catégories
(suffisamment, mais pas trop). Remarquez aussi qu’on a tout prévu :
les familles dont le revenu se situe entre 0 et l’infini n’auront
aucun mal à identifier leur catégorie. Par bonheur, on n’a pas encore
inventé le revenu négatif!
2.6. Une échelle d’intervalle : les grands voyageurs
Dans les échelles qui suivent (échelles d’intervalle et de rapport), les variables
prennent des valeurs numériques. Par exemple, l’année
de la mort d’Étienne Ier, fondateur de l’Église serbe, a pour valeur
1228 (qui est un chiffre appartenant à l’échelle d’intervalle)
et la population de baleines bleues s’élevait à 200 000 (autre chiffre,
appartenant à l’échelle de rapport)
au début du XXe siècle*.
Grâce au tableau 1.5, on peut affirmer, par exemple, qu’il s’est écoulé
492 ans (environ) entre la visite de Leif Ericson en Amérique (en
l’an 1000) et celle de Christophe Colomb (en 1492), mais qu’il a suffi
ensuite d’un délai beaucoup plus court pour que Jacques Cartier se
pointe lui aussi dans le coin (42 ans après Colomb). Avec de tels
chiffres, on peut faire des comparaisons : tout le monde sait que 492
ans, c’est plus long que 42 ans (c’est même, à peu près, 12 fois plus
long).
Par contre, on ne peut pas dire que George W. Bush a mis deux fois plus de temps à accéder à la présidence des États-Unis que Leif Ericson à toucher aux rivages de l’Amérique. En effet, l’année 0 (qui n’a d’ailleurs
jamais existé) n’est pas un point de départ absolu, mais une convention
arbitraire (comme le degré zéro des thermomètres, qui est placé à des
endroits différents selon les pays).
Les valeurs indiquées dans la colonne de gauche du tableau 1.5 appartiennent
donc à une échelle d’intervalle. C’est-à-dire qu’on peut calculer
le nombre d’années qui se sont écoulées entre deux évènements, mais
qu’il est impossible de diviser une valeur par une autre dans le but
de comparer leur grandeur. Il en va de même pour la mesure de
la température : non, il ne fait pas deux fois plus chaud à 20 qu’à 10 degrés!
Plusieurs aventuriers mentionnés dans le tableau 1.5 ont laissé des
récits de leur voyage dans l’inconnu, à une époque où l’automobile
et le Club Med n’étaient pas encore inventés. Vous prendrez grand
plaisir à lire ces récits : ils illustrent une facette surprenante*
et passionnante de l’être humain.
2.7. Une échelle de rapport : les dernières baleines
Nous parlions un peu plus haut de la baleine bleue :
la revoici en compagnie de quelques collègues dans le tableau 1.6.
La variable population de baleines appartient bien à une échelle
de rapport. D’une part elle prend des valeurs chiffrées (en fonction
de l’espèce ou de l’époque considérée). D’autre part, on peut faire
un rapport entre deux valeurs de la variable, car il existe un point
de référence absolu (la valeur 0, que, espérons-le, nous n’atteindrons
jamais pour ce qui est des baleines bleues). Nous pouvons dire, par
exemple, que les baleines bleues étaient 100 fois plus nombreuses au
début du XXe siècle qu’au début du siècle suivant.
À titre de consolation, notons que la situation est moins tragique
en ce qui concerne le rorqual commun. Il en reste 110 000 contre 470 000 au début du XXe siècle. Là encore, on peut comparer l’ordre de grandeur
des deux chiffres.
Les plus observateurs d’entre vous sont peut-être perplexes devant
ce tableau : sa légende indique qu’il s’agit d’une variable quantitative
(la population de baleines). Et pourtant, on y trouve des catégories
de baleines (variable appartenant à une échelle nominale) et des années
(variable appartenant à une échelle d’intervalle). Vous avez deviné
juste, ce tableau illustre le rapport qui existe entre trois variables :
1) la population de baleines, 2) l’espèce de baleine et 3) le temps.
On reverra très souvent ce type de croisement. Si on veut mettre le doigt
sur les différentes variables, on se demande, pour chacune d’entre elles, « qu’est-ce qui varie? »
EXERCICES 2
1. Des échelles connues
Pour chacun des exemples qui suivent, (1) identifiez la variable,
(2) précisez s’il s’agit d’une variable quantitative ou qualitative,
(3) dans ce dernier cas, énumérez les catégories, (4) indiquez le
type d’échelle utilisé.
a) Le grade des membres d’un club de karaté.
b) La quantité d’eau absorbée par un antialcoolique.
c) L’heure d’ouverture des discothèques.
d) Les programmes offerts par un collège.
2. À vos échelles!
a) Selon vous, les deux variables suivantes appartiennent-elles à la même échelle de mesure : la hauteur d’un immeuble, l’altitude d’une montagne?
b) Donnez un exemple détaillé et original pour chacune des quatre échelles
de mesure.
3. Histo-quoi?
Tracez un histogramme à partir des données du tableau 1.4.
3. UNITÉS DE MESURE
Toutes les variables que nous avons énumérées jusqu’ici contenaient
implicitement une unité de mesure. Pour les variables qualitatives,
le problème était relativement simple : on faisait le décompte de chaque
catégorie. Il y avait par exemple 255 485 ménages constitués d’une
personne à Montréal et 2 579 850 familles sans enfants au Canada.
Parfois, pour simplifier la présentation, les décomptes étaient exprimés
en milliers (1321 milliers de Serbes en Bosnie), ou en millions.
3.1. Diversité des unités de mesure
Pour les variables quantitatives, les unités de mesure peuvent être
très diverses : la date (en années) du voyage de Marco Polo,
le revenu (en dollars) de l’Américain le plus riche, le poids des
baleines bleues (en tonnes) et des nouveau-nés (en grammes),
la production de pétrole à Terre-Neuve (en barils).
Comment doit-on choisir l’unité de mesure que l’on utilise?
Le choix de l’unité de mesure dépend souvent de l’objectif recherché.
Le producteur de pommes ne veut pas compter le nombre de pommes de
son verger, mais il se contente de savoir le poids de la récolte par
catégories (Lobo, McIntosh, Golden, etc.). Le camionneur veut connaître
le volume (12 m³ de Lobo et 6 m³ de McIntosh
= 18 m³ de conteneur), peu importe la catégorie. Le douanier
se préoccupe plutôt de la valeur de la cargaison (5000 $). Le pique-niqueur
s’intéresse au nombre (8 pommes pour 8 personnes : une chacun) tandis
que l’excursionniste s’intéresse au nombre et au poids. Quant à la
personne qui suit un régime, elle mesurera plutôt les fruits en calories :
une pomme + une orange = 85 calories. Cette dernière addition vous
semble peu orthodoxe? Nous y reviendrons très bientôt.
Avant d’analyser des chiffres, il est essentiel de bien identifier
les unités de mesure utilisées. Il en va de même lorsque l’on veut
faire des calculs à partir de ces chiffres. Il faut alors veiller
à convertir dans la même unité, si nécessaire, les valeurs calculées
en fonction d’unités différentes. Si le Québec (et ses 7,4 millions
d’habitants en 1995) fusionnait avec Terre-Neuve (et ses 573,6 milliers
d’habitants) pour former une république, quelle serait la population
du nouvel État? La conversion elle-même ne présente pas de difficulté :
ce qui compte, c’est de ne pas l’oublier lorsqu’elle est nécessaire.
Notons que plus l’unité de mesure est grande (au Québec, on compte
en millions et à Terre-Neuve en milliers), plus le chiffre
est petit.
3.2. On n’additionne que des éléments homogènes
Comment préparer une salade de fruits sans faire de la compote.
S’il est facile d’additionner des Québécois et des Terre-Neuviens,
il est par contre impossible d’en faire autant avec des pommes et
des oranges. C’est du moins ce que nous avons tous appris à la petite
école. Il s’agissait alors d’un dogme irréfutable. Le moment est venu,
chers lecteurs, de remplacer cet acte de foi en raisonnement un peu plus subtil.
Si le tiroir de mon réfrigérateur peut contenir 20 fruits de calibre
moyen, peu importe pour moi que je doive y placer 15 pommes + 10
oranges ou 10 pommes + 15 oranges. Ce qui est certain, c’est qu’il
restera 5 fruits qui n’entreront pas dans le tiroir. Si je me préoccupe
du stockage des fruits, j’ai tout à fait le droit d’additionner des
pommes et des oranges. Par contre, s’il s’agit de préparer un canard
à l’orange suivi d’une tarte aux pommes, il n’est plus question de
mettre les deux sortes de fruits dans le même chaudron.
Des éléments sont homogènes s’ils sont exprimés dans
la même unité de mesure.
Les éléments ne peuvent être additionnés que lorsqu’ils sont exprimés
dans la même unité de mesure. On dit alors que ces éléments sont homogènes.
Comme nous venons de le voir, l’homogénéité dépend parfois du point
de vue. Lorsque le ministère de l’Industrie annonce qu’il y a eu 273
203 mises en chantiers au Canada durant l’année 1976 (année record),
il est clair qu’on a additionné des bungalows à des appartements et
à des maisons en rangées. Il en va de même lorsqu’on indique qu’au
Canada 2,7 millions de personnes étaient des travailleurs autonomes indépendants
en 2014, dont 1,7 million d’hommes. Dans ce cas, on peut en effet considérer que 3 menuisiers
+ 2 écrivains sont bien égaux à… 5 travailleurs autonomes. Mais
ce genre de gymnastique a ses limites.
3.3. Une unité de mesure commode, mais capricieuse : la valeur monétaire
Quand on veut évaluer un ensemble d’éléments disparates, on a souvent
recours à une unité de mesure partagée par beaucoup de variables :
la valeur monétaire. Grâce à la valeur monétaire, on peut additionner
2 douzaines d’œufs à 10 tranches de fromage et une caisse de bière :
en tout, ça peut valoir 50 $, par exemple. On utilisera la monnaie
pour mesurer les revenus des individus, la production d’un pays, la dette extérieure,
les taxes municipales, le coût de construction d’une maison, la valeur
d’une récolte, d’un troupeau ou d’une terre, etc.
Cependant, si la monnaie est bien commode (elle rend homogènes
les divers éléments), elle diffère de toutes les autres unités de
mesure sur le point suivant : sa valeur peut varier n’importe quand.
Dieu merci, le mètre et le gramme, deux unités de mesure bien établies,
n’ont pas changé depuis leur création. Par contre, dès que les prix
montent, la monnaie perd de la valeur. Alors, ne vous laissez pas impressionner
par votre grand-père qui prétend s’être débrouillé avec 100 $ par
mois dans sa jeunesse. Nous verrons plus tard comment faire les ajustements
nécessaires lorsque la valeur de la monnaie change. Pour l’instant,
notons seulement que l’unité monétaire n’a de valeur que par rapport
à une date et un lieu donné.
3.4. Un degré de précision adapté
Youpi! J’ai perdu 3,2 grammes!
Avez-vous constaté à quel point les enfants sont précis sur leur âge (« j’ai
5 ans et 3/4 ») alors que les adultes sont plutôt évasifs (« je suis
dans la quarantaine »). Certains parents vous communiqueront avec fierté l’âge
de leur nourrisson en mois et même en jours (mais jamais en heures).
Et lors d’une naissance, la première chose qu’on vous annonce, c’est
le poids du bébé, à une once ou dix grammes près. Le niveau de précision
dépend, encore une fois, du point de vue.
Si on veut s’assurer que le petit bébé a bien absorbé son biberon
dans la pouponnière de l’hôpital, un degré de précision de 10 ou 20
grammes dans son poids sera intéressant. Dans le cas contraire, la
précision n’a aucune valeur en tant que chiffre. Elle sert seulement
à avoir l’air scientifique ou à impressionner. D’ailleurs, si le poids
du bébé semble jouer un rôle de prestige dans notre société (« plus
le bébé est gros, plus on est fier »), il faut bien se rendre compte
qu’un bébé de 3,520 kg n’est peut-être pas plus gros que son collègue
de 3,500 kg : sur quelle balance le bébé a-t-il été pesé, quelle était
la pression atmosphérique, le bébé avait-il les cheveux mouillés,
etc.?
En ce qui nous concerne, étant donné que nous voulons traiter les
chiffres de façon objective et non comme des instruments magiques
ou des boîtes de poudre aux yeux, il nous faut adapter le degré de
précision à l’objectif de l’étude. Les nombreux exemples tirés de
la réalité que nous donnons dans cet ouvrage illustrent, nous l’espérons,
ce principe de simple bon sens.
3.5. Une « société distincte »
Nous l’avons vu un peu plus haut, les Québécois constituent un des rares peuples à utiliser simultanément deux systèmes de poids et mesures. Voilà un excellent sujet d’enquête pour un travail de fin de session, voire pour une thèse de doctorat en anthropologie. Pour le moment, nous nous contenterons d’explorer brièvement ce thème afin de récapituler les principales notions vues jusqu’ici dans ce chapitre.
Au Québec, nous l’avons dit, la température de l’air se mesure souvent en degrés Celsius alors que celle des liquides dans lesquels on trempe les êtres vivants (baigneurs ou poissons rouges) se mesure plutôt en degrés Fahrenheit. L’échelle Fahrenheit est par ailleurs largement utilisée pour la température de la dinde rôtie et des malades. Le poids des êtres humains se mesure en livres (et en onces pour les bébés), alors que la capacité maximum des ascenseurs est indiquée en kilogrammes. La taille de ces mêmes humains se mesure en pieds et en pouces, alors que les distances sur les routes se mesurent en kilomètres. L’essence, le vin et l’eau se mesurent en litres, ou en millilitres, alors que le « gros gin » se mesure en onces.
L’enquête en question consisterait à interroger ou observer un échantillon de la population du Québec et de relever, pour chaque individu, une série de caractéristiques. On s’intéresserait notamment aux différents systèmes de mesure utilisés par les individus selon les circonstances de la vie courante, ainsi qu’à d’autres caractéristiques plus générales, telles que le sexe, la langue maternelle (échelle nominale); l’âge, le niveau de scolarité, ou le revenu de ces mêmes individus (échelle de rapport). On pourrait même examiner leur capacité (échelle ordinale) à convertir des onces en livres, des pouces en pieds et des pieds en milles, ou à orthographier correctement le mot « Fahrenheit »!
Ces caractéristiques, qui constituent nos fameuses « variables », seraient par la suite comptabilisées ou transformées. On pourra, par exemple, évaluer la proportion d’individus qui usent (et abusent) des kilogrammes, ou la moyenne d’âge des individus allergiques au système métrique. On pourra également étudier les différentes relations entre ces variables, ainsi que l’intensité de ces relations. Tous ces sujets font justement l’objet de ce manuel et seront abordés progressivement dans les chapitres à venir.
EXERCICES 3
1. Conversions massives
Répondez aux questions suivantes en vous aidant du tableau 1.7.
a) Convertissez la production québécoise de quadrupèdes (mentionnés
dans le tableau) en millions d’unités.
b) Convertissez la production de lait du Québec en millions de litres.
c) Que pensez-vous des unités de mesure choisies dans le tableau?
2. Soyons précis… mais pas trop.
Pour chacune des situations suivantes, indiquez l’unité de mesure
à utiliser et dites quel degré de précision vous parait souhaitable.
a) L’âge des bébés inscrits à la pouponnière de l’hôpital;
b) L’âge des participants à un marathon;
c) La température d’une salle d’urgence;
d) La température d’un malade;
e) Le nombre de bénévoles pour un souper de fèves au lard;
f) Le nombre de Québécois qui visitent la France chaque année;
g) Le nombre de jours fériés dans l’année;
h) La durée des vacances annuelles;
i) La durée de la semaine de travail;
j) Le temps de cuisson d’un œuf à la coque;
k) Le prix d’une maison, d’une voiture, d’un kilo de viande hachée.
4. PRÉSENTER LES DONNÉES : UNE IMAGE VAUT MILLE CHIFFRES
Les chiffres bruts sont souvent présentés sous forme de tableaux ou
de graphiques. Encore une fois, la façon de présenter les données
dépend du but recherché. Dans les paragraphes qui suivent, nous vous
proposons quelques situations bien réelles que des tableaux ou des
graphiques permettent d’illustrer de façon efficace.
4.1. Les jours fériés
Cher Océan, c’est à ton tour…
D’après vous, qui, des Japonais, des Américains, des Français et des
Québécois bénéficient du plus grand nombre de jours fériés (figure 1.3)? N’allez
pas plus loin : avant de lire la réponse, faites travailler vos préjugés!
Eh bien, les Japonais, qui sont réputés être des bourreaux de travail
viennent d’obtenir, en 1996, un seizième jour de congé officiel (la
Fête de l’Océan). Ils sont maintenant deux fois plus gâtés que les
Québécois.
Nous serions donc les travailleurs les plus zélés au monde?
Quelques remarques s’imposent toutefois sur ces données. Le tableau
ne constitue pas un classement exhaustif, car il ne s’agit pas, par
exemple, des 6 pays du monde qui offrent le plus de jours fériés à
leurs travailleurs. Le choix s’est limité de façon délibérée aux 5
plus gros pays industrialisés et au Québec. Ainsi, la France est la
deuxième du groupe des cinq et non la deuxième au monde. D’autre part,
le tableau ne dit pas toute la vérité sur les congés, car il ne tient
pas compte des vacances annuelles des employés. Selon le Holland
Herald, les Japonais prennent 3 semaines de vacances par an. C’est
moins que les Français et les Allemands (6 semaines), mais c’est déjà
plus que les Américains (2 semaines). Si on considère l’évolution
à plus long terme, on peut même noter un renversement de tendance
depuis 1975, puisque seuls les Américains prennent de moins en moins
de vacances. On estime même que ces derniers ont sacrifié en 20 ans
l’équivalent de 4 semaines de vacances (jours de congé en moins et
heures supplémentaires en plus) dans le but de maintenir leur niveau
de vie.
Dans un diagramme en bâton, les différentes valeurs
que peut prendre une variable sont représentées par des bâtons plus
ou moins grands.
Le graphique présenté à la figure 1.3 est un diagramme en bâtons.
Les bâtons sont horizontaux, parce qu’on voulait écrire le nom des
pays lisiblement, mais le graphique aurait très bien pu être construit
dans l’autre sens sans violer une règle sacrée. On y retrouve deux
variables : le nombre de jours fériés et le pays. Vous avez remarqué
que la variable pays est qualitative et qu’on retrouve à la
base des bâtons les catégories, c’est-à-dire les différentes valeurs
que peut prendre cette variable. La variable nombre de jours fériés
est une variable quantitative qui appartient à une échelle de rapport
et les valeurs qu’elle prend se reflètent dans la longueur des bâtons.
4.2. Les députés de la mafia
Entre 1958 et 1979, un député sicilien sur trois est élu grâce à l’appui
de la Mafia. C’est ce que prétend le très sérieux hebdomadaire italien
L’Espresso du 3 mars 1995. L’article est publié au moment où
Giulio Andreotti, sept fois président du conseil, est mis en accusation.
L’Italie est en pleine opération « mains propres » : de nombreux dirigeants
sont accusés de corruption, et quelques juges courageux tombent sous
les balles de la Cosa Nostra (nom de la Mafia sicilienne). Les procès
donnent lieu à des dénonciations et plusieurs députés sont identifiés
comme « hommes d’honneur » de la Cosa Nostra.
Le tableau accompagnant la figure 1.4, publié par l’hebdomadaire L’Espresso, illustre la présence massive de la mafia dans la députation (le diagramme en bâtons que nous avons tracé à côté du tableau reprend les mêmes données). Les chiffres concernent la Sicile occidentale, c’est-à-dire la partie de l’île où la Cosa Nostra est la plus présente (région de Palerme).
Les liens entre la mafia et la politique touchent particulièrement
le parti de monsieur Andreotti (la Démocratie chrétienne). La plupart
des mafieux se retrouvent dans ce parti et une bonne proportion des
démocrates chrétiens siciliens sont des mafieux. La Sicile est une
région très peuplée (un Italien sur douze y vit) et la Démocratie
chrétienne tenait sans doute à y conserver son emprise, quitte à pactiser avec
le diable.
Qu’est-ce qui se cache derrière les chiffres?
Derrière les quantités se cachent des éléments de nature qualitative.
Il faut souligner que les députés de la Cosa Nostra se réservaient
autant que possible les portefeuilles clés du gouvernement italien :
ministère de l’Intérieur (police), de la Défense (trafic d’armes),
du Commerce extérieur (contrebande), de la Marine marchande (re-contrebande)
et de l’Agriculture (subventions aux riches vergers siciliens). Les
particularités du système électoral italien (à la proportionnelle
avec report possible de votes sur certains candidats) permettaient d’autre
part aux mafieux d’écarter de la course des candidats jugés trop hostiles
à leur cause.
La figure 1.4 présente l’évolution, à travers le temps, du nombre de députés soutenus par la mafia, et du nombre de députés qui ne le sont pas. Ces deux variables appartiennent à une échelle de rapport, même si, au départ, elles ont été construites à partir d’une échelle nominale (le fait pour un député d’être affilié ou non à la mafia). Les bâtons
du diagramme sont divisés en sections, ce qui permet d’illustrer simultanément les deux variables en présence. Les bâtons sont orientés verticalement, ce
qui rend les comparaisons plus commodes. Le diagramme est d’ailleurs
assez clair pour que l’on puisse se passer du tableau. À titre
de comparaison, le tableau des jours fériés était, par contre, indispensable :
dans un cas comme celui-là, les lecteurs sont curieux de connaître
le nombre exact de jours de congés fériés (revoir la figure 1.3).
La figure 1.5 ajoute une nouvelle variable au tableau précédent.
En plus de l’année d’élection et du lien avec la mafia des députés,
on tient compte de leur affiliation aux partis politiques. On vise
ainsi trois buts : le lien avec la mafia montre l’influence de cette
dernière sur la vie politique, l’année d’élection montre la constance
de cette influence et l’affiliation politique montre la relation privilégiée
entre le parti au pouvoir (la Démocratie chrétienne) et la mafia.
Le diagramme en bâton fait encore l’affaire, mais il commence à être
encombré. Si la situation se compliquait (si, par exemple, on tenait
compte de plus de deux partis, ou de plus de deux types de liens avec
la mafia), il faudrait peut-être tracer plusieurs figures séparées.
4.3. La planète du vin
La France et l’Italie se partage généralement la place de premier producteur de vin. En 1993, la France assurait encore près du quart de la production mondiale. On constate
par ailleurs que la vigne se répand progressivement dans toutes les zones tempérées
de la planète. Il y a du vin partout… mais toujours un seul Château-Margot. En 2013, la production mondiale de vin était de 281 millions d’hectolitres (soit sensiblement le même niveau que 20 ans plus tôt), et la consommation s’élevait à 245 millions d’hectolitres. L’écart entre production et consommation s’explique par les usages industriels du vin (fabrication de brandy, vermouth, de vinaigre, etc.). Étant donné qu’un hectolitre contient 100 litres, et que les bouteilles de vin (piquette mise à part) contiennent généralement 0,75 litre (ou 750 millilitres), on peut facilement estimer la consommation mondiale de 2013 à environ 32,9 milliards de bouteilles (pour 7,140 milliards d’habitants sur la terre).
Notez les ressemblances et les différences entre la figure 1.6 et
les trois figures précédentes. Quelle sorte de variable y retrouve-t-on?
Pourquoi avoir choisi un type de diagramme différent pour l’illustrer?
Comme le tableau précédent (les députés mafieux), la figure 1.6,
figurant ci-après, contient une variable de type quantitatif à échelle de rapport :
le volume de vin produit. Cette fois, la variable peut prendre des
valeurs continues (et pas seulement des valeurs entières). On
observe la relation entre la quantité de vin produite et le lieu
de production (espace), et ce à travers les années (temps).
Le diagramme circulaire est découpé en tranches dont
la grosseur reflète la valeur de chaque catégorie d’une variable.
La particularité de ce tableau (par rapport aux trois tableaux précédents)
vient du fait que chaque valeur représente la partie d’un tout. Le
diagramme circulaire est tout à fait approprié pour ce type d’information,
puisqu’il permet à la fois de comparer les pays entre eux et de les
comparer au total. Pour ne pas encombrer le diagramme, il a fallu
cependant simplifier les données et regrouper les pays les moins significatifs.
Si le diagramme circulaire offre un meilleur coup d’œil, le tableau
fournit une plus grande précision.
EXERCICES 4
1. Faites parler les données
Tracez un graphe pour représenter de façon « parlante » les données
des tableaux suivants :
Trouvez des données qui se prêteraient bien aux représentations graphiques
suivantes :
a) Diagramme circulaire.
b) Diagramme en bâton.
c) Histogramme.
EXERCICES SUPPLÉMENTAIRES
1. Au pays des centenaires
a) Identifiez les variables concernant la population japonaise qui ont servi de base à la création du tableau 1.8.
b) Dites à quelle échelle de mesure appartiennent ces variables.
c) Quelles sont les précautions à prendre avant de comparer les lignes du tableau?
d) Tracez le graphique qui, selon vous, illustrerait le mieux ce tableau.
e) Commentez les chiffres du tableau. Que pouvez-vous notamment en déduire sur la longévité, le vieillissement de la population, et les écarts entre les sexes au Japon?
2. Échelle de valeurs
a) Identifiez quelques variables utilisées dans le tableau 1.9.
b) Pour chaque variable, précisez si elle est qualitative ou quantitative,
et à quelle échelle elle appartient.
c) Si une des variables appartient à l’échelle nominale, vérifiez
qu’elle en possède bien les deux caractéristiques. Dites pourquoi cette échelle ne peut pas être qualifiée « d’échelle ordinale ».
3. Quelques arpents de neige
a) Complétez le tableau 1.10. Si vous avez de la difficulté, essayez d’abord la question b.
b) Présentez les catégories et leurs valeurs sous forme de structure arborescente (voir la figure 1.1 sur la structure des familles canadiennes).
c) Convertissez la superficie du Canada en km² et vérifiez
l’adage « multiplier l’unité c’est diviser la mesure et réciproquement ».
Note : un km² est un carré de 1000 mètres de côté. Un hectare est un carré
de 100 mètres de côté.
4. Recherche : la Deuxième Guerre mondiale
a) Identifiez 4 pays ayant participé à la Deuxième Guerre mondiale
et pour chacun d’entre eux trouvez : le camp auquel ils appartenaient
au début de 1943, leur date d’entrée en guerre, le nombre de soldats
mobilisés et une autre variable de votre choix.
b) Identifiez l’échelle de mesure de chacune des variables.
c) Représentez une des variables sous forme de graphique.
5. Pourquoi parlent-ils notre langue?
Avant la chute du bloc de l’Est, le français était, en dehors du russe, la principale langue étrangère parlée en Roumanie, en Moldavie et en Bulgarie.
a) En Moldavie, parmi les 259 300 élèves des écoles secondaires de
langue moldave qui étudiaient une langue étrangère en 1992, 219 181 avaient
choisi le français (contre 24 543 l’anglais, 4185 l’allemand et 5175 l’espagnol). Vérifiez que la langue étudiée est bien une
variable nominale.
b) À l’aide d’un chiffrier électronique, tracez un diagramme circulaire représentant
la distribution des quatre catégories de la variable mentionnée dans
la question précédente (le français en Moldavie).
c) Aux États-Unis, en 1990, le français est la deuxième langue étrangère (après
l’espagnol) étudiée dans les écoles. Au niveau primaire, le français
a une clientèle 2 fois plus élevée que toutes les autres langues réunies
(en dehors de l’espagnol). Le même phénomène se retrouve dans l’enseignement
secondaire. Dans l’enseignement supérieur, la domination du français
sur les langues autres que l’espagnol est moins forte, mais le français
distance encore largement l’allemand, l’italien, le russe et le japonais
(dans l’ordre). Quelles sont les trois variables dont il vient d’être
question et à quelle échelle de mesure appartiennent-elles?
d) Recherche : Obtenez des données récentes à propos des phénomènes cités dans les questions ci-dessus.
(Sources : Atlas de la langue française, Bordas, 1995. Données de 1992
pour la Moldavie et de 1990 pour les États-Unis.)