CHAPITRE 9 LES RELATIONS ENTRE VARIABLES

   1   2   3   4   5   6   7   8   9   Tables
 

Lorsque deux variables « varient » de concert, on peut affirmer qu’elles sont reliées. Mais quelle est la nature réelle de leur relation? Est-ce une relation de cause à effet? Autrement dit, est-ce que l’une des variables (la variable dépendante) dépend de l’autre (la variable indépendante) et si oui, laquelle, pourquoi et comment? Ou bien sommes-nous en présence d’une simple corrélation? Dans ce cas, se pourrait-il que les deux variables en jeu dépendent d’une troisième variable?

 

Au terme de ce chapitre, vous devriez être en mesure de répondre aux questions suivantes :

  • Comment, en examinant les chiffres, peut-on déceler s’il existe une relation entre deux variables?
  • Comment, lorsque les chiffres proviennent d’une enquête, peut-on déterminer si la relation observée peut être attribuable au hasard de l’échantillonnage?
  • Quelle est la nature de la relation? Est-ce une relation de cause à effet ou est-ce une simple corrélation?
  • Quelle est la force de la relation? Peut-on utiliser les résultats observés pour faire des prédictions intéressantes?


 

1. SCHÉMA DE RELATIONS

Qui influence quoi?

Avant de faire de savants calculs sur la force éventuelle d’une relation, il est indispensable d’établir comment les variables sont reliées les unes aux autres. Pour cela, rien ne vaut un bon vieux dessin. Nous vous proposons ici deux procédés (schéma et courbe) permettant de clarifier les relations entre les variables et de faire ressortir certains aspects intéressants de ces relations.

 

1.1. Sagesse populaire

En Italie, une croyance populaire très ancienne veut que le vin soit un fortifiant idéal pour un préadolescent un peu anémique. Un verre quotidien, de rouge évidemment, et le sang retrouve ses couleurs. Au pays de Descartes, cette coutume fait sourire. Au pays de Victoria, elle scandalise. Enfin, au pays de Ti-Poil, on se contente de taxer le vin sans juger personne. Et si la sagesse populaire italienne avait raison envers et contre tous?

Qu’est-ce qui se cache derrière cette corrélation?

Selon une recherche citée par le magazine Sciences et Avenir de février 1995, on a observé une corrélation négative entre la consommation d’alcool et le taux de mortalité : corrélation parce que les deux variables varient en même temps, et négative parce qu’elles varient en sens inverse.

Il existe théoriquement trois manières de relier ces variables :

  • 1) La consommation d’alcool (variable indépendante) exerce une influence sur le taux de mortalité (variable dépendante).
  • 2) Le taux de mortalité (variable indépendante) exerce une influence sur la consommation d’alcool (variable dépendante).
  • 3) La consommation d’alcool et le taux de mortalité sont toutes deux influencées par une troisième variable à découvrir.

La deuxième hypothèse doit être rejetée d’emblée parce qu’elle est absurde. Par ailleurs, c’est grâce à la découverte des chaînons manquants reliant les variables que nous pourrons finalement écarter la troisième hypothèse et retenir la première. C’est ce que nous avons voulu illustrer dans la figure 9.1.


Comment construire un schéma de variables.

Le schéma de variables, dont nous avons déjà vu quelques exemples au chapitre 6, illustre les relations de cause à effet (représentées par une flèche) entre les variables (représentées par des cases). Les signes qui accompagnent les flèches représentent le sens de la relation : un signe positif indique que les variables augmentent en même temps et diminuent en même temps (relation directe); un signe négatif indique que les variables varient en sens inverse. Évidemment, le signe ne s’applique pas pour des variables purement nominales dans lesquelles il n’y a ni ordre ni direction.

Dans le schéma, on constate qu’il y a une relation directe entre la consommation d’alcool et le taux de bon cholestérol : les deux variables varient dans le même sens, ce que nous indiquons par un signe positif. On note aussi qu’il existe une relation inverse entre le degré de fluidité du sang et le taux de mortalité : lorsque le premier augmente, le second diminue, ce que nous indiquons par un signe négatif.

Dans la partie droite de la figure 9.1, nous avons fait la synthèse de la relation en éliminant toutes les variables intermédiaires : la cause (consommation d’alcool) est reliée à l’effet (taux de mortalité) par une flèche surmontée d’un signe négatif. Ce signe est obtenu en combinant tous les signes successifs du schéma original, en prenant pour principe que la relation change de sens chaque fois que l’on rencontre un chiffre négatif.

Alors, vite! Une bouteille et ça presse? Minute! Il est clair que nous nous sommes contentés d’étudier un seul aspect de la question. Passé un certain seuil, par exemple, la consommation d’alcool est reliée de façon inverse au taux de mortalité par l’intermédiaire de ce cher vieux foie que nous avons tous.

 

1.2. Tarzan au lit

Rien de tel qu’épouser une personne bardée de prix Nobel ou de médailles olympiques pour avoir des enfants beaux et forts, n’est-ce pas? Cependant, avant de faire votre demande en mariage, prenez note du fait suivant : on a observé, chez les hommes qui s’adonnent à la course de fond, que le sperme était moins volumineux et les spermatozoïdes moins mobiles que d’ordinaire. De quoi diminuer les chances de fécondation? On serait tenté de prétendre que le faible volume de sperme réduit la mobilité des spermatozoïdes, un peu à la manière des billots qui se traînent misérablement sur une rivière l’été. Il n’en est rien cependant. Les phénomènes sont seulement corrélés, car ils dépendent d’une variable commune : la longueur de la course de fond, et l’état d’épuisement qui en résulte. C’est très sérieux! Nous l’avons également appris dans la revue Sciences et Avenir (voir le schéma de la figure 9.2).


 

1.3. L’alcool au volant

Cette fois, l’alcool est plutôt nuisible.

Vous avez un ami qui a déjà conduit en état d’ivresse sans avoir d’accident. Cet ami en déduit que l’alcool et le volant font bon ménage, d’autant plus que son oncle, antialcoolique notoire, a déjà provoqué un carambolage monstre sur l’autoroute métropolitaine après avoir bu un verre d’eau.

Il n’en demeure pas moins que les conducteurs qui ont une prédilection pour la dive bouteille ont beaucoup plus de chance d’être impliqués dans un accident de la route que les non-buveurs. C’est ce qu’indique l’étude menée par Statistique Canada (voir la figure 9.3). Si un dessin vaut mille mots, une courbe vaut parfois mille calculs : nous avons tracé, sous la figure 9.3, des courbes* qui mettent en évidence la relation entre consommation d’alcool (sur l’axe horizontal) et taux d’accident (sur l’axe vertical).



Comment interpréter les différences entre hommes et femmes? Une fausse explication serait de dire que les femmes boivent moins que les hommes. Que cela soit vrai ou non, cela n’a pas d’influence ici puisqu’on nous donne des taux d’accidents par catégorie de buveurs, et non des fréquences brutes. Il se pourrait également que les femmes conduisent mieux que les hommes — sauf celles qui boivent le plus. Cette hypothèse n’est pas à rejeter, quoiqu’il soit facile de proposer une autre explication : il se peut que les femmes aient moins d’accidents parce qu’elles conduisent moins. Il ne reste plus qu’à trouver les chiffres qui permettent de confirmer ou de rejeter toutes ces hypothèses.

 

1.4. La télévision

Si la durée d’écoute hebdomadaire de la télévision est très élevée au Québec, elle commence néanmoins à décliner. Les méchantes langues diront que c’est parce que de nouvelles formes d’abrutissement ont été mises au point. Au fait, savez-vous qui regarde le plus la télévision : les hommes ou les femmes? Les « vrais » Québécois ou les « faux »? Encore une fois, des chiffres bien choisis vont pouvoir détruire (ou renforcer) quelques préjugés.

Dans la figure 9.4, nous avons choisi de représenter par des courbes la relation entre heures d’écoute (sur l’axe vertical, la position préférée de la variable dépendante) et groupe d’âge (sur l’axe horizontal*. Les courbes mettent bien en évidence le fait que l’écoute de la télévision augmente avec l’âge. Cela dit, la véritable explication vient peut-être du fait que les vieux ont plus de temps libre que les jeunes (voir le schéma de variables au centre de la figure 9.4). Pour vérifier cette hypothèse, on pourrait consulter une des nombreuses études sur le temps libre*. Cette influence de l’âge sur les heures d’écoute se retrouve systématiquement chez les deux sexes et auprès des deux groupes ethniques.



Encore une fois, l’utilisation de courbes et d’un schéma de variables a permis de mettre en évidence la relation et d’enrichir la description du phénomène.

 

1.5. Un cas plus complexe : les deux variables s’influencent mutuellement

Le taux de divorce, c’est-à-dire le nombre de divorces par rapport au nombre de mariages, est en hausse dans tous les pays industrialisés. En observant la figure 9.5, on se demande si le divorce et le développement économique ne sont pas corrélés.


Nous utiliserons ce dernier exemple pour montrer qu’il n’est pas toujours facile de distinguer la variable dépendante de la variable indépendante dans une relation de cause à effet. Le nombre de divorces dépend, entre autres, du nombre de mariages : seuls les gens mariés peuvent divorcer. Mais le nombre de divorces peut, lui aussi, influencer le nombre de mariages : chaque divorcé est un futur marié potentiel remis « sur le marché ». Nous avons illustré cette influence réciproque à la figure 9.6, que nous avons par ailleurs enrichie en tenant compte de certains facteurs démographiques : lorsqu’une vague de jeunes arrive à l’âge de convoler, le nombre de mariages augmente naturellement, suivi, quelques années plus tard par une hausse du nombre de divorces.



 

EXERCICES 1

1. Le thé, autre gage de santé

Répondez aux questions en vous référant au schéma de variable de la figure 9.7.


a) Quelle est la nature de la relation entre la consommation de thé vert et l’incidence du cancer de l’œsophage (simple corrélation ou relation de cause à effet)?

b) Si la relation en est une de cause à effet, quelle est la variable associée à la cause, quelle est la variable associée à l’effet et quel est le sens de la relation (direct ou inverse)?

2. Quand on n’en a pas on l’aime, quand on en a on s’ennuie

a) Pour mettre en évidence la relation entre l’âge et l’organisation du temps des individus, tracez des courbes, à partir des données du tableau 9.1.

b) À propos de la figure 9.4, nous avions émis une hypothèse selon laquelle les personnes plus âgées ont de bonnes raisons d’écouter la télévision, étant donné qu’elles disposent de plus de temps libre que les jeunes. Le tableau 9.1 confirme-t-il cette hypothèse?


 

2. RELATION ENTRE DEUX VARIABLES QUALITATIVES

Après avoir constaté la présence d’une relation entre deux variables, il reste à évaluer la force de cette relation. Par ailleurs, si les chiffres obtenus proviennent d’un simple échantillon, il faut prendre quelques précautions supplémentaires en s’assurant que les résultats observés ne sont pas l’effet du hasard.

 

2.1. Le tableau croisé

Chaque colonne du tableau croisé correspond à une catégorie d’une des deux variables et chaque ligne correspond à une catégorie de l’autre variable.

Lorsque les variables sont qualitatives, on a souvent recours à un croisement entre les catégories de chaque variable*. Dans le cas du tabagisme chez les jeunes, par exemple, on pourrait croiser la variable sexe (en colonnes) avec la variable consommation de cigarettes (en lignes) pour déterminer si le sexe a une influence sur le comportement (l’inverse est peu probable!). Chaque case du tableau croisé contiendra une fréquence, c’est-à-dire le nombre d’individus correspondant simultanément à la caractéristique de la colonne et à celle de la ligne.

Dans chaque case du tableau croisé, on inscrit les fréquences associées à la catégorie de la colonne et à celle de la ligne correspondantes.

Les données du tableau 9.2 et du tableau 9.3 proviennent de deux enquêtes effectuées dans les années 1990 sur les adolescents au Québec. Nous les avons extraites d’un article publié dans la Revue québécoise de psychologie dans lequel l’auteur cherche à montrer que la perception des gens à l’égard des adolescents est plus influencée par les préjugés que par la réalité. Notre propos est ici beaucoup plus modeste : nous utiliserons deux exemples de cette recherche pour étudier la présence et la force d’une relation entre deux variables qualitatives. Le premier exemple traite d’un comportement (« fumes-tu la cigarette? ») et le second d’une perception des choses (« mes parents se chicanent souvent entre eux »). Nous essaierons de déterminer si le sexe a une influence sur le comportement (dans le premier cas) ou sur les perceptions (dans le second).

Commençons par observer les données brutes de l’enquête sur le tabagisme. Dans le tableau 9.2a, on constate que 5580 élèves du secondaire ont été interrogés, dont 2650 garçons et 2930 filles. Sur les 2930 filles interrogées, 322 déclarent fumer régulièrement, 355 à l’occasion et 2253 jamais. Toutes proportions gardées, puisque l’échantillon contient davantage de filles que de garçons, ces dernières semblent plus enclines à fumer que leurs confrères.

Pour en avoir le cœur net, observons les proportions calculées dans le tableau 9.2b. Étant donné que les filles représentent 52,5 % de l’échantillon, on peut s’attendre à retrouver dans la colonne « filles » des proportions légèrement supérieures à celles de la colonne « garçons ». Or, on constate que sur les 9,3 % d’élèves qui fument régulièrement, 5,8 % sont des filles et 3,5 % sont des garçons : on ne peut plus parler de « légères » différences.

Étant donné que 9,3 % des élèves fument régulièrement et que 47,5 % d’entre eux sont des garçons, on pourrait s’attendre à ce que 9,3 % x 47,5 % des fumeurs réguliers soient des garçons. Sur les 5580 élèves interrogés, il devrait donc y avoir « théoriquement » 9,3 % x 47,5 % x 5580 = 246 garçons classés comme fumeurs réguliers. C’est ce qu’on appelle la fréquence théorique (tableau 9.2c), par opposition à la fréquence observée (tableau 9.2a).

Fréquence théorique d’une case = Proportion de la ligne x Proportion de la colonne x Fréquence totale

Fréquence théorique de filles qui ne fument jamais = 80,5 % x 52,5 % x 5580 = 2358
(Ou encore : 0,805 x 0,525 x 5580 = 2358)

Si le sexe n’exerçait aucune influence sur le tabagisme, la répartition des élèves entre les diverses catégories (tableau 9.2a) devrait ressembler à celle obtenue dans le tableau des fréquences théoriques (tableau 9.2c). Lorsque l’on compare ces fréquences théoriques aux fréquences observées dans l’enquête, on constate toutefois certains écarts, qui ne sont ni énormes ni négligeables. L’utilisation d’un outil assez répandu, le Khi carré, va nous permettre d’évaluer l’importance de cet écart et de l’interpréter.

Examinons la première case du tableau 9.2a : 196 individus y sont recensés alors qu’on s’attendait à en retrouver 246 (voir tableau 9.2c). On est donc en déficit de 50 individus (–50) sur un total de 246. Comme c’est l’écart absolu qui est important, nous nous débarrassons du signe en mettant cet écart au carré avant de le diviser par le total. Nous obtenons ainsi l’écart au carré relatif.

Écart² relatif = (Fréquence observée – Fréquence théorique)²/Fréquence théorique

Écart² relatif pour les garçons qui fument régulièrement = (196 – 246)²/246 = 2500/246 = 10,16

On retrouve ce dernier chiffre dans le tableau 9.2d. Le Khi carré n’est autre que la somme de tous ces écarts : il est ici de 50,08. Si les fréquences observées correspondaient exactement aux fréquences théoriques, le Khi carré aurait une valeur de 0. Il nous faut maintenant interpréter la valeur de 50,08 que nous avons obtenue.

 

2.2. L’écart peut-il être attribué au hasard?

Les données que nous venons d’utiliser proviennent d’une enquête. Faute d’information précise sur la population des élèves du secondaire dans son ensemble, nous devons nous contenter d’un échantillon. Mais quelles sont les chances que nous soyons tombés, par malheur, sur un échantillon non représentatif? Comme pour le test d’hypothèse (vu au chapitre précédent), nous allons nous donner un seuil de signification, mettons 0,05 (ou 5 %, ou 1/20). Cela signifie que nous ne voulons courir le risque de nous tromper qu’une fois sur 20 si jamais nous émettons l’hypothèse selon laquelle les écarts sont suffisamment grands pour ne pas être le simple effet du hasard*.

La figure 9.8 nous indique la valeur critique, c’est-à-dire la valeur minimale que doit atteindre notre Khi carré pour que nous puissions accepter notre hypothèse avec un risque de nous tromper inférieur à 5 %. Mais comme le Khi carré est influencé par la taille du tableau (plus le tableau est grand, plus les écarts s’accumulent), il nous faut tenir compte du nombre de colonnes et lignes du tableau. C’est ce qu’on appelle le nombre de degrés de liberté.


Degrés de liberté = (Nombre de colonnes – 1) x (Nombre de lignes – 1)

Degrés de liberté = (2 – 1) x (3 – 1) = 1 x 2 = 2

Dans la table de distribution du Khi carré, la valeur correspondant à un seuil de signification de 0,05 et à 2 degrés de liberté est égale à 5,99. Or, l’écart que nous avons calculé (50,08) dépasse largement cette valeur critique. En fait, nous sommes si loin au-dessus de la valeur critique qu’il est pratiquement impossible que les écarts constatés soient imputables à un hasard d’échantillonnage. Cette certitude n’est pas étrangère au fait que nous disposons d’un échantillon très élevé : la loi des grands nombres joue encore en notre faveur. Autrement dit, le Khi carré a d’autant plus de chances d’être élevé que l’échantillon est grand.

Le nombre de degrés de liberté peut s’interpréter de la façon suivante : nous avons sous la main un tableau dans lequel on croise les deux catégories d’une première variable (le sexe) avec les trois catégories d’une seconde variable (le tabagisme). Il va de soi que les totaux rajoutés aux lignes et aux rangées du tableau sont déterminés d’avance et ne relèvent en rien du hasard. Or, une fois que l’on connaît les fréquences associées aux garçons, par exemple, on peut en déduire automatiquement les fréquences des filles. De la même façon, une fois connues les fréquences des deux premières catégories concernant le tabagisme, nous connaissons également la fréquence de la troisième catégorie. En somme, la dernière colonne et la dernière ligne du tableau (totaux exclus) sont prédéterminées par les autres colonnes et lignes. C’est pourquoi on les exclut dans le calcul du nombre de degrés de liberté.

 

2.3. La relation est-elle forte?

Si nous venons d’éviter une première embûche, il nous faut maintenant évaluer dans quelle mesure la relation observée est forte. Nous pouvons affirmer que les filles sont plus portées à fumer que les garçons. Mais cela est-il suffisant, par exemple, pour nous permettre de prédire facilement, à partir de son sexe, si un élève fume?

Si nous avions croisé le sexe des élèves avec une autre variable, comme le port du soutien-gorge ou de la coquille protectrice dans les arts martiaux, nous aurions sûrement eu des écarts encore plus tranchés. Notre Khi carré aurait été suffisamment élevé pour que nous puissions déduire à partir de ses habitudes vestimentaires, et sans grand risque de nous tromper, si un budōka est une fille ou un garçon.

Un des instruments les plus courants pour évaluer la force de la relation entre deux variables qualitatives est le V de Cramer. On comprendra que le Khi carré ne peut tout dire à lui tout seul, puisqu’il dépend en partie de la taille de l’échantillon. Le V de Cramer tient compte de cet aspect. Notez, en observant la formule ci-après, que vous auriez pu facilement inventer vous-même un coefficient correspondant et passer ainsi à la postérité.

n représente la taille de l’échantillon et K le nombre minimal de rangées et de colonnes.

On compte 3 rangées et 2 colonnes dans le tableau 9.2. C’est le plus petit de ces deux chiffres que l’on retient pour calculer le V de Cramer.

V de Cramer = √[50,08/5580 x (2–1)] = 0,095

S’il n’y avait aucune relation entre les deux variables, le V de Cramer serait égal à 0, tout comme le Khi carré. Si la relation était parfaitement tranchée (par exemple si toutes les filles fumaient et si tous les garçons ne fumaient pas), le V de Cramer serait égal à 1. Dans le cas du port du soutien-gorge ou de la coquille protectrice, on aurait peut-être un V de Cramer égal à 0,99<$F>. En général, on considère que l’association entre les variables commence à être intéressante à partir de 0,10, forte à partir de 0,40 et robuste à partir de 0,70, mais cela dépend du contexte.

Ici, nous avons un coefficient relativement faible (0,095). Il y a certes une différence de comportement entre les garçons et les filles, mais cette différence est trop faible pour qu’on puisse prédire, à partir de son sexe, si un élève fume. Dans les paragraphes qui suivent, nous proposerons deux exemples de conclusions que l’on pourrait tirer à la lecture de ce chiffre : la première est acceptable et la seconde, abusive.

Une conclusion honnête

Il est clair que les écolières fument un peu plus que les garçons. Pour mieux comprendre la situation, nous pourrions nous poser diverses questions : « Pourquoi telle fille fume-t-elle? Pourquoi telle autre ne fume-t-elle pas? Qu’est-ce qui pousse un jeune à fumer? Qu’est-ce qui pousse un garçon à fumer? », etc.

Une conclusion biaisée

« Puisque les filles fument plus que les garçons, je refuse d’embaucher des filles dans mon usine de dynamite. » Cette affirmation serait aussi ridicule que les suivantes : « Puisque les faux-monnayeurs sont plus souvent des étrangers (V de Cramer à l’appui), un commerçant ne devrait pas accepter les billets de ses clients italiens » ou encore « Puisqu’une proportion relativement grande d’Asiatiques ont un QI supérieur à 100, les universités de devraient pas engager de professeurs originaires d’Europe. »

 

2.4. Mes parents se chicanent, un peu, beaucoup

Les données du tableau 9.3 proviennent d’une enquête effectuée auprès d’un échantillon de 3180 élèves du secondaire du Québec âgés de 11 à 19 ans. L’échantillon initial comptait 6121 élèves choisis au hasard, mais 2916 questionnaires ne furent pas remplis et 25 questionnaires furent rejetés. Certaines des questions portaient sur la violence verbale et physique au sein de la famille. On demandait notamment à l’élève d’évaluer si ses parents se chicanaient souvent entre eux, à partir de l’échelle ordinale suivante : 1. Correspond tout à fait à ce que je vis; 2. Correspond un peu à ce que je vis; 3. Ne correspond pas vraiment à ce que je vis; 4. Ne correspond pas du tout à ce que je vis.

Sur les 3130 élèves qui ont été en mesure de répondre à cette question précise, les filles semblent relativement plus nombreuses à estimer que leurs parents se chicanent. Étant donné que les garçons et les filles partagent généralement les mêmes parents, on peut considérer que les réponses reflètent non seulement la réalité, mais également la perception de cette réalité. Par ailleurs, il faut noter que la plupart des parents sont bel et bien des adeptes de la coexistence pacifique.

Des calculs similaires à ceux effectués pour le tableau 9.2 nous montrent que le Khi carré est égal à 19,27. Ce tableau contient cependant plus de cases que le précédent : on y compte 2 colonnes et 4 lignes, soit (2 – 1) × (4 – 1 ) = 1 × 3 = 3 degrés de liberté. Si l’on prend ici encore un seuil de signification de 0,05, la valeur critique est de 7,82 (revoir la figure 9.8). Notre Khi carré est donc suffisamment grand pour qu’on ne puisse pas mettre les différences observées entre garçons et filles sur le dos du hasard.

Encore une fois, le V de Cramer est relativement petit : √[19,27/3130 × (2 – 1)] = 0,08. L’association entre le sexe et la perception de la réalité est donc plutôt faible. Même si la relation existe, il serait présomptueux de formuler des généralisations.


 

EXERCICES 2

1. Des jeunes drogués

a) Vérifiez dans le tableau 9.2 la proportion, la fréquence théorique et l’écart pour les filles qui fument régulièrement.

b) Quelle aurait été la valeur critique du Khi carré si nous avions choisi un seuil de signification de 0,01 pour le tableau 9.2? Commentez.

2. Une jeunesse qui s’envole en fumée

Le tableau 9.4 contient des informations similaires à celles du tableau 9.2. Les données sont cependant tirées d’une enquête différente et portent sur une période plus récente.

a) Construisez un tableau contenant les proportions pour chaque case.

b) Construisez un tableau contenant les fréquences théoriques pour chaque case.

c) Construisez un tableau contenant les écarts au carré relatifs.

d) Calculez le Khi carré. Comparez à la valeur critique dans le tableau de distribution du Khi carré pour un seuil de signification de votre choix.

e) Calculez le V de Cramer.

f) Comparez les résultats obtenus à ceux du tableau 9.2. Commentez.


 

3. RELATION ENTRE DEUX VARIABLES QUANTITATIVES

Comme nous venons de le voir, le tableau croisé est un outil privilégié pour observer une relation entre deux variables qualitatives. Lorsque les deux variables sont quantitatives, on doit avoir recours à un autre procédé : la corrélation. La situation suivante expliquera de quoi il en retourne.

 

3.1. La corrélation

On dit souvent qu’il y a des chômeurs instruits. Même si cela est vrai, il s’agit néanmoins d’une espèce relativement rare si on la compare à celle des chômeurs « ignorants ». Supposons que le taux de chômage soit en moyenne de 2 % pour une personne qui détient un doctorat (7 ans d’études universitaires), de 6 % pour une personne qui détient une maîtrise (5 ans d’études universitaires) et de 10 % pour une personne qui détient un baccalauréat (3 ans d’études universitaires). Si la tendance se maintient, comme on dit, il est probable que le taux de chômage soit de 16 % pour une personne qui a interrompu ses études juste avant de rentrer à l’université. On pourrait même construire une formule qui permette de prédire le taux de chômage associé à un nombre x d’années d’études universitaires : Puisqu’il semble que chaque année d’étude fasse baisser le chômage de 2 points de pourcentage, la formule du taux de chômage serait donc la suivante :

y = 16 – 2x

Lorsque des points, représentant la valeur d’une variable par rapport à une autre variable, sont plus ou moins alignés, la droite de régression est celle qui s’éloigne le moins possible de l’ensemble des points.

Dans cette équation, y représente (en points de pourcentage) le taux de chômage, et x, le nombre d’années d’études universitaires. Après 4 années d’études universitaires, le taux de chômage serait, selon notre formule, de 16 – 2 × 4 = 8 points de pourcentage. L’équation peut également être représentée sous forme de courbe (ou droite de régression) comme dans la figure 9.9.


Il y a corrélation entre deux variables lorsque ces deux variables se suivent de façon plus ou moins systématique, que ce soit dans le même sens ou en sens inverse.

Dans l’exemple que nous venons de présenter, on peut dire qu’il existe une corrélation parfaite entre les deux variables : le niveau universitaire atteint et le taux de chômage. Évidemment, la réalité humaine n’est pas aussi simple, et de toute façon, on ne peut pas tirer de grandes conclusions d’un échantillon aussi petit. Il existe cependant de nombreuses situations reliées aux sciences humaines dans lesquelles il est possible de tracer une droite de régression mettant en relation deux variables x et y. Il s’agit alors de déterminer la valeur des paramètres qui caractérisent l’équation de cette droite. Ces deux paramètres sont ici les nombres 16 et –2. On cherchera alors à évaluer dans quelle mesure les faits observés coïncident avec la droite tracée.

Le coefficient de corrélation mesure la force de la corrélation entre deux variables.

Plus généralement, on écrit l’équation de la droite sous la forme : y = a + bx, dans laquelle a est l’ordonnée à l’origine et b la pente. Une fois qu’on a déterminé la valeur de a et de b, on devrait être capable, connaissant x, de trouver y avec un certain degré de fiabilité (mesuré par le coefficient de corrélation). C’est ce que nous allons faire avec des données internationales.

 

3.2. Qui s’instruit… vit plus longtemps?

Nous avons choisi d’étudier la corrélation éventuelle entre l’éducation et la santé des gens. Plus précisément, nous avons retenu deux variables facilement observables à travers le monde : le taux d’analphabétisme des adultes et l’espérance de vie à la naissance. Pour ne pas encombrer le tableau, nous n’avons sélectionné que les gros pays (peuplés de 50 millions et plus) pour lesquels les données existent. Nous avons exclu de l’échantillon les pays industrialisés pour lesquels les taux officiels d’analphabétismes sont égaux à zéro. Grâce à ces simplifications, peut-être excessives, il nous sera plus facile de montrer comment construire et interpréter la droite de régression. En fin de compte, nous avons retenu 13 pays et nous avons représenté les données sous forme d’un tableau accompagné d’un graphique (voir figure 9.10).


Chacun des points du graphique représente un pays. Le point correspondant à l’Indonésie, par exemple, a une abscisse de 23 (par rapport à l’axe horizontal) et une ordonnée de 63 (par rapport à l’axe vertical). On ne voit que 12 points sur le graphique, parce que deux pays, le Brésil et la Turquie, possèdent exactement les mêmes valeurs. Étant donné que le graphique a été tracé à l’aide d’un chiffrier électronique, il n’a pas été difficile, en sélectionnant la bonne option, d’y rajouter la droite de régression qui correspond à l’ensemble des points. Le chiffrier a même eu la bonté de nous fournir l’équation de la droite de régression (sous la forme y = bx + a), ainsi qu’un coefficient que nous interprèterons un peu plus loin. Certes, les points du graphique sont loin d’être parfaitement alignés, mais la droite donne quand même une tendance générale. On peut affirmer, d’emblée, qu’il existe une certaine corrélation entre l’analphabétisme et l’espérance de vie, et que ces deux variables évoluent en sens inverse.

 

3.3. Le coefficient de corrélation

Comme nous l’avons indiqué un peu plus haut, le coefficient de corrélation mesure la force de la relation entre les deux variables. Mais avant d’interpréter ce coefficient, il faut le calculer. Pour ce faire, il existe deux méthodes : la méthode facile (en utilisant les fonctions intégrées d’un chiffrier électronique) et la méthode à papa (en se tapant une série de calculs, simples mais laborieux). Nous avons déjà fait connaissance avec la méthode facile, puisque nous l’avons utilisée pour tracer la droite de régression et obtenir gratuitement l’équation de la droite et un certain coefficient (r²) qui n’est autre que le carré du coefficient de corrélation (revoir le graphe de la figure 9.10).

La méthode à papa.

Dans le tableau 9.5, nous indiquons toutes les étapes du calcul du coefficient de corrélation et des paramètres de la droite de régression et nous reproduisons les formules correspondantes. Si vous disposez d’un chiffrier électronique (c’est presque indispensable dès qu’on utilise des chiffres en sciences humaines), vous pouvez vous dispenser de cette étape fastidieuse.

Plus le coefficient de corrélation est proche de 0, moins la corrélation est forte.

Le coefficient de corrélation est construit de telle sorte qu’il est égal à +1 ou –1 lorsque les points sont parfaitement alignés. Dans notre exemple, le coefficient de corrélation est égal à –0,646. Le signe négatif indique que les deux variables évoluent en sens inverse. La valeur absolue du coefficient (0,646) semble relativement élevée, mais pour l’interpréter il est nécessaire de tenir compte de la taille de l’échantillon. On pourra alors, moyennant certains calculs supplémentaires, faire une hypothèse sur l’existence d’une association entre les deux variables et la tester avec la table de distribution de Student. Si vous tenez vraiment à savoir comment, il vous faudra consulter un ouvrage spécialisé.


 

EXERCICES 3

1. Échalote, Bouboule, Brummel et les autres

Vous devez évaluer s’il existe une corrélation entre le poids et la taille à l’aide d’un échantillon d’au moins 30 individus. (Pour les besoins de la cause, il est acceptable que l’échantillon ne soit pas tiré au hasard.) Tracez le nuage de points et calculez le coefficient de corrélation (à la main ou en utilisant le chiffrier électronique, calcul fourni)

2. Étranges corrélations

Les corrélations présentées ci-après paraissent pour le moins étranges. À vous de leur donner une explication logique et identifiant convenablement les variables impliquées et les relations qui les unissent.

a) On a observé une corrélation entre homicides et pointures des souliers. Plus précisément, il semble que les homicides soient plus fréquemment commis par des individus possédant des pieds plus grands que la moyenne.

b) On a déjà constaté, en Californie, une corrélation entre les ventes de bière et le taux de mortalité chez les personnes âgées et les bambins.


 

4. LES ACCIDENTS DE LA ROUTE

Les jeunes sont-ils susceptibles de provoquer plus d’accidents que leurs aînés? Les femmes conduisent-elles mieux que les hommes? Est-il plus dangereux de rouler en Chine qu’aux États-Unis? Nous essaierons de répondre, partiellement, à toutes ces questions en nous servant de tous les outils vus dans ce chapitre.

 

4.1. Un bref tour du monde

Examiner quelques données brutes pour découvrir le schéma de variables.

Commençons par déblayer le terrain en examinant quelques données brutes publiées par le gouvernement japonais dans les années 1990. Nous reproduisons dans le tableau 9.6 le nombre d’accidents de la route et le nombre de victimes de ces accidents pour six pays. Si les États-Unis se classent premiers, devant le Japon, au chapitre des accidents et du nombre de blessés, c’est la Chine qui détient le triste record du nombre de tués.

Le tableau 9.6 contient également quelques données concernant le Québec et couvrant quatre décennies. On y constate que le nombre d’accidents et de victimes tend à diminuer considérablement avec le temps, malgré l’augmentation du nombre d’automobiles sur les routes.

Ce premier contact chiffré avec la situation étudiée nous permet de prendre conscience de la complexité du problème. Il est clair que l’habileté des conducteurs ou l’état des routes ne sont pas les seules variables qui peuvent exercer une influence sur le nombre d’accidents. Aux États-Unis, il y a plus de kilomètres de routes qu’au Japon (pays plus petit) et plus de véhicules qu’au Canada (pays moins peuplé) et qu’au Mexique (pays moins riche). La figure 9.11 illustre une façon de relier ces différentes variables ainsi que d’autres.


Il est plus difficile de comparer des situations hétérogènes.

Dans le tableau 9.6, avez-vous remarqué la situation anormale de la Chine qui compte 25 fois moins de blessés mais plus de tués que les États-Unis (dans ce dernier cas, s’agit-il de piétons?). Cela pourrait bien être attribuable en bonne partie à la façon dont chaque pays définit chaque variable : si tout le monde s’entend sur ce qu’est un tué, il en va autrement pour les notions d’accident et de blessé. Nous éviterons ce genre d’écueil en restreignant maintenant notre étude au Québec.

 

4.2. La situation dans les régions du Québec

Dans la figure 9.12, nous avons choisi de relier la variable nombre de véhicules à la variable nombre d’accidents en examinant la situation dans les diverses régions du Québec. La figure est accompagnée d’une droite de régression, entièrement construite avec un chiffrier électronique et sans aucun calcul. La relation entre les deux variables saute aux yeux. Le coefficient de corrélation (r) est très proche de 1, ce qui signifie que la corrélation est très forte. Il reste néanmoins que le nombre de véhicules n’explique pas entièrement le nombre d’accidents. Il vaudrait la peine de chercher à isoler les autres variables.

Il existe une explication relativement évidente à la situation de Montréal et de la Montérégie, dont les points s’écartent étrangement — et symétriquement — de la droite de régression. De nombreux conducteurs de la Montérégie se rendent chaque jour à Montréal. En même temps que les automobilistes, les risques d’accident se déplacent alors d’une région à l’autre. Le même phénomène entre les villes-centres et leur grande banlieue se remarque, à moins grande échelle, dans la région de Québec en 2012.


Dans les Cahiers de géographie du Québec d’avril 1996, des chercheurs ont utilisé des variables plus raffinées pour étudier la situation : la densité d’accidents (nombre d’accidents au km²), le taux de motorisation (nombre de véhicules de promenade par habitant), la densité de la population (nombre d’habitants par km²) et l’encadrement policier (nombre de policiers pour 1000 habitants). On remarque que ces quatre variables sont en réalité des rapports, ce qui permet de comparer des régions dont les caractéristiques sont différentes. Les chercheurs ont alors calculé la valeur de ces variables pour chacune des municipalités régionales de comté du Québec et ont ensuite cherché à établir des corrélations.

Cette étude montre qu’au Québec, la densité d’accidents est directement reliée à la densité de la population. L’équation de régression qui relie ces deux variables est la suivante :

Densité d’accidents = 0,0084 + 0,0053 Habitants/km²

Selon cette équation, une région qui compterait 10 habitants/km² aurait une densité annuelle d’accidents de 0,0084 + (10 x 0,0053) = 0,0084 + 0,053 = 0,0614 accident/km². Le coefficient de corrélation est de 0,99, ce qui indique que les deux variables se suivent de très près. Lorsque l’on croise les variables densité d’accident et encadrement policier, la corrélation est beaucoup plus faible (r = –0,37) et les variables évoluent en sens inverse. Même si la présence policière semble calmer les chauffards, son influence semble relativement faible par rapport à d’autres variables. Notons enfin que des calculs similaires effectués dans les 52 districts de gendarmerie de la Belgique donnent des résultats très semblables. Ce genre d’étude peut être particulièrement utile lorsqu’il s’agit de mettre en place une politique de sécurité routière.

 

4.3. Qui conduit le mieux?

Nous nous demandions un peu plus haut si le sexe ou l’âge peuvent exercer une influence sur le nombre d’accidents. Le tableau 9.7 montre qu’il y a relativement moins de femmes que d’hommes qui se trouvent impliqués dans des accidents au Québec. Mais ici encore, il faut être prudent avant de conclure que les femmes conduisent mieux (ou se soûlent moins) que les hommes. On devrait se poser les questions suivantes : lequel des deux sexes fait le plus de kilomètres dans l’année? Lequel roule le plus la nuit? Lequel fréquente le plus souvent des routes de campagne? Etc.?

Dans le tableau 9.7, on constate à nouveau que le nombre d’accidents a tendance à baisser fortement au Québec sur le long terme, encore plus pour les hommes que pour les femmes. Cela dit, la très grande majorité des conducteurs n’ont pas eu d’accident au cours de l’année considérée.

Dans le tableau 9.8, on constate que les jeunes conducteurs ont relativement plus d’accidents que leurs aînés. Mais là encore, le phénomène peut être influencé par plusieurs variables : l’expérience du conducteur, son attitude, l’état des routes qu’il fréquente particulièrement et l’âge du véhicule.

Pour les deux tableaux précédents, nous avons calculé le Khi carré et le V de Cramer. Étant donné que l’échantillon est très grand (il s’agit en réalité de la population au complet), le Khi carré est très élevé. Nos données sont, par définition, représentatives, aussi il est inutile de faire un test d’hypothèse. Le Khi carré nous sert uniquement à calculer la force de l’association grâce au V de Cramer. On constate, dans le tableau 9.8 que le V de Cramer est de 0,083 en 1995. Cela signifie que si l’âge explique une partie du problème, il est très loin de l’expliquer dans son entier. Bien que faible, le coefficient de Cramer s’avère intéressant si on cherche à comparer la situation de 1995 à celle de 1991 ou de 2012, par exemple. Le V de Cramer était alors de 0,077, ce qui prouve qu’il existe une certaine stabilité dans la relation.

 

4.4. Des calculs plus simples en disent parfois plus long

Pour tirer les choses au clair, mettons de côté les coefficients compliqués et servons-nous de simples rapports. Selon une enquête concernant la région de l’Outaouais (1995), les hommes au volant sont impliqués 3,5 fois plus souvent que les femmes dans des accidents mortels. Ce rapport baisse à 1,8 pour les accidents avec blessures légères. Par ailleurs, les conducteurs parcourent deux fois plus de distance que les conductrices. Cela démontre qu’à distance égale parcourue, les conducteurs masculins ont plus d’accidents que les femmes, du moins en ce qui concerne les accidents graves.

Pour mieux cerner la relation entre l’âge et la fréquence des accidents, nous avons calculé le nombre d’accidents par rapport au nombre de titulaires de permis de conduire pour différents groupes d’âge. Les chiffres, que nous reproduisons dans le tableau 9.9, parlent d’eux-mêmes (troisième colonne du tableau).


 

EXERCICES 4

1. Mon camion c’est ma maison

Commentez le tableau 9.10.

2. Jeune et fou

a) Complétez le tableau 9.11.

b) Tracez sur un graphe la courbe du rapport Accidents/Détenteurs de permis en fonction de l’âge. Tracez une deuxième courbe sur le même graphe en utilisant les données de 1995 (voir tableau 9.9).

c) Comparez la situation de 1991 à celle de 1995 et commentez.

3. Recherche

Mettez à jour les tableaux 9.7, 9.8 et 9.9, et commentez l’évolution des données.


 

EXERCICES SUPPLÉMENTAIRES

1. Des relations à vérifier

La pauvreté est en hausse aux États-Unis dans les années 1990. Une idée très répandue dans les milieux conservateurs veut que l’augmentation des dépenses de l’aide sociale soit causée par la prolifération des mères adolescentes et des mères célibataires. Dans d’autres milieux, soi-disant progressistes, on affirme souvent que l’instruction n’est plus un moyen efficace pour éviter la pauvreté. Avant de commenter ces affirmations, répondez aux questions a et b ci-après.

a) Représentez graphiquement les données suivantes : le salaire mensuel moyen est de 508 $ pour ceux qui n’ont pas terminé leurs études secondaires, de 1080 $ pour ceux qui détiennent un diplôme du secondaire, de 1303 $ pour ceux qui ont entamé des études postsecondaires et de 2339 $ pour ceux qui ont terminé des études universitaires.

b) Représentez graphiquement les données suivantes : l’âge médian des mères qui bénéficient de l’aide sociale est de 27,4 ans, 24,5 % d’entre elles ont moins de 21 ans et 7,1 % d’entre elles ont moins de 18 ans.

(Source des données : Scientific American, octobre 1996, données de 1993 et 1995.)

2. Le suicide selon Durkheim

Dans un ouvrage classique intitulé Le suicide, Émile Durkheim constate que, si chaque suicide est un phénomène individuel, le taux de suicide d’une population s’avère facilement prévisible à court terme. Entre 1871 et 1875, le taux de suicide (nombre annuel de suicides pour 100 000 habitants) était de 25,5 au Danemark et de 3,5 en Italie. En Suisse, en 1876, il variait de 8,3 à 8,7 chez les catholiques et de 29,3 à 45,6 chez les protestants.

En France, entre 1835 et 1843, ce taux était de 30,6 en été, de 28,3 au printemps, de 21,0 en automne et de 20,1 en hiver. Entre 1848 et 1857, il s’élevait à 4,6 pour les gens de 16 à 21 ans, à 9,8 pour ceux de 21 à 30 ans, à 11,5 pour ceux de 31 à 40 ans et à 16,4 pour ceux de 41 à 50 ans. Entre 1889 et 1891, ce taux de suicide chez les hommes mariés âgés de 26 à 35 ans était de 10,6 contre 25,7 chez les hommes célibataires. Chez les femmes mariées du même groupe d’âge, ces taux étaient respectivement de 2,8 et de 6,1 chez les célibataires. Durkheim note d’autre part que le taux est plus élevé dans les grandes villes que dans les petites, plus élevé le jour que la nuit, plus élevé au début de la semaine qu’à la fin.

Par ailleurs, des données relevées au XXe siècle indiquent que le taux de suicide était au plus bas en 1917 (14,0) et en 1943 (11,3) alors qu’il atteignait un sommet en 1912 (22,9) et en 1934 (21,7).

Au Québec, le taux de suicide passait de 4,2 en 1950-54 à 13,8 en 1975-79. En 1995, le taux de suicide était de 58 en Hongrie, de 30,0 en France, de 34,0 en Suisse, de 12,0 en Espagne et de 20,4 aux États-Unis. Du côté des personnes de 75 ans et plus, le taux de suicide se révèle 12 fois plus élevé pour les hommes que pour les femmes pour atteindre 186,2 en Hongrie et 114,0 en France.

Voici pour terminer quelques comparaisons entre pays pour la période 2001-2010. Le taux de suicide du Canada était de 17,3 contre 17,7 aux États-Unis. Celui du Japon était de 36,2 contre 13,0 en Inde. Celui de Cuba était de 19,0 contre 3,9 en République dominicaine, celui de la Russie était de 53,9 contre 37,8 en Ukraine.

(Sources : Émile Durkheim, Le suicide, 1897, réédition 1960 : Presses universitaires de France. Organisation mondiale de la Santé. Marie-France Charron, Le suicide au Québec, 1983. PNUD, Rapport sur le développement humain 2014.)

a) Construisez un schéma contenant toutes les variables qui influent sur le taux de suicide. Indiquez par des flèches le sens des relations. Lorsque cela est pertinent, accompagnez la flèche d’un signe positif ou négatif pour indiquer si les variables évoluent dans le même sens ou en sens inverse.

b) Recherche. Obtenez d’autres données dans le but de confirmer, de rectifier ou de compléter le schéma de variables que vous venez de tracer.

3. Ex-maltraité, future brute?

Joan Kaufman et Edward Zigler, de l’université de Yale, ont essayé d’établir si la violence parentale envers les enfants se transmettait de génération en génération. Pour ce faire, ils ont utilisé les résultats d’une enquête menée auprès de 282 parents d’enfants admis dans un service de soins intensifs pour enfants. Ils constatèrent que 49 de ces parents avaient été maltraités durant leur enfance et que 10 de leurs enfants furent maltraités dans l’année qui suivit leur visite à l’hôpital. Parmi ces 10 enfants, 9 étaient issus de parents qui avaient été maltraités eux-mêmes. (Source : Sciences humaines, no 65, octobre 1996.)

a) Construisez, à partir des données ci-dessus, un tableau croisé de deux colonnes et de deux lignes.

b) Faites un test pour vérifier l’hypothèse qu’il existe une relation entre la façon dont les parents ont été traités dans leur enfance et la façon dont ils traitent leurs enfants.

c) Commentez l’affirmation suivante : « 90 % des enfants maltraités sont issus de parents eux-mêmes maltraités dans leur enfance, mais seulement 18 % des ex-enfants maltraités deviennent des parents maltraitants ».

4. Deux variables qui se suivent de près

a) Représentez les points du tableau 9.12 sur un graphe.

b) Commentez le graphe.

c) Si vous avez un chiffrier électronique, essayez de tracer une droite de régression sur le même modèle que la figure 9.12.

5. Un sport dangereux?

Quelque 223 hockeyeurs qui ont été admis à l’urgence de l’hôpital de l’Enfant Jésus de Québec, entre le 1er octobre 1991 et le 30 avril 1992. Le tableau 9.13 indique comment se répartissaient les blessures selon le type de jeu pratiqué et la partie du corps touchée.

Essayez d’établir s’il existe une relation entre le type de hockey pratiqué et le type de blessure reçue. Si nécessaire, réduisez le tableau à deux lignes, en regroupant certaines catégories.

6. Recherche : un tableau croisé

Faites une mini enquête qui vous permettra de construire un tableau croisé. Choisissez deux variables qualitatives comportant chacune de deux à quatre catégories. Constituez un échantillon (aléatoire dans la mesure du possible) et compilez vos résultats dans un tableau croisé. Si nécessaire, augmentez la taille de votre échantillon pour éviter que certaines cases du tableau ne contiennent des fréquences inférieures à 5. Calculez le Khi carré et le V de Cramer et commentez les résultats.

7. Recherche : l’héritabilité du poids

Dans cette mini enquête, vous chercherez à mesurer la corrélation entre le poids (ou la taille) des pères et de leurs fils, ou des mères et de leurs filles.

Prenez une balance (ou un mètre) et promenez-vous dans votre quartier. Pesez les paires (parent-enfant) tout en ménageant leur susceptibilité. Notez leur âge et vérifiez si vous êtes en présence d’un parent biologique ou d’un parent adoptif. Pour éliminer l’influence de la variable âge, prenez uniquement des enfants adultes ou, à la rigueur, des enfants d’un âge précis.

Tracez un nuage de points. Tracez la courbe de tendance. Calculez le coefficient de corrélation.

Que proposez-vous pour améliorer l’échantillon choisi?