LABO 8 L’ESTIMATION ET LE TEST D’HYPOTHÈSE


 

1. ESTIMATION DE PROPORTION

Présentation

★★★ Estimer la marge d’erreur d’une proportion à l’aide d’un tableau-outil.

Le tableau-outil ci-dessous permet d’obtenir instantanément la marge d’erreur d’une proportion estimée, compte tenu du niveau de confiance souhaité. Il suffit de remplir les cellules blanches (avec des valeurs plausibles) et les résultats s’affichent dans les cellules ocre de la ligne correspondante. Ainsi, dans la deuxième rangée du tableau, la proportion d’électeurs potentiels d’un parti politique X, estimée à partir d’un échantillon de 1016 individus, est de 50 %. Si on choisit un niveau de confiance de 95 %, on constate que la marge d’erreur d’une telle estimation est de ≈3,1 %. On peut donc affirmer que, 95 fois sur 100, la proportion estimée se situe entre 46,9 % et 53,1 %.

Attention : Dans les tableaux-outils ci-après, il se peut, selon vos paramètres de réseau, que la virgule décimale soit remplacée par un point, et l’espace des milliers par une virgule. Tenez en compte pour entrer vos données.
 

QUESTIONS

1. Honnêtes?

Selon une enquête citée dans le manuel (tableau 7.5), 24 % des Canadiens considèrent que ce sont les médecins qui sont les plus honnêtes et les plus intègres. Les politiciens recueillent la faveur de 2 % de cet échantillon, qui comptait 1500 individus.

a) Calculez la marge d’erreur de ces deux proportions en prenant un niveau de confiance de 0,95.

b) Même question avec un niveau de confiance de 0,99.

2. Un outil épatant!

Trouvez, dans votre manuel, un exercice qui peut être résolu grâce à ce tableau-outil.

 

EXEMPLE

Dans l’enquête citée dans le manuel (tableau 8.2), on estime à 1,5 % la proportion de parents qui ont été mariés une seule fois et qui ont adopté un seul enfant. Nous avons inscrit ce chiffre dans la première rangée du tableau-outil, accompagné de la taille de l’échantillon (13 495, tel qu’indiqué dans le manuel) et du niveau de confiance (95 %, tel que choisi dans le manuel). Ces trois chiffres (données brutes) correspondent aux trois cellules sur fond blanc.

Toutes les cellules sur fond ocre contiennent les chiffres déduits des données brutes. Le second tableau indique tous les détails du calcul pour la première rangée du premier tableau.

L’erreur type est obtenue par la formule suivante  : √[p × (1 – p) / n]
Erreur type = √[0,015 × 0,985 / 13 495] = 0,00105 = 0,105 %.

La marge d’erreur est obtenue en multipliant l’erreur type (ici 0,105 %) à la cote z qui correspond au niveau de confiance choisi (ici 1,96).
Marge d’erreur = Erreur type × Cote z = 0,105 % × 1,96 = 0,21 %.

Le coefficient de variation est le rapport entre l’erreur type et la proportion.
Coefficient de variation = 0,105 % / 0,015 = 6,98 %.


 

2. ESTIMATION DE MOYENNE

Présentation

★★★ Évaluer l’intervalle de confiance de l’estimation d’une moyenne à l’aide d’un tableau-outil.

Le tableau-outil ci-dessous est divisé en deux parties. Dans les colonnes 1 et 2, il faut entrer quatre données (dans les cellules blanches) pour obtenir l’intervalle de confiance d’une moyenne estimée. Dans la colonne 1, par exemple, les 988 individus sondés avaient une taille moyenne de 177 cm avec un écart type de 7,1 cm (tableau 8.3 du manuel). On peut estimer ici que la taille de la population se situe entre 176,56 cm et 177,44 cm, avec un niveau de confiance de 0,95 (voir les résultats au bas de la colonne 1). Lorsque l’on possède chacune des valeurs de l’échantillon, on peut utiliser les colonnes 3 et 4 du tableau. On entre alors ces valeurs dans les colonnes Valeurs à droite du tableau (maximum de 40 valeurs) et il ne reste plus qu’à choisir le niveau de confiance.
 

QUESTIONS

1. Estimation de taille

Un échantillon de 70 Noirs américains de sexe masculin âgés de 35 à 44 ans indique que ceux-ci ont une taille moyenne de 176,5 cm avec un écart type de 6,4 cm. Les données correspondantes pour un échantillon de 745 Blancs sont de 176,3 cm et 7,4 cm (voir le manuel, p. 246).

a) Indiquez l’erreur type de l’échantillon et les limites de l’intervalle de confiance pour les Noirs et les Blancs, en prenant un niveau de confiance de 0,95.

b) Même question avec un niveau de confiance de 0,90.

2. Durée d’un bâillement

Dans le même ordre d’idées, sachant qu’un bâillement moyen dure 6 secondes avec un écart type de 2 secondes, quelles sont les limites de l’intervalle de confiance si on prend un niveau de confiance de 0,95? (Ces données proviennent d’un échantillon de 100 bâillements.)

 

EXEMPLE

Dans les cellules sur fond blanc de la colonne 2, nous avons inscrit les résultats d’une enquête sur la taille des hommes âgés de 65 à 74 ans dans l’État de l’Iowa (1976-1980). L’échantillon observé était de 25 individus, choisis au hasard. Nous avons également choisi un niveau de confiance de 99 % pour faire cette estimation de moyenne.

Examinons maintenant les cellules sur fond ocre, qui sont déduites des cellules sur fond blanc, que nous venons de remplir.

L’erreur type est obtenue par la formule suivante : écart type / [√n]
Erreur type = 7,10 cm / [√25] = 1,42 cm.

Normalement, la marge d’erreur est obtenue en multipliant l’erreur type à la cote z correspondant au niveau de confiance choisi. Cependant, la taille de l’échantillon étant trop faible ici (n < 30), il faut remplacer la cote z de la table normale par le t de la table de Student. Ici, le t, pour n – 1 = 24 degrés de liberté et un niveau de confiance de 99 % est de 2,80 (cette valeur est calculée automatiquement par le chiffrier, qui remplace avantageusement les tables traditionnelles.
Marge d’erreur = Erreur type × t de Student = 1,42 cm × 2,80 = 3,97 cm.

On peut donc estimer, avec une probabilité de 99 %, que la taille des hommes de l’Iowa âgés de 65 à 74 ans était située entre 167,23 et 175,17 cm (soit 171,20 ± 3,97). C’est l’intervalle de confiance.


 

3. ESTIMATION DE MOYENNE : SCHÉMA DE VARIABLES

Présentation

★★ Estimer une moyenne à l’aide d’un schéma de variables.

Le schéma ci-dessous reprend, sous une autre forme, le tableau de la page précédente. Les cellules blanches représentent les données (modifiables) du problème et les cellules ocre représentent les résultats, étape par étape, de l’estimation d’une moyenne. Dans le schéma, on constate qu’un échantillon de 23 individus représentatifs indique que ceux-ci ont une taille moyenne de 177 cm avec un écart type de 7,1 cm. Compte tenu du niveau de confiance que l’on s’est fixé (0,950), on obtient une marge d’erreur de 3,07 cm et un intervalle de confiance compris entre 173,93 et 180,07 cm.

QUESTIONS

1. Un véritable best-seller

Un échantillon de 100 textes de 500 caractères choisis parmi 10 écrits de la Bible (version en grec) indique que chaque texte contient en moyenne : 19,67 noms (avec un écart type de 5,5), 15,71 verbes (écart type de 5) et 6,44 adjectifs (écart type de 0,9). Faites une estimation du nombre moyen de noms, du nombre moyen de verbes et du nombre moyen d’adjectifs. (Source : H. Somers, Analyse statistique du style, Éditions Nauwelaerts, Louvain, 1967.)

2. Un outil épatant!

Trouvez dans votre manuel un problème qui peut être résolu avec ce schéma.


 

4. VERLAINE ET AUTRES ARTISTES DU MOT

Présentation

★★ Estimer une proportion. Calculer la marge d'erreur de cette estimation.

Certains écrivains ont une prédilection pour les adjectifs, d’autres pour les verbes. L’épluchage de l’œuvre de Verlaine, Rimbaud et Claudel a donné des résultats qui figurent dans le tableau ci-dessous.

Nous vous demandons d’en faire autant avec un petit échantillon. Vous utiliserez pour cela le poème de Verlaine intitulé Chanson d’automne, et deux autres poèmes ou chansons d’auteurs de votre choix.

Chanson d’automne

Les sanglots longs
Des violons de l’automne
Blessent mon coeur
D’une langueur
Monotone

Tout suffocant
Et blême, quand
Sonne l’heure
Je me souviens
Des jours anciens
Et je pleure

Et je m’en vais
Au vent mauvais
Qui m’emporte
Deçà, delà
Pareil à la feuille morte.

(Verlaine)

QUESTIONS

1. Distribution des catégories de mots dans trois poèmes ou chansons

En utilisant chaque poème ou chanson comme échantillon, vous allez faire une estimation de la proportion de noms, de verbes, d’adjectifs et d’autres mots pour chacun des trois auteurs choisis. Aux fins de cet exercice, nous considèrerons vos échantillons comme aléatoires.

a) Inscrivez dans un tableau la fréquence absolue (en nombre) et la fréquence relative (en pourcentage) des quatre catégories de mots pour les trois auteurs.

b) Calculez la marge d’erreur de la proportion de noms pour chaque échantillon, avec un niveau de confiance de 95 %.


 

5. HYPOTHÈSE SUR UNE MOYENNE

Présentation

★★★ Vérifier une hypothèse sur une moyenne à l’aide d’un tableau-outil.

Le tableau-outil ci-dessous permet d’obtenir instantanément l’écart réduit entre la moyenne d’un échantillon et celle d’une population, et de comparer cet écart réduit à la valeur critique correspondant au seuil de signification choisi. Dans la première colonne du tableau, le QI moyen d’un échantillon de 42 membres des Américains d’origine asiatique est de 106, et celui de la population totale est de 100, avec un écart type de 15 (section 8.3 du manuel). Les différences observées dans cette enquête sont-elles significatives sur le plan statistique. Il nous faudra choisir entre les deux hypothèses suivantes : il n’existe pas d’écart significatif entre le QI moyen des Asiatiques et celui la population en général (hypothèse nulle); il existe un écart significatif (hypothèse alternative, test bilatéral). L’écart réduit correspondant aux données de la première colonne est de 2,59. Si on choisit un seuil de signification de 0,05 et qu’on se trouve devant un test bilatéral, la valeur critique donnée par la table normale est de 1,96. L’écart réduit est donc ici suffisamment grand (2,59 > 1,96) pour qu’on puisse rejeter l’hypothèse nulle et adopter l’hypothèse alternative.

Sur le chiffrier, les valeurs contenues dans les cellules ocre sont automatiquement déduites des données entrées dans les cellules blanches.

Notes : Lors d’un test bilatéral, on utilisera la valeur affichée précédée des signes moins et plus (ex : -1,96 et +1,96). Si la taille de l’échantillon est trop faible (<30), la table de distribution normale sera remplacée automatiquement par la table de Student.

QUESTIONS

1. Le QI

Selon l’enquête de la National Longitudinal Survey of Youth, le QI moyen des Américains de confession juive s’établirait à 114,5 d’après un échantillon de 99 personnes. On sait que le QI moyen de la population est de 100 avec un écart type de 15. Formulez une hypothèse et testez-la avec le tableau-outil du chiffrier.

2. Un outil épatant!

Trouvez, dans votre manuel, un exercice qui peut être résolu grâce à ce tableau-outil.


 

6. HYPOTHÈSE SUR DEUX MOYENNES

Présentation

★★ Vérifier une hypothèse sur deux moyennes à l’aide d’un tableau-outil.

Le tableau-outil illustré ci-dessous permet de tester instantanément une hypothèse sur deux moyennes. On rentre dans les cellules blanches les données pertinentes des deux échantillons ainsi que le seuil de signification choisi. Les résultats sont affichés dans les cellules ocre.

Dans la première colonne de chiffres, nous comparons la taille moyenne de deux échantillons d’individus issus de populations distinctes (tableau 8.3 du manuel). On pourrait émettre les hypothèses suivantes : il n’existe pas d’écart significatif entre les tailles moyennes des deux populations (hypothèse nulle); il existe un écart significatif (hypothèse alternative, test bilatéral). Comme on peut le constater dans la première cellule ocre de la colonne, l’écart réduit entre les deux moyennes est ici trop faible (-0,68 < -1,96) pour qu’on rejette l’hypothèse nulle. Jusqu’à preuve du contraire, nous considèrerons que l’écart observé entre les deux échantillons est dû au hasard.

Notes : Lors d’un test bilatéral, on utilisera la valeur affichée précédée des signes moins et plus (ex : -1,96 et +1,96). Dans la colonne 3 du tableau, une mise en garde indique que la taille de l’échantillon 2 est trop faible pour valider ce test.

QUESTIONS

1. L’enquête d’Ernest

Une enquête de Ernest Hooton indique que les cadres d'un échantillon de 61 personnes ont un tour de tête moyen de 566,5 mmm tandis que les fonctionnaires d'un échantillon de 25 personnes ont un tour de tête de 564,1 mm. D'autre part, l'enquête montre que l'écart type du tour de tête est de 10 mm. Testez l'hypothèse selon laquelle le tour de tête moyen des cadres est le même que celui des fonctionnaires. Utilisez un seuil de signification de 0,01.

2. Un outil épatant!

Trouvez, dans votre manuel, un exercice qui peut être résolu grâce à ce tableau-outil.


 

7. LA DISTRIBUTION NORMALE : UNE MÉTHODE MODERNE

Présentation

★★★ Obtenir la valeur recherchée dans la table de distribution normale.

La table de distribution normale indique l’aire correspondant à chaque cote z. Dans la partie droite du tableau ci-dessous, on voit que l’aire comprise entre 0 (soit la valeur de la moyenne) et 2,326 est de 0,49 (ou 49 %). Cela signifie que, si la population est distribuée normalement, 49 % des valeurs seront comprises entre 0 et 2,326 écarts types.

Les deux parties du tableau du chiffrier permettent de passer de la cote z à l’aire et vice-versa. Dans la partie gauche du tableau, on entre la cote z (cellule blanche) pour obtenir l’aire correspondante (cellule ivoire). Dans la partie droite, c’est l’aire qui est connue et qui nous permet de déterminer la cote z.

QUESTIONS

1. De la cote z à l’aire et vice-versa

a) Sachant que l’aire sous la courbe est de 0,4, quelle est la cote z correspondante?

b) Sachant que la cote z est de 1,5 (ou de -1,5), quelle est l’aire correspondante?

Pour ces deux questions, utilisez d’abord le chiffrier (« méthode moderne ») et vérifiez ensuite dans une table de distribution normale classique (« méthode à Papa »). ***Reformuler en deux question, comme à la section suivante.


 

8. TABLE DE DISTRIBUTION DE STUDENT

Présentation

★★★ Obtenir la valeur recherchée dans la table de distribution de Student.

Lorsque l’échantillon est trop petit (n < 30), on remplace généralement la distribution normale par la distribution de Student (si certaines conditions sont remplies). Le tableau-outil illustré ci-dessous permet d’obtenir la valeur de Student correspondant à une aire donnée. Cette fois, cependant, les valeurs correspondent à l’aire située sur la courbe à droite du nombre obtenu dans la table, et non plus à gauche comme dans la courbe normale (voir schéma ci-dessous).

Dans le tableau suivant, l’aire comprise au-delà de la valeur 2,20 correspond à 0,025 (ou 2,5 %) quand l’échantillon comprend 12 éléments (soit 12 – 1 = 11 degrés de liberté).

QUESTIONS

1. « Méthode à Papa »

a) Quelle est la valeur contenue dans la table de Student si la surface couverte à droite est de 0,05 et que la taille de l’échantillon est de 9?

b) Même question avec une surface de 0,025 et un échantillon de 12 unités.

2. Méthode moderne

a) Quelle est la valeur contenue dans la table de Student si la surface couverte à droite est de 0,05 et que la taille de l’échantillon est de 9? Cette fois, vous devrez modifier deux cellules blanches du tableau pour obtenir la réponse.

b) Même question avec une surface de 0,1 et un échantillon de 12 unités.