Sauter à un chapitre clé
Ensuite, la ville sélectionne au hasard \(200\) ménages et les affecte au hasard à l'une des trois catégories :
recevoir le dépliant ;
recevoir un appel téléphonique ;
le groupe de contrôle (aucune forme d'intervention).
Enfin, la ville utilisera les résultats de ce test pour décider quelle est la meilleure façon de demander à ses habitants de recycler davantage.
Peux-tu deviner quel test d'hypothèse elle utilisera pour prendre cette décision ? Un test d'indépendance du khi-deux!
Définition du test d'indépendance du khi-deux
Il arrive que tu veuilles savoir s'il existe une relation entre deux variables catégorielles.
Vois les choses de la façon suivante :
Si tu sais quelque chose sur une variable, peux-tu utiliser cette information pour en savoir plus sur l'autre variable ?
Tu peux utiliser le test d'indépendance du khi-deux pour y parvenir.
Le test d'indépendance du khi-deux ((\chi^{2})) est un test non paramétrique du khi-deux de Pearson que tu peux utiliser pour déterminer si deux variables catégorielles d'une même population sont liées l'une à l'autre ou non.
S'il existe une relation entre les deux variables catégorielles, le fait de connaître la valeur d'une variable te renseigne sur la valeur de l'autre variable.
S'il n'y a pas de relation entre les deux variables catégorielles, elles sont indépendantes.
Hypothèses pour un test d'indépendance du khi-deux
Tous les tests du khi-deux de Pearson, pour l'indépendance, l'homogénéité et la qualité de l'ajustement, reposent sur les mêmes hypothèses de base. La principale différence réside dans la façon dont ces hypothèses s'appliquent dans la pratique. Pour pouvoir utiliser ce test, les hypothèses d'un test d'indépendance du khi-deux sont les suivantes :
Les deux variables doivent être catégoriques.
Ce test du Khi-deux utilise des tableaux croisés, en comptant les observations qui entrent dans chaque catégorie.
Les groupes doivent être mutuellement exclusifs, c'est-à-dire que l'échantillon est sélectionné au hasard.
En poursuivant l'exemple de l'introduction, trois mois après que les méthodes d'intervention de la ville ont été testées, ils examinent les résultats et placent les données dans un tableau de contingence. Les groupes qui doivent être mutuellement exclusifs sont les sous-groupes : (recycle - dépliant), (ne recycle pas - témoin), etc.
Tableau 1. Tableau de contingence, test du chi-deux pour l'indépendance.
Tableau de contingence | |||
---|---|---|---|
Intervention | Recycle | Ne recycle pas | Totaux des lignes |
Brochure | 46 | 18 | 56 |
Appel téléphonique | 47 | 19 | 77 |
Contrôle | 49 | 21 | 67 |
Totaux des colonnes | 142 | 58 | \(n =\) 200 |
Les effectifs attendus doivent être au moins égaux à \(5\).
Cela signifie que la taille de l'échantillon doit être suffisamment grande, mais il est difficile de déterminer à l'avance quelle est cette taille. En général, il suffit de s'assurer qu'il y a plus de \(5\) dans chaque catégorie.
Les observations doivent être indépendantes.
Il s'agit de la façon dont les données sont collectées. Dans l'exemple du recyclage en ville, le chercheur ne doit pas échantillonner des maisons qui sont proches les unes des autres. En d'autres termes, il est plus probable qu'une rue de ménages recycle que des ménages choisis dans des quartiers différents.
Hypothèse nulle et hypothèse alternative pour un test d'indépendance du khi-deux
Lorsqu'il s'agit de l'indépendance des variables, tu supposes presque toujours que deux variables sont indépendantes, puis tu essaies de prouver qu'elles ne le sont pas.
L'hypothèse nulle est que les deux variables catégorielles sont indépendantes, c'est-à-dire qu'il n'y a pas d'association entre elles, qu'elles ne sont pas liées.\[ H_{0} : \text{"Variable A" et "Variable B" ne sont pas liées.} \]
L'hypothèse alternative est que les deux variables catégorielles ne sont pas indépendantes, c'est-à-dire qu'il existe une association entre elles, elles sont liées.\[ H_{a} : \text{"Variable A" et "Variable B" sont liées.} \]
Remarque que le test du Khi-deux pour l'indépendance ne prétend pas au type de relation entre les deux variables catégorielles, mais seulement à l'existence d'une relation.
En remplaçant "Variable A" et "Variable B" par les variables de l'exemple du recyclage des villes, tu obtiens :
Ta population est l'ensemble des ménages de ta ville.
- Hypothèse nulle \N-[ \N-{align}H_{0} : &\text{"si un ménage recycle" et} \\N-&\N-text{"le type d'intervention reçu"} \\N-&\N- ne sont pas liés.}\N- end{align} \]
- Alternative Hypothesis \[ \begin{align}H_{a}: &\text{“if a household recycles” and} \\N-&\N- "le type d'intervention reçu"} \\N-&\N-{sont liés.}\N-{end{align}} \]
Fréquences attendues d'un test d'indépendance du khi-deux
Comme pour les autres tests du khi-deux, le test d'indépendance du khi-deux fonctionne en comparant les fréquences observées et les fréquences attendues. Tu calcules les fréquences attendues à l'aide du tableau de contingence. Ainsi, la fréquence attendue pour la ligne \(r\) et la colonne \(c\) est donnée par la formule :
\[ E_{r,c} = \frac{n_{r} \cdot n_{c}}{n} \]
où ,
\(E_{r,c}\) est la fréquence attendue pour la population (ou ligne) \(r\) au niveau (ou colonne) \(c\) de la variable catégorielle,
\(r\) est le nombre de populations, qui est également le nombre de lignes dans un tableau de contingence,
\(c\) est le nombre de niveaux de la variable catégorielle, qui est également le nombre de colonnes d'un tableau de contingence,
\(n_{r}\) est le nombre d'observations de la population (ou ligne) \(r\),
\(n_{c}\) est le nombre d'observations du niveau (ou de la colonne) \(c\) de la variable catégorielle, et
\(n\) est la taille totale de l'échantillon.
Reprenons l'exemple du recyclage en ville :
Ta ville calcule maintenant les fréquences attendues en utilisant la formule ci-dessus et le tableau de contingence.
- \(E_{1,1}=\frac{56 \cdot 142}{200} = 39.76\)
- \(E_{1,2}=\frac{56 \cdot 58}{200} = 16.24\)
- \(E_{2,1}=\frac{77 \cdot 142}{200} = 54.67\)
- \(E_{2,2}=\frac{77 \cdot 58}{200} = 22.33\)
- \(E_{3,1}=\frac{67 \cdot 142}{200} = 47.57\)
- \(E_{3,2}=\frac{67 \cdot 58}{200} = 19.43\)
Tableau 2. Tableau de contingence avec les fréquences observées et les fréquences attendues, test du chi-deux pour l'indépendance.
Tableau de contingence avec les fréquences observées (O) et les fréquences attendues (E) | |||
---|---|---|---|
Intervention | Recycle | Ne recycle pas | Totaux des lignes |
Brochure | O1,1 = 46E1,1 = 39,76 | O1,2 = 18E1,2 = 16,24 | 56 |
Appel téléphonique | O2,1 = 47E2,1 = 54,67 | O2,2 = 19E2,2 = 22,33 | 77 |
Contrôle | O3,1 = 49E3,1 = 47,57 | O3,2 = 21E3,2 = 19,43 | 67 |
Totaux des colonnes | 142 | 58 | \(n =\) 200 |
Degrés de liberté pour un test d'indépendance du khi-deux
Comme dans le test du Khi-deux pour l'homogénéité, tu compares deux variables et tu as besoin que le tableau de contingence s'additionne dans les deux dimensions.
La formule pour les degrés de liberté est la même pour les tests d'homogénéité et d'indépendance :
\[ k = (r - 1) (c - 1) \]
où,
\N(k\N) est le degré de liberté,
\(r\) est le nombre de populations, qui est également le nombre de lignes dans un tableau de contingence, et
\(c\) est le nombre de niveaux de la variable catégorielle, qui est également le nombre de colonnes d'un tableau de contingence.
Formule du test d'indépendance du khi-deux
La formule (également appelée statistique de test) pour un test d'indépendance du khi-deux est la suivante :
\[ \chi^{2} = \sum \frac{(O_{r,c} - E_{r,c})^{2}}{E_{r,c}} \]
où ,
\(O_{r,c}\) est la fréquence observée pour la population \(r\) au niveau \(c\), et
\(E_{r,c}\) est la fréquence attendue pour la population \(r\) au niveau \(c\).
La statistique du test du Khi-deux mesure l'écart entre les fréquences observées et les fréquences attendues si les deux variables ne sont pas liées.
Étapes pour calculer la statistique du test d'indépendance du khi-deux
Étape \(1\) : Créer un tableau
À l'aide de ton tableau de contingence, crée un tableau qui sépare tes valeurs observées et attendues en deux colonnes.
Tableau 3. Tableau des fréquences observées et des fréquences attendues, test d'indépendance du khi-deux.
Tableau des fréquences observées et attendues | |||
---|---|---|---|
Intervention | Résultat | Fréquence observée | Fréquence attendue |
Brochure | Recyclage | 46 | 39.76 |
Ne se recycle pas | 18 | 16.24 | |
Appel téléphonique | Recycle | 47 | 54.67 |
Ne recycle pas | 19 | 22.33 | |
Contrôle | Recycle | 49 | 47.57 |
Ne recycle pas | 21 | 19.43 |
Étape \(2\) : Soustraire les fréquences attendues des fréquences observées
Ajoute une nouvelle colonne à ton tableau, intitulée "O - E". Dans cette colonne, inscris le résultat de la soustraction de la fréquence attendue à la fréquence observée.
Tableau 4. Tableau des fréquences observées et des fréquences attendues, test du khi-deux pour l'indépendance.
Tableau des fréquences observées, attendues et O-E | ||||
---|---|---|---|---|
Intervention | Résultat | Fréquence observée | Fréquence attendue | O - E |
Brochure | Recyclage | 46 | 39.76 | 6.24 |
Ne se recycle pas | 18 | 16.24 | 1.76 | |
Appel téléphonique | Recycle | 47 | 54.67 | -7.67 |
Ne recycle pas | 19 | 22.33 | -3.33 | |
Contrôle | Recycle | 49 | 47.57 | 1.43 |
Ne recycle pas | 21 | 19.43 | 1.57 |
Les décimales de ce tableau sont arrondies à 2 chiffres.
Étape 3 : Élever au carré les résultats de l'étape \N(2\N)
Ajoute une nouvelle colonne à ton tableau, intitulée "(O - E)2". Dans cette colonne, inscris le résultat de la mise au carré des résultats de la colonne précédente.
Tableau 5. Tableau des fréquences observées et des fréquences attendues, test du Khi-deux pour l'indépendance.
Tableau des fréquences observées, attendues, O-E et (O-E)2 | |||||
---|---|---|---|---|---|
Intervention | Résultat | Fréquence observée | Fréquence attendue | O - E | (O - E)2 |
Brochure | Recycles | 46 | 39.76 | 6.24 | 38.94 |
Ne recycle pas | 18 | 16.24 | 1.76 | 3.10 | |
Appel téléphonique | Recyclage | 47 | 54.67 | -7.67 | 58.83 |
Ne recycle pas | 19 | 22.33 | -3.33 | 11.09 | |
Contrôle | Recyclage | 49 | 47.57 | 1.43 | 2.04 |
Ne recycle pas | 21 | 19.43 | 1.57 | 2.46 |
Les décimales de ce tableau sont arrondies à 2 chiffres.
Étape \(4\) : Diviser les résultats de l'étape 3 par les fréquences attendues
Ajoute à ton tableau une nouvelle colonne intitulée " (O - E)2"/E. Dans cette colonne, inscris le résultat de la division des résultats de la colonne précédente par leurs fréquences attendues.
Tableau 6. Tableau des fréquences observées et des fréquences attendues, test du Khi-deux pour l'indépendance.
Tableau des fréquences observées, attendues, O-E, (O-E)2 et (O-E)2/E | ||||||
---|---|---|---|---|---|---|
Intervention | Résultat | Fréquence observée | Fréquence attendue | O - E | (O - E)2 | (O - E)2/E |
Pamphlet | Recyclage | 46 | 39.76 | 6.24 | 38.94 | 0.98 |
Ne recycle pas | 18 | 16.24 | 1.76 | 3.10 | 0.19 | |
Appel téléphonique | Recycles | 47 | 54.67 | -7.67 | 58.83 | 1.08 |
Ne recycle pas | 19 | 22.33 | -3.33 | 11.09 | 0.50 | |
Contrôle | Recyclage | 49 | 47.57 | 1.43 | 2.04 | 0.04 |
Ne recycle pas | 21 | 19.43 | 1.57 | 2.46 | 0.13 |
Les décimales de ce tableau sont arrondies à 2 chiffres.
Étape \(5\) : Additionne les résultats de l'étape 4 pour obtenir la statistique du test du khi-deux.
Enfin, additionne toutes les valeurs de la dernière colonne de ton tableau pour calculer la statistique de ton test du khi-deux :
\N-[ \N-{align}\N-{chi^{2} &= \sum \Nfrac{(O_{r,c} - E_{r,c})^{2}}{E_{r,c}}]. \N-&= 0.9793 + 0.1907 + 1.0761 + 0.4966 + 0.04299 + 0.1269 \N-&= 2.91259\N-end{align} \]
La formule ici utilise les nombres non arrondis des tableaux ci-dessus pour obtenir une réponse plus précise.
La statistique du test du Khi-deux de l'indépendance dans l'exemple du recyclage de la ville est :
\N[ \NChi^{2} = 2,91259 \N]
Étapes à suivre pour effectuer un test d'indépendance du khi-deux
Si la statistique de test que tu as calculée est suffisamment grande, alors tu peux tirer la conclusion que les fréquences observées ne sont pas celles auxquelles tu t'attendrais si les variables n'étaient effectivement pas liées. Mais qu'est-ce qui est considéré comme "suffisamment grand" ?
Pour déterminer si la statistique du test est suffisamment grande pour rejeter l'hypothèse nulle, tu la compares à une valeur critique tirée d'une table de distribution du khi-deux. Cette comparaison est au cœur du test d'indépendance du khi-deux.
Suis les étapes ci-dessous pour effectuer un test d'indépendance du khi-deux.
Note que les étapes \(1, 2\) et \(3\) ont été décrites en détail ci-dessus.
Étape \(1\) : Énoncer les hypothèses
L'hypothèse nulle est que les deux variables catégorielles sont indépendantes, c'est-à-dire qu'il n'y a pas d'association entre elles, qu'elles ne sont pas liées.\[ H_{0} : \text{"Variable A" et "Variable B" ne sont pas liées.} \]
L'hypothèse alternative est que les deux variables catégorielles ne sont pas indépendantes, c'est-à-dire qu'il existe une association entre elles, elles sont liées.\[ H_{a} : \text{"Variable A" et "Variable B" sont liées.} \]
Étape \N(2\N) : Calculer les fréquences attendues
Utilise ton tableau de contingence pour calculer les fréquences attendues à l'aide de la formule :
\[ E_{r,c} = \frac{n_{r} \cdot n_{c}}{n} \]
Étape \N(3\N) : Calculer la statistique du test du khi-deux
Utilise la formule du test d'indépendance du khi-deux pour calculer la statistique du test du khi-deux :
\N[ \Nchi^{2} = \Nsum \Nfrac{(O_{r,c} - E_{r,c})^{2}}{E_{r,c}} \N]
Étape \(4\) : Trouver la valeur critique du khi-deux
Tu as deux possibilités pour trouver la valeur critique :
utiliser un tableau de distribution du Khi-deux, ou
utiliser une calculatrice de valeur critique.
Dans les deux cas, tu dois connaître deux éléments d'information pour trouver la valeur critique :
les degrés de liberté, \(k\), donnés par la formule :
\[ k = (r - 1) (c - 1) \]
et le niveau de signification, \( \alpha \), qui est généralement \( 0,05 \).
En te référant à l'exemple du recyclage en ville, trouve la valeur critique.
Trouve la valeur critique du khi-deux.
- Calcule les degrés de liberté.
- En utilisant le tableau de contingence de l'exemple du recyclage urbain, rappelle-toi qu'il y a \(3\) groupes d'intervention (les lignes du tableau de contingence) et \(2\) groupes de résultats (les colonnes du tableau de contingence). Les degrés de liberté sont donc les suivants :\N[ \Nbegin{align} k &= (r - 1) (c - 1) \N&= (3 - 1) (2 - 1) \N&= 2 \Ntext{ degrés de liberté}\Nend{align} \]
- Choisis un niveau de signification.
- Généralement, on utilise un niveau de signification de \N( 0,05 \N), c'est donc celui qui est utilisé ici.
- À l'aide d'un tableau de distribution du khi-deux ou d'une calculatrice de valeur critique, détermine la valeur critique.
- D'après le tableau de distribution du khi-deux ci-dessous, pour \N(k = 2) et \N( \Nalpha = 0,05), la valeur critique est :\N[ \Nchi^{2} \Ntext{critical value} = 5,99 \N].
Tableau 7. Pourcentage de points, test du khi-deux pour l'indépendance.
Points de pourcentage de la distribution du khi-deux | |||||||||
---|---|---|---|---|---|---|---|---|---|
Degrés de liberté(k) | Probabilité d'une valeur plus grande de X2; niveau de signification (α). | ||||||||
0.99 | 0.95 | 0.90 | 0.75 | 0.50 | 0.25 | 0.10 | 0.05 | 0.01 | |
1 | 0.000 | 0.004 | 0.016 | 0.102 | 0.455 | 1.32 | 2.71 | 3.84 | 6.63 |
2 | 0.020 | 0.103 | 0.211 | 0.575 | 1.386 | 2.77 | 4.61 | 5.99 | 9.21 |
3 | 0.115 | 0.352 | 0.584 | 1.212 | 2.366 | 4.11 | 6.25 | 7.81 | 11.34 |
Étape \(5\) : Comparer la statistique du test du khi-deux à la valeur critique du khi-deux
C'est maintenant le moment de vérité ! Ta statistique de test est-elle suffisamment grande pour rejeter l'hypothèse nulle ? Compare-la à la valeur critique que tu viens de trouver pour le savoir.
En reprenant l'exemple du recyclage de la ville, compare la statistique du test à la valeur critique.
La statistique du test du khi-deux est la suivante : \N( \Nchi^{2} = 2,91259 \N)
La valeur critique est : \( 5.99 \)
La statistique du test du khi-deux est inférieure à la valeur critique.
Étape \(6\) : Décider de rejeter ou non l'hypothèse nulle
Enfin, décide de rejeter ou non l'hypothèse nulle.
Si la valeur du Khi-deux est supérieure à la valeur critique, alors la différence entre les fréquences observées et attendues est significative ; \( (p < \alpha) \).
Cela signifie que tu rejettes l'hypothèse nulle selon laquelle les variables ne sont pas liées, et que tu as la preuve que l'hypothèse alternative est vraie.
Si la valeur du Khi-deux est inférieure à la valeur critique, la différence entre les fréquences observées et attendues n'est pas significative ; \( (p > \alpha) \).
Cela signifie que tu ne rejettes pas l'hypothèse nulle, mais que tu n'as pas la preuve que l'hypothèse alternative est vraie.
Décide s'il faut rejeter l'hypothèse nulle pour l'exemple du recyclage en ville.
La valeur du khi-deux est inférieure à la valeur critique.
- La ville ne rejette donc pas l'hypothèse nulle selon laquelle le fait qu'un ménage recycle ou non et le type d'intervention qu'il reçoit ne sont pas liés.
- Il n'y a pas de différence significative entre les fréquences observées et les fréquences attendues. Cela suggère que la proportion de ménages qui recyclent est la même pour toutes les interventions.
La ville conclut que ses interventions n'ont pas d'effet sur le fait que les ménages choisissent de recycler.
Utilisation de la valeur critique VS utilisation de la valeur P
Dans les étapes de réalisation d'un test d'indépendance du Khi-deux, tu as calculé et utilisé la valeur critique pour décider de rejeter ou non l'hypothèse nulle.
La valeur critique d'un test d'indépendance du Khi-deux est une valeur qui est comparée à la valeur de la statistique du test, afin que tu puisses déterminer s'il faut rejeter l'hypothèse nulle.
Il est toutefois important de savoir qu'il existe une autre option que tu peux utiliser : lavaleur\(p\)-.
La valeur \(p\) d'un test d'indépendance du Khi-deux est associée à la valeur calculée de sa statistique de test. Il s'agit de la zone située à droite de la courbe du khi-deux, avec \(k\) degrés de liberté.
L'image ci-dessous résume l'approche de la valeur critique par rapport à l'approche de la valeur \(p\).
Test du khi-deux pour l'indépendance - Exemple
De nos jours, de nombreux demandeurs d'emploi postulent via des sites d'emploi en ligne. Des sites comme Indeed, ZipRecruiter et CareerBuilder proposent des milliers d'offres alléchantes qui invitent les gens à postuler. Il n'a jamais été aussi facile pour les recruteurs frauduleux d'attirer des personnes vulnérables et sans méfiance.
Les recruteurs frauduleux sont-ils plus répandus dans certains secteurs que dans d'autres ?
Le tableau de contingence ci-dessous contient le nombre réel d'offres d'emploi en ligne frauduleuses et non frauduleuses, par secteur d'activité. Il s'agit des secteurs d'activité les plus courants de l'ensemble de données. Il s'agit d'un ensemble de données assez important, mais qui représente bien ce que les statisticiens font dans le monde réel.
Tableau 7. Tableau de contingence, test du khi-deux pour l'indépendance.
Tableau de contingence | |||
---|---|---|---|
Industrie | Réel | Fraude | Totaux des lignes |
Technologie de l'information | 1702 | 32 | 1734 |
Logiciels informatiques | 1371 | 5 | 1376 |
Internet | 1062 | 0 | 1062 |
Marketing / Publicité | 783 | 45 | 828 |
Formation | 822 | 0 | 822 |
Services financiers | 744 | 35 | 779 |
Soins de santé | 446 | 51 | 497 |
Services aux consommateurs | 334 | 24 | 358 |
Télécom. | 316 | 26 | 342 |
Pétrole / Énergie | 178 | 109 | 287 |
Totaux des colonnes | 7758 | 327 | \(n=\) 8085 |
Solution:
Étape \(1\) : Énonce les hypothèses.
L'hypothèse nulle est que les deux variables catégorielles sont indépendantes, c'est-à-dire qu'il n'y a pas d'association entre elles, elles ne sont pas liées.\[ H_{0} : \text{"si une offre d'emploi est réelle" et "le secteur de l'emploi" ne sont pas liés.} \]
L'hypothèse alternative est que les deux variables catégorielles ne sont pas indépendantes, c'est-à-dire qu'il existe une association entre elles, elles sont liées.\[ H_{a} : \text{"si une offre d'emploi est réelle" et "le secteur de l'emploi" sont liés.} \]
- En utilisant le tableau de contingence ci-dessus et la formule :\[ E_{r,c} = \frac{{r} \cdot n_{c}}{n}, \]crée un tableau qui contient les fréquences attendues que tu as calculées.
Tableau 7. Tableau des fréquences attendues, test du khi-deux pour l'indépendance.
Tableau des fréquences attendues | |||
---|---|---|---|
Secteur d'activité | Réel | Fraude | Totaux des lignes |
Technologie de l'information | 1663.8679 | 70.1321 | 1734 |
Logiciels informatiques | 1320.3473 | 55.6527 | 1376 |
Internet | 1019.0471 | 42.9529 | 1062 |
Marketing / Publicité | 794.5113 | 33.4887 | 828 |
Enseignement | 788.754 | 33.246 | 822 |
Services financiers | 747.4931 | 31.5069 | 779 |
Soins de santé | 476.8987 | 20.1013 | 497 |
Services aux consommateurs | 343.5206 | 14.4794 | 358 |
Télécom. | 328.1677 | 13.8323 | 324 |
Pétrole / Énergie | 275.3922 | 11.6078 | 287 |
Totaux des colonnes | 7758 | 327 | \(n =\) 8085 |
Étape \(3\) : Calcule la statistique du test du khi-deux.
- Crée un tableau pour conserver les valeurs calculées et utilise la formule :\[ \chi^{2} = \sum \frac{(O_{r,c} - E_{r,c})^{2}}{E_{r,c}} \]pour calculer la statistique de ton test.
Tableau 7. Statistiques du test du khi-deux.
Utilisation d'un tableau pour calculer la statistique du test du khi-deux | ||||||
---|---|---|---|---|---|---|
Secteur d'activité | Statut de l'emploi | Fréquence observée | Fréquence attendue | O - E | (O - E)2 | (O - E)2/E |
Technologie de l'information | Réel | 1702 | 1633.868 | 68.132 | 4641.983 | 2.841 |
Fraude | 32 | 70.132 | -38.132 | 1454.057 | 20.733 | |
Logiciels informatiques | Réel | 1371 | 1320.347 | 50.653 | 2565.696 | 1.943 |
Fraude | 5 | 55.653 | -50.653 | 2565.696 | 46.102 | |
Internet | Réel | 1062 | 1019.047 | 42.953 | 1844.952 | 1.811 |
Fraude | 0 | 42.953 | -42.953 | 1844.952 | 42.953 | |
Marketing / Publicité | Réel | 783 | 794.511 | -11.511 | 132.510 | 0.167 |
Fraude | 45 | 33.4888 | 11.511 | 132.510 | 3.957 | |
Éducation | Réel | 822 | 788.754 | 33.246 | 1105.297 | 1.401 |
Fraude | 0 | 33.246 | -33.246 | 1105.297 | 33.246 | |
Services financiers | Réels | 744 | 747.493 | -3.493 | 12.202 | 0.016 |
Fraude | 35 | 31.507 | 3.493 | 12.202 | 0.387 | |
Soins de santé | Réel | 446 | 476.899 | -30.899 | 954.730 | 2.002 |
Fraude | 51 | 20.101 | 30.899 | 954.730 | 47.496 | |
Services aux consommateurs | Réels | 334 | 343.521 | -9.521 | 90.642 | 0.264 |
Fraude | 24 | 14.479 | 9.521 | 90.642 | 6.260 | |
Télécom. | Réel | 316 | 328.168 | -12.168 | 148.053 | 0.451 |
Fraude | 26 | 13.832 | 12.168 | 148.053 | 10.703 | |
Pétrole / Energie | Réel | 178 | 275.392 | -97.392 | 9485.241 | 34.443 |
Fraude | 109 | 11.608 | 97.392 | 9485.241 | 817.144 |
Les décimales de ce tableau sont arrondies à \(3\) chiffres.
- Additionne toutes les valeurs de la dernière colonne du tableau ci-dessus pour calculer la statistique du test :\[ \begin{align}\chi^{2} &= 2.8411 + 20.7331 + 1.9432 + 46.1019 + 1.8105 \\N-&+ 42.9529 + 0.1668 + 3.9569 + 1.4013 + 33.246 \N-&+ 0.0163 + 0.3873 + 2.0020 + 47.4959 + 0.2639 \N-&+ 6.2601 + 0.4512 + 10.7034 + 34.4427 + 817.1437 \N-&= 1074.319971.\N- end{align} \]
La formule ici utilise les nombres non arrondis du tableau ci-dessus pour obtenir une réponse plus précise.
- La statistique du test du khi-deux est la suivante :\[ \chi^{2} = 1074.319971 .\]
Étape \(4\) : Trouver la valeur critique du khi-deux et la valeur du khi-deux.
Dans le monde réel, un statisticien serait probablement plus intéressé par le calcul de la valeur \(p\)-valeur que par le simple fait d'indiquer si le résultat est significatif, mais les gens préfèrent de loin obtenir une conclusion plus spécifique. Disons que tu veux être vraiment sûr qu'il existe une relation avant d'en faire état, et que tu choisis un niveau de signification de \(\alpha = 0,01\).
- Calcule les degrés de liberté : \[ \N-k &= (r - 1)(c - 1) \N-&= (2 - 1) (10 - 1) \N-&= 1 \Ncdot 9 \N-&= 9 \N-text{ degrés de liberté}\N-end{align} \]
- À l'aide d'un tableau de distribution du khi-deux, regarde la ligne des degrés de liberté (9) et la colonne de la signification (0,01) pour trouver la valeur critique de (21,67).
- Pour utiliser une calculatrice de valeur de \(p\), tu as besoin de la statistique du test et des degrés de liberté.
- En introduisant les degrés de liberté et la statistique du test dans une calculatrice de valeur de \Npourcentage, tu obtiens une valeur de \Npourcentage très proche de \Npourcentage.
Étape 5 : Comparer la statistique du test du khi-deux à la valeur critique du khi-deux.
- La statistique du test de \(1074.319971\) est beaucoup, beaucoup plus grande que la valeur critique de \(21.67\), ce qui signifie que tu as suffisamment de preuves pour rejeter l'hypothèse nulle.
- Lavaleur de \(p\) est également très faible, beaucoup moins que le niveau de signification, ce qui te permettrait également de rejeter l'hypothèse nulle.
Étape 6 : Décider de rejeter ou non l'hypothèse nulle.
- Il semble qu'il y ait un lien étroit entre le secteur d'activité et le nombre de recruteurs frauduleux.
- Regarde le tableau de l'étape 2.
- Tu peux y voir que le nombre d'emplois frauduleux dans l'industrie pétrolière est beaucoup plus élevé que prévu et qu'il contribue suffisamment à lui seul pour que tu puisses conclure que l'industrie et les escroqueries des recruteurs ne sont pas indépendantes.
Parconséquent, tu peux en toute confiance rejeter l'hypothèse nulle.
Test du Khi-deux pour l'indépendance - Principaux enseignements
- Le test du Khi-deux de l'indépendance est un test non paramétrique du Khi-deux de Pearson que tu peux utiliser pour déterminer si deux variables catégorielles d'une même population sont liées entre elles ou non.
- Les conditions suivantes doivent être remplies pour pouvoir utiliser un test d'indépendance du khi-deux :
- Les deux variables doivent être catégoriques.
- Les groupes doivent être mutuellement exclusifs, c'est-à-dire que l'échantillon est sélectionné au hasard.
- Les effectifs attendus doivent être au moins égaux à \(5\).
- Les observations doivent être indépendantes.
- L'hypothèse nulle est que les deux variables catégorielles sont indépendantes, c'est-à-dire qu'il n'y a pas d'association entre elles, elles ne sont pas liées.
- L'hypothèse alternative est que les deux variables catégorielles ne sont pas indépendantes, c'est-à-dire qu'il existe une association entre elles, elles sont liées.
- La fréquence attendue pour la ligne \(r\) et la colonne \(c\) d'un test du Khi-deux de l'indépendance est donnée par la formule :
\[ E_{r,c} = \frac{n_{r} \cdot n_{c}}{n} \].
- Les degrés de liberté pourun test d'indépendance du khi-deux sont donnés par la formule :
\[ k = (r - 1) (c - 1) \]
La formule (également appelée statistique de test) pour un test d'indépendance du Khi-deux est :
\[ \chi^{2} = \sum \frac{(O_{r,c} - E_{r,c})^{2}}{E_{r,c}} \]
Apprends plus vite avec les 3 fiches sur Test du chi-carré d'indépendance
Inscris-toi gratuitement pour accéder à toutes nos fiches.
Questions fréquemment posées en Test du chi-carré d'indépendance
À propos de StudySmarter
StudySmarter est une entreprise de technologie éducative mondialement reconnue, offrant une plateforme d'apprentissage holistique conçue pour les étudiants de tous âges et de tous niveaux éducatifs. Notre plateforme fournit un soutien à l'apprentissage pour une large gamme de sujets, y compris les STEM, les sciences sociales et les langues, et aide également les étudiants à réussir divers tests et examens dans le monde entier, tels que le GCSE, le A Level, le SAT, l'ACT, l'Abitur, et plus encore. Nous proposons une bibliothèque étendue de matériels d'apprentissage, y compris des flashcards interactives, des solutions de manuels scolaires complètes et des explications détaillées. La technologie de pointe et les outils que nous fournissons aident les étudiants à créer leurs propres matériels d'apprentissage. Le contenu de StudySmarter est non seulement vérifié par des experts, mais également régulièrement mis à jour pour garantir l'exactitude et la pertinence.
En savoir plus