Test du chi-carré d'indépendance: Hypothèse, Variables

Sauter à un chapitre clé

l'envoi par la poste d'une brochure éducative ; et
en téléphonant à chaque habitant.

Ensuite, la ville sélectionne au hasard $200$ ménages et les affecte au hasard à l'une des trois catégories :

recevoir le dépliant ;
recevoir un appel téléphonique ;
le groupe de contrôle (aucune forme d'intervention).

Enfin, la ville utilisera les résultats de ce test pour décider quelle est la meilleure façon de demander à ses habitants de recycler davantage.

Peux-tu deviner quel test d'hypothèse elle utilisera pour prendre cette décision ? Un test d'indépendance du khi-deux!

Définition du test d'indépendance du khi-deux

Il arrive que tu veuilles savoir s'il existe une relation entre deux variables catégorielles.

Vois les choses de la façon suivante :

Si tu sais quelque chose sur une variable, peux-tu utiliser cette information pour en savoir plus sur l'autre variable ?

Tu peux utiliser le test d'indépendance du khi-deux pour y parvenir.

Le test d'indépendance du khi-deux ((\chi^{2})) est un test non paramétrique du khi-deux de Pearson que tu peux utiliser pour déterminer si deux variables catégorielles d'une même population sont liées l'une à l'autre ou non.

S'il existe une relation entre les deux variables catégorielles, le fait de connaître la valeur d'une variable te renseigne sur la valeur de l'autre variable.

S'il n'y a pas de relation entre les deux variables catégorielles, elles sont indépendantes.

Hypothèses pour un test d'indépendance du khi-deux

Tous les tests du khi-deux de Pearson, pour l'indépendance, l'homogénéité et la qualité de l'ajustement, reposent sur les mêmes hypothèses de base. La principale différence réside dans la façon dont ces hypothèses s'appliquent dans la pratique. Pour pouvoir utiliser ce test, les hypothèses d'un test d'indépendance du khi-deux sont les suivantes :

Les deux variables doivent être catégoriques.
- Ce test du Khi-deux utilise des tableaux croisés, en comptant les observations qui entrent dans chaque catégorie.
Les groupes doivent être mutuellement exclusifs, c'est-à-dire que l'échantillon est sélectionné au hasard.
- En poursuivant l'exemple de l'introduction, trois mois après que les méthodes d'intervention de la ville ont été testées, ils examinent les résultats et placent les données dans un tableau de contingence. Les groupes qui doivent être mutuellement exclusifs sont les sous-groupes : (recycle - dépliant), (ne recycle pas - témoin), etc.

Tableau 1. Tableau de contingence, test du chi-deux pour l'indépendance.

Tableau de contingence
Intervention	Recycle	Ne recycle pas	Totaux des lignes
Brochure	46	18	56
Appel téléphonique	47	19	77
Contrôle	49	21	67
Totaux des colonnes	142	58	$n =$ 200

Les effectifs attendus doivent être au moins égaux à $5$.
- Cela signifie que la taille de l'échantillon doit être suffisamment grande, mais il est difficile de déterminer à l'avance quelle est cette taille. En général, il suffit de s'assurer qu'il y a plus de $5$ dans chaque catégorie.
Les observations doivent être indépendantes.
- Il s'agit de la façon dont les données sont collectées. Dans l'exemple du recyclage en ville, le chercheur ne doit pas échantillonner des maisons qui sont proches les unes des autres. En d'autres termes, il est plus probable qu'une rue de ménages recycle que des ménages choisis dans des quartiers différents.

Hypothèse nulle et hypothèse alternative pour un test d'indépendance du khi-deux

Lorsqu'il s'agit de l'indépendance des variables, tu supposes presque toujours que deux variables sont indépendantes, puis tu essaies de prouver qu'elles ne le sont pas.

L'hypothèse nulle est que les deux variables catégorielles sont indépendantes, c'est-à-dire qu'il n'y a pas d'association entre elles, qu'elles ne sont pas liées.\[ H_{0} : \text{"Variable A" et "Variable B" ne sont pas liées.} \]
L'hypothèse alternative est que les deux variables catégorielles ne sont pas indépendantes, c'est-à-dire qu'il existe une association entre elles, elles sont liées.\[ H_{a} : \text{"Variable A" et "Variable B" sont liées.} \]

Remarque que le test du Khi-deux pour l'indépendance ne prétend pas au type de relation entre les deux variables catégorielles, mais seulement à l'existence d'une relation.

En remplaçant "Variable A" et "Variable B" par les variables de l'exemple du recyclage des villes, tu obtiens :

Ta population est l'ensemble des ménages de ta ville.

Hypothèse nulle \N-[ \N-{align}H_{0} : &\text{"si un ménage recycle" et} \\N-&\N-text{"le type d'intervention reçu"} \\N-&\N- ne sont pas liés.}\N- end{align} \]
Alternative Hypothesis \[ \begin{align}H_{a}: &\text{“if a household recycles” and} \\N-&\N- "le type d'intervention reçu"} \\N-&\N-{sont liés.}\N-{end{align}} \]

Fréquences attendues d'un test d'indépendance du khi-deux

Comme pour les autres tests du khi-deux, le test d'indépendance du khi-deux fonctionne en comparant les fréquences observées et les fréquences attendues. Tu calcules les fréquences attendues à l'aide du tableau de contingence. Ainsi, la fréquence attendue pour la ligne $r$ et la colonne $c$ est donnée par la formule :

\[ E_{r,c} = \frac{n_{r} \cdot n_{c}}{n} \]

où ,

$E_{r,c}$ est la fréquence attendue pour la population (ou ligne) $r$ au niveau (ou colonne) $c$ de la variable catégorielle,
$r$ est le nombre de populations, qui est également le nombre de lignes dans un tableau de contingence,
$c$ est le nombre de niveaux de la variable catégorielle, qui est également le nombre de colonnes d'un tableau de contingence,
$n_{r}$ est le nombre d'observations de la population (ou ligne) $r$,
$n_{c}$ est le nombre d'observations du niveau (ou de la colonne) $c$ de la variable catégorielle, et
$n$ est la taille totale de l'échantillon.

Reprenons l'exemple du recyclage en ville :

Ta ville calcule maintenant les fréquences attendues en utilisant la formule ci-dessus et le tableau de contingence.

$E_{1,1}=\frac{56 \cdot 142}{200} = 39.76$
$E_{1,2}=\frac{56 \cdot 58}{200} = 16.24$
$E_{2,1}=\frac{77 \cdot 142}{200} = 54.67$
$E_{2,2}=\frac{77 \cdot 58}{200} = 22.33$
$E_{3,1}=\frac{67 \cdot 142}{200} = 47.57$
$E_{3,2}=\frac{67 \cdot 58}{200} = 19.43$

Tableau 2. Tableau de contingence avec les fréquences observées et les fréquences attendues, test du chi-deux pour l'indépendance.

Tableau de contingence avec les fréquences observées (O) et les fréquences attendues (E)
Intervention	Recycle	Ne recycle pas	Totaux des lignes
Brochure	O1_,1 = 46E1_,1 = 39,76	O1_,2 = 18E1_,2 = 16,24	56
Appel téléphonique	O2_,1 = 47E2_,1 = 54,67	O2,₂ = 19E2_,2 = 22,33	77
Contrôle	O3_,1 = 49E3_,1 = 47,57	O3,₂ = 21E3_,2 = 19,43	67
Totaux des colonnes	142	58	$n =$ 200

Degrés de liberté pour un test d'indépendance du khi-deux

Comme dans le test du Khi-deux pour l'homogénéité, tu compares deux variables et tu as besoin que le tableau de contingence s'additionne dans les deux dimensions.

La formule pour les degrés de liberté est la même pour les tests d'homogénéité et d'indépendance :

\[ k = (r - 1) (c - 1) \]

où,

\N(k\N) est le degré de liberté,
$r$ est le nombre de populations, qui est également le nombre de lignes dans un tableau de contingence, et
$c$ est le nombre de niveaux de la variable catégorielle, qui est également le nombre de colonnes d'un tableau de contingence.

Formule du test d'indépendance du khi-deux

La formule (également appelée statistique de test) pour un test d'indépendance du khi-deux est la suivante :

\[ \chi^{2} = \sum \frac{(O_{r,c} - E_{r,c})^{2}}{E_{r,c}} \]

où ,

$O_{r,c}$ est la fréquence observée pour la population $r$ au niveau $c$, et
$E_{r,c}$ est la fréquence attendue pour la population $r$ au niveau $c$.

La statistique du test du Khi-deux mesure l'écart entre les fréquences observées et les fréquences attendues si les deux variables ne sont pas liées.

Étapes pour calculer la statistique du test d'indépendance du khi-deux

Étape $1$ : Créer un tableau

À l'aide de ton tableau de contingence, crée un tableau qui sépare tes valeurs observées et attendues en deux colonnes.

Tableau 3. Tableau des fréquences observées et des fréquences attendues, test d'indépendance du khi-deux.

Tableau des fréquences observées et attendues
Intervention	Résultat	Fréquence observée	Fréquence attendue
Brochure	Recyclage	46	39.76
Brochure	Ne se recycle pas	18	16.24
Appel téléphonique	Recycle	47	54.67
Appel téléphonique	Ne recycle pas	19	22.33
Contrôle	Recycle	49	47.57
Contrôle	Ne recycle pas	21	19.43

Étape $2$ : Soustraire les fréquences attendues des fréquences observées

Ajoute une nouvelle colonne à ton tableau, intitulée "O - E". Dans cette colonne, inscris le résultat de la soustraction de la fréquence attendue à la fréquence observée.

Tableau 4. Tableau des fréquences observées et des fréquences attendues, test du khi-deux pour l'indépendance.

Tableau des fréquences observées, attendues et O-E
Intervention	Résultat	Fréquence observée	Fréquence attendue	O - E
Brochure	Recyclage	46	39.76	6.24
Brochure	Ne se recycle pas	18	16.24	1.76
Appel téléphonique	Recycle	47	54.67	-7.67
Appel téléphonique	Ne recycle pas	19	22.33	-3.33
Contrôle	Recycle	49	47.57	1.43
Contrôle	Ne recycle pas	21	19.43	1.57

Les décimales de ce tableau sont arrondies à 2 chiffres.

Étape 3 : Élever au carré les résultats de l'étape \N(2\N)

Ajoute une nouvelle colonne à ton tableau, intitulée "(O - E⁾²". Dans cette colonne, inscris le résultat de la mise au carré des résultats de la colonne précédente.

Tableau 5. Tableau des fréquences observées et des fréquences attendues, test du Khi-deux pour l'indépendance.

Tableau des fréquences observées, attendues, O-E et (O-E⁾²
Intervention	Résultat	Fréquence observée	Fréquence attendue	O - E	(O - E⁾²
Brochure	Recycles	46	39.76	6.24	38.94
Brochure	Ne recycle pas	18	16.24	1.76	3.10
Appel téléphonique	Recyclage	47	54.67	-7.67	58.83
Appel téléphonique	Ne recycle pas	19	22.33	-3.33	11.09
Contrôle	Recyclage	49	47.57	1.43	2.04
Contrôle	Ne recycle pas	21	19.43	1.57	2.46

Les décimales de ce tableau sont arrondies à 2 chiffres.

Étape $4$ : Diviser les résultats de l'étape 3 par les fréquences attendues

Ajoute à ton tableau une nouvelle colonne intitulée " (O - E⁾²"/E. Dans cette colonne, inscris le résultat de la division des résultats de la colonne précédente par leurs fréquences attendues.

Tableau 6. Tableau des fréquences observées et des fréquences attendues, test du Khi-deux pour l'indépendance.

Tableau des fréquences observées, attendues, O-E, (O-E⁾² et (O-E^)2/E
Intervention	Résultat	Fréquence observée	Fréquence attendue	O - E	(O - E⁾²	(O - E^)2/E
Pamphlet	Recyclage	46	39.76	6.24	38.94	0.98
Pamphlet	Ne recycle pas	18	16.24	1.76	3.10	0.19
Appel téléphonique	Recycles	47	54.67	-7.67	58.83	1.08
Appel téléphonique	Ne recycle pas	19	22.33	-3.33	11.09	0.50
Contrôle	Recyclage	49	47.57	1.43	2.04	0.04
Contrôle	Ne recycle pas	21	19.43	1.57	2.46	0.13

Les décimales de ce tableau sont arrondies à 2 chiffres.

Étape $5$ : Additionne les résultats de l'étape 4 pour obtenir la statistique du test du khi-deux.

Enfin, additionne toutes les valeurs de la dernière colonne de ton tableau pour calculer la statistique de ton test du khi-deux :

\N-[ \N-{align}\N-{chi^{2} &= \sum \Nfrac{(O_{r,c} - E_{r,c})^{2}}{E_{r,c}}]. \N-&= 0.9793 + 0.1907 + 1.0761 + 0.4966 + 0.04299 + 0.1269 \N-&= 2.91259\N-end{align} \]

La formule ici utilise les nombres non arrondis des tableaux ci-dessus pour obtenir une réponse plus précise.

La statistique du test du Khi-deux de l'indépendance dans l'exemple du recyclage de la ville est :

\N[ \NChi^{2} = 2,91259 \N]

Étapes à suivre pour effectuer un test d'indépendance du khi-deux

Si la statistique de test que tu as calculée est suffisamment grande, alors tu peux tirer la conclusion que les fréquences observées ne sont pas celles auxquelles tu t'attendrais si les variables n'étaient effectivement pas liées. Mais qu'est-ce qui est considéré comme "suffisamment grand" ?

Pour déterminer si la statistique du test est suffisamment grande pour rejeter l'hypothèse nulle, tu la compares à une valeur critique tirée d'une table de distribution du khi-deux. Cette comparaison est au cœur du test d'indépendance du khi-deux.

Suis les étapes ci-dessous pour effectuer un test d'indépendance du khi-deux.

Note que les étapes $1, 2$ et $3$ ont été décrites en détail ci-dessus.

Étape $1$ : Énoncer les hypothèses

L'hypothèse nulle est que les deux variables catégorielles sont indépendantes, c'est-à-dire qu'il n'y a pas d'association entre elles, qu'elles ne sont pas liées.\[ H_{0} : \text{"Variable A" et "Variable B" ne sont pas liées.} \]
L'hypothèse alternative est que les deux variables catégorielles ne sont pas indépendantes, c'est-à-dire qu'il existe une association entre elles, elles sont liées.\[ H_{a} : \text{"Variable A" et "Variable B" sont liées.} \]

Étape \N(2\N) : Calculer les fréquences attendues

Utilise ton tableau de contingence pour calculer les fréquences attendues à l'aide de la formule :

\[ E_{r,c} = \frac{n_{r} \cdot n_{c}}{n} \]

Étape \N(3\N) : Calculer la statistique du test du khi-deux

Utilise la formule du test d'indépendance du khi-deux pour calculer la statistique du test du khi-deux :

\N[ \Nchi^{2} = \Nsum \Nfrac{(O_{r,c} - E_{r,c})^{2}}{E_{r,c}} \N]

Étape $4$ : Trouver la valeur critique du khi-deux

Tu as deux possibilités pour trouver la valeur critique :

utiliser un tableau de distribution du Khi-deux, ou
utiliser une calculatrice de valeur critique.

Dans les deux cas, tu dois connaître deux éléments d'information pour trouver la valeur critique :

les degrés de liberté, $k$, donnés par la formule :
\[ k = (r - 1) (c - 1) \]
et le niveau de signification, $ \alpha $, qui est généralement $ 0,05 $.

En te référant à l'exemple du recyclage en ville, trouve la valeur critique.

Trouve la valeur critique du khi-deux.

Calcule les degrés de liberté.
- En utilisant le tableau de contingence de l'exemple du recyclage urbain, rappelle-toi qu'il y a $3$ groupes d'intervention (les lignes du tableau de contingence) et $2$ groupes de résultats (les colonnes du tableau de contingence). Les degrés de liberté sont donc les suivants :\N[ \Nbegin{align} k &= (r - 1) (c - 1) \N&= (3 - 1) (2 - 1) \N&= 2 \Ntext{ degrés de liberté}\Nend{align} \]
Choisis un niveau de signification.
- Généralement, on utilise un niveau de signification de \N( 0,05 \N), c'est donc celui qui est utilisé ici.
À l'aide d'un tableau de distribution du khi-deux ou d'une calculatrice de valeur critique, détermine la valeur critique.
- D'après le tableau de distribution du khi-deux ci-dessous, pour \N(k = 2) et \N( \Nalpha = 0,05), la valeur critique est :\N[ \Nchi^{2} \Ntext{critical value} = 5,99 \N].

Tableau 7. Pourcentage de points, test du khi-deux pour l'indépendance.

Points de pourcentage de la distribution du khi-deux
Degrés de liberté(k)	Probabilité d'une valeur plus grande de ^X2; niveau de signification (α).
Degrés de liberté(k)	0.99	0.95	0.90	0.75	0.50	0.25	0.10	0.05	0.01
1	0.000	0.004	0.016	0.102	0.455	1.32	2.71	3.84	6.63
2	0.020	0.103	0.211	0.575	1.386	2.77	4.61	5.99	9.21
3	0.115	0.352	0.584	1.212	2.366	4.11	6.25	7.81	11.34

Étape $5$ : Comparer la statistique du test du khi-deux à la valeur critique du khi-deux

C'est maintenant le moment de vérité ! Ta statistique de test est-elle suffisamment grande pour rejeter l'hypothèse nulle ? Compare-la à la valeur critique que tu viens de trouver pour le savoir.

En reprenant l'exemple du recyclage de la ville, compare la statistique du test à la valeur critique.

La statistique du test du khi-deux est la suivante : \N( \Nchi^{2} = 2,91259 \N)

La valeur critique est : $ 5.99 $

La statistique du test du khi-deux est inférieure à la valeur critique.

Étape $6$ : Décider de rejeter ou non l'hypothèse nulle

Enfin, décide de rejeter ou non l'hypothèse nulle.

Si la valeur du Khi-deux est supérieure à la valeur critique, alors la différence entre les fréquences observées et attendues est significative ; $ (p < \alpha) $.
- Cela signifie que tu rejettes l'hypothèse nulle selon laquelle les variables ne sont pas liées, et que tu as la preuve que l'hypothèse alternative est vraie.
Si la valeur du Khi-deux est inférieure à la valeur critique, la différence entre les fréquences observées et attendues n'est pas significative ; $ (p > \alpha) $.
- Cela signifie que tu ne rejettes pas l'hypothèse nulle, mais que tu n'as pas la preuve que l'hypothèse alternative est vraie.

Décide s'il faut rejeter l'hypothèse nulle pour l'exemple du recyclage en ville.

La valeur du khi-deux est inférieure à la valeur critique.

La ville ne rejette donc pas l'hypothèse nulle selon laquelle le fait qu'un ménage recycle ou non et le type d'intervention qu'il reçoit ne sont pas liés.
Il n'y a pas de différence significative entre les fréquences observées et les fréquences attendues. Cela suggère que la proportion de ménages qui recyclent est la même pour toutes les interventions.

La ville conclut que ses interventions n'ont pas d'effet sur le fait que les ménages choisissent de recycler.

Utilisation de la valeur critique VS utilisation de la valeur P

Dans les étapes de réalisation d'un test d'indépendance du Khi-deux, tu as calculé et utilisé la valeur critique pour décider de rejeter ou non l'hypothèse nulle.

La valeur critique d'un test d'indépendance du Khi-deux est une valeur qui est comparée à la valeur de la statistique du test, afin que tu puisses déterminer s'il faut rejeter l'hypothèse nulle.

Il est toutefois important de savoir qu'il existe une autre option que tu peux utiliser : lavaleur\(p\)-.

La valeur $p$ d'un test d'indépendance du Khi-deux est associée à la valeur calculée de sa statistique de test. Il s'agit de la zone située à droite de la courbe du khi-deux, avec $k$ degrés de liberté.

L'image ci-dessous résume l'approche de la valeur critique par rapport à l'approche de la valeur $p$.

$Test du khi-deux pour l'indépendance, figure 1. Un diagramme montrant comment tu peux utiliser soit une valeur p, soit une valeur critique pour déterminer s'il faut rejeter l'hypothèse nulle. StudySmarter$ Figure 1. Schéma montrant comment tu peux utiliser soit une valeur $p$ soit une valeur critique pour déterminer s'il faut rejeter l'hypothèse nulle.

Test du khi-deux pour l'indépendance - Exemple

De nos jours, de nombreux demandeurs d'emploi postulent via des sites d'emploi en ligne. Des sites comme Indeed, ZipRecruiter et CareerBuilder proposent des milliers d'offres alléchantes qui invitent les gens à postuler. Il n'a jamais été aussi facile pour les recruteurs frauduleux d'attirer des personnes vulnérables et sans méfiance.

Les recruteurs frauduleux sont-ils plus répandus dans certains secteurs que dans d'autres ?

Le tableau de contingence ci-dessous contient le nombre réel d'offres d'emploi en ligne frauduleuses et non frauduleuses, par secteur d'activité. Il s'agit des secteurs d'activité les plus courants de l'ensemble de données. Il s'agit d'un ensemble de données assez important, mais qui représente bien ce que les statisticiens font dans le monde réel.

Tableau 7. Tableau de contingence, test du khi-deux pour l'indépendance.

Tableau de contingence
Industrie	Réel	Fraude	Totaux des lignes
Technologie de l'information	1702	32	1734
Logiciels informatiques	1371	5	1376
Internet	1062	0	1062
Marketing / Publicité	783	45	828
Formation	822	0	822
Services financiers	744	35	779
Soins de santé	446	51	497
Services aux consommateurs	334	24	358
Télécom.	316	26	342
Pétrole / Énergie	178	109	287
Totaux des colonnes	7758	327	$n=$ 8085

Solution:

Étape $1$ : Énonce les hypothèses.

L'hypothèse nulle est que les deux variables catégorielles sont indépendantes, c'est-à-dire qu'il n'y a pas d'association entre elles, elles ne sont pas liées.\[ H_{0} : \text{"si une offre d'emploi est réelle" et "le secteur de l'emploi" ne sont pas liés.} \]
L'hypothèse alternative est que les deux variables catégorielles ne sont pas indépendantes, c'est-à-dire qu'il existe une association entre elles, elles sont liées.\[ H_{a} : \text{"si une offre d'emploi est réelle" et "le secteur de l'emploi" sont liés.} \]

Étape \N(2\N) : Calculer les fréquences attendues.

En utilisant le tableau de contingence ci-dessus et la formule :\[ E_{r,c} = \frac{{r} \cdot n_{c}}{n}, \]crée un tableau qui contient les fréquences attendues que tu as calculées.

Tableau 7. Tableau des fréquences attendues, test du khi-deux pour l'indépendance.

Tableau des fréquences attendues
Secteur d'activité	Réel	Fraude	Totaux des lignes
Technologie de l'information	1663.8679	70.1321	1734
Logiciels informatiques	1320.3473	55.6527	1376
Internet	1019.0471	42.9529	1062
Marketing / Publicité	794.5113	33.4887	828
Enseignement	788.754	33.246	822
Services financiers	747.4931	31.5069	779
Soins de santé	476.8987	20.1013	497
Services aux consommateurs	343.5206	14.4794	358
Télécom.	328.1677	13.8323	324
Pétrole / Énergie	275.3922	11.6078	287
Totaux des colonnes	7758	327	$n =$ 8085

Étape $3$ : Calcule la statistique du test du khi-deux.

Crée un tableau pour conserver les valeurs calculées et utilise la formule :\[ \chi^{2} = \sum \frac{(O_{r,c} - E_{r,c})^{2}}{E_{r,c}} \]pour calculer la statistique de ton test.

Tableau 7. Statistiques du test du khi-deux.

Utilisation d'un tableau pour calculer la statistique du test du khi-deux
Secteur d'activité	Statut de l'emploi	Fréquence observée	Fréquence attendue	O - E	(O - E⁾²	(O - E^)2/E
Technologie de l'information	Réel	1702	1633.868	68.132	4641.983	2.841
Technologie de l'information	Fraude	32	70.132	-38.132	1454.057	20.733
Logiciels informatiques	Réel	1371	1320.347	50.653	2565.696	1.943
Logiciels informatiques	Fraude	5	55.653	-50.653	2565.696	46.102
Internet	Réel	1062	1019.047	42.953	1844.952	1.811
Internet	Fraude	0	42.953	-42.953	1844.952	42.953
Marketing / Publicité	Réel	783	794.511	-11.511	132.510	0.167
Marketing / Publicité	Fraude	45	33.4888	11.511	132.510	3.957
Éducation	Réel	822	788.754	33.246	1105.297	1.401
Éducation	Fraude	0	33.246	-33.246	1105.297	33.246
Services financiers	Réels	744	747.493	-3.493	12.202	0.016
Services financiers	Fraude	35	31.507	3.493	12.202	0.387
Soins de santé	Réel	446	476.899	-30.899	954.730	2.002
Soins de santé	Fraude	51	20.101	30.899	954.730	47.496
Services aux consommateurs	Réels	334	343.521	-9.521	90.642	0.264
Services aux consommateurs	Fraude	24	14.479	9.521	90.642	6.260
Télécom.	Réel	316	328.168	-12.168	148.053	0.451
Télécom.	Fraude	26	13.832	12.168	148.053	10.703
Pétrole / Energie	Réel	178	275.392	-97.392	9485.241	34.443
Pétrole / Energie	Fraude	109	11.608	97.392	9485.241	817.144

Les décimales de ce tableau sont arrondies à $3$ chiffres.

Additionne toutes les valeurs de la dernière colonne du tableau ci-dessus pour calculer la statistique du test :\[ \begin{align}\chi^{2} &= 2.8411 + 20.7331 + 1.9432 + 46.1019 + 1.8105 \\N-&+ 42.9529 + 0.1668 + 3.9569 + 1.4013 + 33.246 \N-&+ 0.0163 + 0.3873 + 2.0020 + 47.4959 + 0.2639 \N-&+ 6.2601 + 0.4512 + 10.7034 + 34.4427 + 817.1437 \N-&= 1074.319971.\N- end{align} \]
La formule ici utilise les nombres non arrondis du tableau ci-dessus pour obtenir une réponse plus précise.
La statistique du test du khi-deux est la suivante :\[ \chi^{2} = 1074.319971 .\]

Étape $4$ : Trouver la valeur critique du khi-deux et la valeur du khi-deux.

Dans le monde réel, un statisticien serait probablement plus intéressé par le calcul de la valeur $p$-valeur que par le simple fait d'indiquer si le résultat est significatif, mais les gens préfèrent de loin obtenir une conclusion plus spécifique. Disons que tu veux être vraiment sûr qu'il existe une relation avant d'en faire état, et que tu choisis un niveau de signification de $\alpha = 0,01$.

Calcule les degrés de liberté : \[ \N-k &= (r - 1)(c - 1) \N-&= (2 - 1) (10 - 1) \N-&= 1 \Ncdot 9 \N-&= 9 \N-text{ degrés de liberté}\N-end{align} \]
À l'aide d'un tableau de distribution du khi-deux, regarde la ligne des degrés de liberté (9) et la colonne de la signification (0,01) pour trouver la valeur critique de (21,67).
Pour utiliser une calculatrice de valeur de $p$, tu as besoin de la statistique du test et des degrés de liberté.
- En introduisant les degrés de liberté et la statistique du test dans une calculatrice de valeur de \Npourcentage, tu obtiens une valeur de \Npourcentage très proche de \Npourcentage.

Étape 5 : Comparer la statistique du test du khi-deux à la valeur critique du khi-deux.

La statistique du test de $1074.319971$ est beaucoup, beaucoup plus grande que la valeur critique de $21.67$, ce qui signifie que tu as suffisamment de preuves pour rejeter l'hypothèse nulle.
Lavaleur de \(p\) est également très faible, beaucoup moins que le niveau de signification, ce qui te permettrait également de rejeter l'hypothèse nulle.

Étape 6 : Décider de rejeter ou non l'hypothèse nulle.

Il semble qu'il y ait un lien étroit entre le secteur d'activité et le nombre de recruteurs frauduleux.
Regarde le tableau de l'étape 2.
- Tu peux y voir que le nombre d'emplois frauduleux dans l'industrie pétrolière est beaucoup plus élevé que prévu et qu'il contribue suffisamment à lui seul pour que tu puisses conclure que l'industrie et les escroqueries des recruteurs ne sont pas indépendantes.

Parconséquent, tu peux en toute confiance rejeter l'hypothèse nulle.

Test du Khi-deux pour l'indépendance - Principaux enseignements

Le test du Khi-deux de l'indépendance est un test non paramétrique du Khi-deux de Pearson que tu peux utiliser pour déterminer si deux variables catégorielles d'une même population sont liées entre elles ou non.
Les conditions suivantes doivent être remplies pour pouvoir utiliser un test d'indépendance du khi-deux :
- Les deux variables doivent être catégoriques.
- Les groupes doivent être mutuellement exclusifs, c'est-à-dire que l'échantillon est sélectionné au hasard.
- Les effectifs attendus doivent être au moins égaux à $5$.
- Les observations doivent être indépendantes.
L'hypothèse nulle est que les deux variables catégorielles sont indépendantes, c'est-à-dire qu'il n'y a pas d'association entre elles, elles ne sont pas liées.
L'hypothèse alternative est que les deux variables catégorielles ne sont pas indépendantes, c'est-à-dire qu'il existe une association entre elles, elles sont liées.
La fréquence attendue pour la ligne $r$ et la colonne $c$ d'un test du Khi-deux de l'indépendance est donnée par la formule :
\[ E_{r,c} = \frac{n_{r} \cdot n_{c}}{n} \].
Les degrés de liberté pourun test d'indépendance du khi-deux sont donnés par la formule :
\[ k = (r - 1) (c - 1) \]
La formule (également appelée statistique de test) pour un test d'indépendance du Khi-deux est :
\[ \chi^{2} = \sum \frac{(O_{r,c} - E_{r,c})^{2}}{E_{r,c}} \]

Fiches dans Test du chi-carré d'indépendance 3

Commence à apprendre

Vrai ou faux ?

Tous les tests du khi-deux de Pearson, pour l'indépendance, l'homogénéité et l'adéquation, partagent les mêmes hypothèses de base.

Vrai

Pour pouvoir utiliser ce test, les hypothèses d'un test d'indépendance du khi-deux sont les suivantes :

Les deux variables doivent être catégoriques.

Vrai ou faux ?

Le test du Khi-deux pour l'indépendance ne dit rien sur le type de relation entre les deux variables catégorielles, mais seulement s'il existe une relation.

Vrai

S'inscrire avec un e-mail

Tu as déjà un compte ? Connecte-toi

Questions fréquemment posées en Test du chi-carré d'indépendance

Qu'est-ce que le test du chi-carré d'indépendance?

Le test du chi-carré d'indépendance est une méthode statistique pour déterminer si deux variables catégorielles sont indépendantes l'une de l'autre.

Quand utiliser le test du chi-carré d'indépendance?

Utilisez-le lorsque vous avez des données catégorielles et que vous voulez vérifier s'il existe une association significative entre deux variables.

Comment calculer le test du chi-carré d'indépendance?

Pour calculer, comparez les fréquences observées avec les fréquences attendues dans un tableau de contingence et utilisez la formule du chi-carré.

Quels sont les critères d'application du test du chi-carré d'indépendance?

Le test nécessite des échantillons aléatoires, des observations indépendantes et des effectifs théoriques supérieurs à 5 pour chaque cellule du tableau de contingence.

Sauvegarder l'explication

Découvre des matériels d'apprentissage avec l'application gratuite StudySmarter

Lance-toi dans tes études

À propos de StudySmarter

StudySmarter est une entreprise de technologie éducative mondialement reconnue, offrant une plateforme d'apprentissage holistique conçue pour les étudiants de tous âges et de tous niveaux éducatifs. Notre plateforme fournit un soutien à l'apprentissage pour une large gamme de sujets, y compris les STEM, les sciences sociales et les langues, et aide également les étudiants à réussir divers tests et examens dans le monde entier, tels que le GCSE, le A Level, le SAT, l'ACT, l'Abitur, et plus encore. Nous proposons une bibliothèque étendue de matériels d'apprentissage, y compris des flashcards interactives, des solutions de manuels scolaires complètes et des explications détaillées. La technologie de pointe et les outils que nous fournissons aident les étudiants à créer leurs propres matériels d'apprentissage. Le contenu de StudySmarter est non seulement vérifié par des experts, mais également régulièrement mis à jour pour garantir l'exactitude et la pertinence.

Équipe éditoriale StudySmarter

Équipe enseignants Mathématiques

Temps de lecture: 22 minutes
Vérifié par l'équipe éditoriale StudySmarter

Sauvegarder l'explication

Test du chi-carré d'indépendance

Équipe éditoriale StudySmarter

Définition du test d'indépendance du khi-deux

Hypothèses pour un test d'indépendance du khi-deux

Hypothèse nulle et hypothèse alternative pour un test d'indépendance du khi-deux

Fréquences attendues d'un test d'indépendance du khi-deux

Degrés de liberté pour un test d'indépendance du khi-deux

Formule du test d'indépendance du khi-deux

Étapes pour calculer la statistique du test d'indépendance du khi-deux

Étapes à suivre pour effectuer un test d'indépendance du khi-deux

Utilisation de la valeur critique VS utilisation de la valeur P

Test du khi-deux pour l'indépendance - Exemple

Test du Khi-deux pour l'indépendance - Principaux enseignements

Fiches dans Test du chi-carré d'indépendance 3

Apprends plus vite avec les 3 fiches sur Test du chi-carré d'indépendance

Questions fréquemment posées en Test du chi-carré d'indépendance

Découvre des matériels d'apprentissage avec l'application gratuite StudySmarter

À propos de StudySmarter

Équipe éditoriale StudySmarter

Sauvegarder l'explication

Qui sommes nous ?

Ressources pour étudier

Pour les entreprises

Test du chi-carré d'indépendance

Équipe éditoriale StudySmarter

Définition du test d'indépendance du khi-deux

Hypothèses pour un test d'indépendance du khi-deux

Hypothèse nulle et hypothèse alternative pour un test d'indépendance du khi-deux

Fréquences attendues d'un test d'indépendance du khi-deux

Degrés de liberté pour un test d'indépendance du khi-deux

Formule du test d'indépendance du khi-deux

Étapes pour calculer la statistique du test d'indépendance du khi-deux

Étapes à suivre pour effectuer un test d'indépendance du khi-deux

Utilisation de la valeur critique VS utilisation de la valeur P

Test du khi-deux pour l'indépendance - Exemple

Test du Khi-deux pour l'indépendance - Principaux enseignements

Fiches dans Test du chi-carré d'indépendance 3

Apprends plus vite avec les 3 fiches sur Test du chi-carré d'indépendance

Questions fréquemment posées en Test du chi-carré d'indépendance

Découvre des matériels d'apprentissage avec l'application gratuite StudySmarter

À propos de StudySmarter

Équipe éditoriale StudySmarter

Sauvegarder l'explication

Créer un compte gratuit pour sauvegarder ce cours.

Rejoins plus de 22 millions d'étudiants qui apprennent avec notre appli StudySmarter !