Sauter à un chapitre clé
Cela te semble-t-il convaincant ? Ils disent probablement cela pour pouvoir vendre plus. Ce qui est bien, c'est que dans des situations comme celle ci-dessus, tu peux utiliser un test d'hypothèse pour la pente d'un modèle de régression afin de tester l'utilité d'une droite de régression pour modéliser le comportement entre deux ensembles de données.
Signification du test d'hypothèse pour la pente de régression
Suppose que pour trouver la relation entre deux variables, tu aies utilisé la régression linéaire pour obtenir une équation \[\hat{y}=\alpha+\beta x.\N].
En théorie, cette équation devrait te permettre de prédire les valeurs de \N(y), en évaluant à \N(x), c'est-à-dire \N(y\Napprox\Nhat{y}(x)\N).
Mais comment peux-tu être sûr que l'équation de régression linéaire obtenue permet de prédire les valeurs de \(y\N) ? Comme nous l'avons mentionné au début, un test d'hypothèse peut t'aider.
Le test d'hypothèse est basé sur le calcul de la probabilité d'obtenir un échantillon comme le tien, si certaines conditions sont supposées, dans ce cas, en supposant la pente de régression obtenue, quelle est la probabilité d'obtenir l'échantillon en question.
Rappelle que la pente \(\beta\) représente le changement moyen de la variable \(y\) par rapport au changement par unité de la variable \(x\).
Importance du test d'hypothèse pour la pente de régression
Chaque fois que tu utilises la régression linéaire pour modéliser le comportement de deux ensembles de données qui sont liés, la pente de régression que tu obtiens est une estimation de la façon dont une donnée change par rapport à l'autre.
Normalement, cette équation de régression linéaire change chaque fois que tu prends un échantillon différent, il est donc logique de se demander si la valeur réelle de la pente de la population est similaire à celle que tu obtiens à partir de l'échantillon en utilisant la régression linéaire.
Les images suivantes montrent les diagrammes de dispersion de \(2\) ensembles de données avec leur ligne de régression respective.
Une bonne droite de régression devrait te permettre de prédire les valeurs de \(y-\) en connaissant les valeurs de \(x-\) de façon assez précise. En regardant la première image, tu peux remarquer que puisque les points sont proches de la droite, la droite de régression est bonne.
En revanche, dans la deuxième image, plusieurs valeurs sont éloignées des valeurs prédites par la droite de régression. Pour cette raison, tu peux dire que la droite de régression n'est pas si bonne.
Dans des situations comme celle du graphique ci-dessus, il est logique de douter de la qualité de la droite de régression obtenue.
Test d'hypothèse pour les coefficients de régression
Il existe de nombreux tests d'hypothèse qui peuvent être effectués sur la pente de la droite de régression. Ils consistent à formuler une hypothèse nulle, qui peut être la suivante
\N- [H_0:\N ; \Nbeta=\Nbeta_0,\N]
c'est-à-dire que la pente de régression est égale à une certaine valeur.
Alors que l'hypothèse alternative sera une forme de négation de l'hypothèse nulle, telle que
\N( H_a:\N;\Nbeta>\Nbeta_0 \N) ;
\N(H_a:\N;\Nbeta<\Nbeta_0 \N) ; ou
\N( H_a:\N ; \Nbeta\Nneq\Nbeta_0 \N).
Bien que la pente d'une ligne de régression puisse avoir de nombreuses valeurs, les tests d'hypothèse ne s'attachent généralement qu'à répondre : La pente est-elle différente de zéro ? Si elle est différente de zéro, tu pourras alors l'utiliser pour faire des prédictions. Par conséquent, cet article se concentrera uniquement sur la formulation de ce type d'hypothèse.
Pourquoi ne peux-tu pas utiliser une droite de régression à pente nulle pour faire des prédictions ? Une droite de régression avec une pente nulle signifie que les données de \(y\N) ne dépendent pas de \N(x\N), en d'autres termes, connaître la valeur de \N(x\N) ne te permet pas de prédire la valeur de \N(y\N) à l'aide de la droite de régression. Cela signifie que la droite de régression n'est pas utile.
Conditions du test d'hypothèse pour la pente de régression
Pour pouvoir faire des déductions sur les coefficients de la droite de régression, tu dois t'assurer que tes données remplissent les conditions suivantes :
Linéarité: Le diagramme de dispersion des données semble droit.
Indépendance: Les résidus doivent être indépendants (voir l'article Résidus pour plus d'informations à ce sujet).
Variance égale: L'écart type des valeurs de \(y\) doit être presque égal pour toutes les valeurs de \(x\).
Population normale: Les valeurs \(y\)sont distribuées normalement pour toute valeur de \(x\).
Méthodes de test d'hypothèse pour la pente de régression
Rappelle que dans cet article, tu apprendras seulement à effectuer le test d'hypothèse pour prouver que la pente de la droite de régression est non nulle. La procédure est donc la suivante :
Étape 1. Énonce les hypothèses.
L'hypothèse nulle et l'hypothèse alternative sont données par
\[\begin{align} &H_0\; :\beta=0 \\ &H_a:\;\beta\neq 0. \end{align}\]
L'hypothèse nulle stipule que la pente est nulle, ce qui équivaut à dire qu'il n'y a pas de relation linéaire utile entre \(x\N) et \N(y\N), tandis que l'hypothèse alternative stipule qu'il y a une relation linéaire utile.
Étape 2. Détermine le niveau de signification à utiliser.
Normalement, le niveau de signification \(\alpha\) est pris comme \(0,05\), mais tu peux aussi considérer \(0,01\), ou \(0,1\).
Étape 3. Trouve la statistique du test et la valeur correspondante de \(p-\).
Pour cette étape, tu as besoin de l'erreur standard de la pente, de la pente de la régression linéaire, des degrés de liberté (pour les échantillons ayant \(n\) paires de données, les degrés de liberté sont \(n-2\)) et de la valeur \(p-\)associée à la statistique du test.
La statistique du test est donnée par
\[t=\frac{b}{s_b},\]
où \(b\) est la pente de la droite de régression de l'échantillon, et l'erreur standard \(s_b\) est donnée par
\[s_b=\frac{s_e}{\sqrt{\sum\limits_{i=1}^n(x_i-\mu_x)^2}}\]
où
\[s_e=\sqrt{\frac{\sum\limits_{i=1}^n(y_i-\hat{y})^2}{n-2}}.\]
N'oublie pas que pour un échantillon de petite taille, ou lorsque tu ne connais pas la variance de la population, tu utilises la distribution \(t\) plutôt qu'une distribution normale.
Tu auras également besoin des degrés de liberté de la distribution \(t\). Comme il s'agit de données appariées (la valeur de \(x) est appariée avec une valeur de \(y)), il y a \(n-2) degrés de liberté.
Étape 4. Interprète les résultats.
Si le résultat obtenu dans l'échantillon est inhabituel, compte tenu de l'hypothèse nulle, alors l'hypothèse nulle est rejetée.
Cette étape consiste à comparer la valeur \(p\)- obtenue avec le niveau de signification, et l'hypothèse nulle est rejetée si la valeur \(p\)- est inférieure au niveau de signification. Dans le cas contraire, tu ne pourras pas rejeter l'hypothèse nulle.
Voir l'article Test d'hypothèse pour savoir pourquoi on ne dit pas des choses comme "l'hypothèse nulle est vraie".
Exemple de test d'hypothèse pour la pente de régression
Ana veut savoir s'il existe une relation linéaire utile entre la taille des mains et la taille des pieds. Elle a donc décidé de collecter des données auprès de sa famille. Tu trouveras ci-dessous le tableau des tailles des mains et des pieds en centimètres des différents membres de sa famille.
Taille de la main | 15 | 17 | 18 | 19 | 21 |
Taille du pied | 17 | 24 | 26 | 25 | 28.5 |
Existe-t-il une relation linéaire significative entre la taille des mains et celle des pieds ? Utilise un niveau de signification de \(\alpha=0,05\).
Solution :
La toute première chose à faire est de vérifier les conditions pour effectuer un test d'hypothèse. En traçant rapidement un graphique des données, tu peux voir qu'elles satisfont aux conditions de linéarité, d'indépendance, d'égalité de variance et de normalité de la population
Étape 1. Puisque tu veux savoir s'il existe une relation linéaire significative entre les deux données, l'hypothèse nulle est la suivante
\N[H_0:\N;\Nbeta=0,\N]
qui dit qu'il n'y a pas de relation linéaire utile. L'hypothèse alternative est
\N- [H_a:\N;\Nbeta\Nneq0 ,\N]
qui indique qu'il existe une relation linéaire utile.
Étape 2. Dans ce cas, le niveau de signification est \(\alpha=0,05\).
Étape 3. À l'aide d'une calculatrice statistique, tu peux obtenir la droite de régression pour les données ci-dessus.
Si tu souhaites calculer la droite de régression à la main, consulte l'article Régression des moindres carrés pour obtenir des informations sur la façon de procéder ainsi qu'un exemple.
La régression donnée par
\[\hat{y}=1.775x-7.85,\]
et l'erreur standard est
\N- [s_b=0.43.\N]
Ensuite, tu calcules la statistique de test à l'aide de la formule :
\[\begin{align} t&=\frac{b}{s_b}\\ &=\frac{1.775}{0.43}\\ &=4.128.\end{align}\]
Puisque tu as \(5\) paires de données, ta statistique de test suit une distribution \(t\) avec \(5-2=3\) degrés de liberté.
Étape 4. Si tu utilises un tableau (t), tu peux voir que la valeur (p) associée à (4,128), avec (3) degrés de liberté, est comprise entre (0,01) et (0,025). Comme la valeur de \(p\)est inférieure au niveau de signification \((0,05)\), l'hypothèse nulle est rejetée.
Pour plus d'informations sur l'utilisation du tableau \(t\)-, voir notre article \(t\)-Distribution.
Par conséquent, il est prouvé qu'il existe une relation linéaire utile entre la taille des mains et la taille des pieds.
Test d'hypothèse pour la pente de régression - Principaux enseignements
- Le test d'hypothèse pour la pente de régression consiste à vérifier s'il existe une relation linéaire utile entre les données.
- L'hypothèse nulle utilisée lors d'un test d'hypothèse pour la pente d'une droite de régression est \(H_0:\ ; \beta=0\), et l'hypothèse alternative est \(H_a:\ ; \beta\neq 0\), où \(\beta\) est la pente de la droite de régression.
- Pour effectuer le test d'hypothèse sur la pente d'une droite de régression, il faut vérifier les conditions de linéarité, d'indépendance, d'égalité de variance et de normalité de la population.
Apprends plus vite avec les 9 fiches sur Tests d'hypothèse pour la pente d'un modèle de régression
Inscris-toi gratuitement pour accéder à toutes nos fiches.
Questions fréquemment posées en Tests d'hypothèse pour la pente d'un modèle de régression
À propos de StudySmarter
StudySmarter est une entreprise de technologie éducative mondialement reconnue, offrant une plateforme d'apprentissage holistique conçue pour les étudiants de tous âges et de tous niveaux éducatifs. Notre plateforme fournit un soutien à l'apprentissage pour une large gamme de sujets, y compris les STEM, les sciences sociales et les langues, et aide également les étudiants à réussir divers tests et examens dans le monde entier, tels que le GCSE, le A Level, le SAT, l'ACT, l'Abitur, et plus encore. Nous proposons une bibliothèque étendue de matériels d'apprentissage, y compris des flashcards interactives, des solutions de manuels scolaires complètes et des explications détaillées. La technologie de pointe et les outils que nous fournissons aident les étudiants à créer leurs propres matériels d'apprentissage. Le contenu de StudySmarter est non seulement vérifié par des experts, mais également régulièrement mis à jour pour garantir l'exactitude et la pertinence.
En savoir plus