Sauter à un chapitre clé
Dans cet article, tu découvriras ce qu'est un intervalle de confiance pour la pente d'un modèle de régression, sa signification, les conditions nécessaires pour pouvoir les construire, la formule et la façon de les déterminer réellement. Pour savoir comment tirer des conclusions sur une population à partir de l'intervalle de confiance, consulte l'article Justifier des affirmations basées sur l'intervalle de confiance pour la pente d'un modèle de régression.
Signification de l'intervalle de confiance pour la pente d'une droite de régression
Tu sais maintenant que lorsqu'il existe une relation linéaire entre une variable \(x\N) et une variable \N(y\N) - le coefficient de corrélation linéaire \N(r\N) n'est pas nul - tu peux la modéliser à l'aide d'une régression linéaire. Cette régression consiste en :
\[\hat{y}=\beta_0+\beta_1x\]
où :
\(\beta_0\) est l'ordonnée à l'origine ;
\(\beta_1\) est la pente de la régression ;
\(x\) est la variable indépendante ; et
\(\hat{y}\) la valeur prédite de la variable dépendante.
Pour un meilleur rappel de ce sujet, consulte notre article Régression des moindres carrés. Rappelle-toi que le coefficient de corrélation \(r\) indique le degré de corrélation entre les deux variables. Si \(r\) est proche de zéro, il y a peu ou pas de corrélation entre les variables, tandis que les valeurs de \(r\) proches de \(-1\) ou \(1\) indiquent qu'il y a une forte corrélation entre les deux variables.
D'autre part, la pente \(\beta_1\) représente la variation de \(\hat{y}\) en fonction des variations des valeurs \(x\), c'est-à-dire que pour chaque unité d'augmentation de \(x\), \(\hat{y}\) augmente de \(\beta_1\) unités.
Supposons que tu soupçonnes qu'une augmentation du prix des livres signifie que moins de livres seront vendus. Tu recueilles des données et tu trouves que la ligne de meilleur ajustement est :
\[\hat{y}=3500-10x\]
où \(x\) est le prix du livre et \(hat{y}\) est le nombre prédit de livres vendus. Qu'est-ce qu'une augmentation de \(1$) de \(x\) signifie pour le nombre de livres que tu prévois de vendre ?
Solution :
D'après l'équation donnée, tu peux voir que \(\beta_0 = 3500\) et \(\beta_1 = -10\). Remarque que la pente du modèle de régression est négative. Cela signifie qu'une augmentation de \(\$1\) du prix du livre correspond à une augmentation prévue de \(-10\) livres vendus, ou en d'autres termes, tu peux prédire que 10 livres de moins seront vendus pour chaque dollar d'augmentation du prix du livre.
En calculant un intervalle de confiance avec un niveau de confiance élevé, disons \(c\%\), pour la pente \(\beta_1\), tu obtiens deux valeurs qui définissent les limites d'une plage de valeurs dans laquelle tu peux trouver la pente. Tu peux affirmer avec certitude que la valeur de la pente sera comprise entre ces deux valeurs.
En outre, tu peux dire que la méthode utilisée pour construire l'intervalle réussit à capturer la pente réelle du modèle de régression linéaire dans environ \(c\N%\N) des cas.
Conditions de l'intervalle de confiance pour la pente d'une ligne de régression
Les conditions pour construire un intervalle de confiance pour la pente d'une régression linéaire sont les mêmes que pour construire une régression linéaire. Ces conditions sont :
Condition de variable quantitative : La corrélation ne s'applique que si les deux variables sont quantitatives.
Condition de linéarité : Regarde le diagramme de dispersion et assure-toi que tes données ont une relation approximativement linéaire. La corrélation ne mesure que la force d'une association linéaire. On peut aussi le faire en regardant le coefficient de corrélation des données.
Indépendance des variables : Les données doivent être collectées au hasard, et si l'on procède à un échantillonnage sans remplacement, la taille de l'échantillon est inférieure ou égale à \(10\%\) de la population totale.
Normalité : la variable indépendante est normalement distribuée.
Formule de l'intervalle de confiance pour la pente de la ligne de régression
Comme tout intervalle de confiance que tu as étudié jusqu'à présent, un intervalle de confiance pour la pente \(\beta_1\) de la droite de régression des moindres carrés a la structure suivante :
statistique de l'échantillon - marge d'erreur \(\le \beta_1\le\) statistique de l'échantillon + marge d'erreur,
où marge d'erreur = valeur critique \(\times\) erreur standard.
Il ne te reste plus qu'à comprendre à quoi correspond chacun de ces trois éléments pour la pente \(\beta_1\) :
La statistique de l'échantillon sera \(\hat{\beta}_1\), l'estimateur ponctuel de la pente \(\beta_1\) ;
Pour la marge d'erreur :
cette fois, la valeur critique sera celle d'une distribution \N(t\N)avec \N(n-2\N) degrés de liberté, c'est-à-dire \N(t\N)avec \N(df=n-2\N) ;
l'erreur standard pour la pente, écrite \(SE_{\beta_1} \), sera :\[SE_{\beta_1}=\frac{s}{\sqrt{\sum_{i=1}^{n}(x_i-\bar{x})^2}}]où \(s\) est l'écart type de l'échantillon calculé comme suit :\[s={\sqrt{\frac{\sum_{i=1}^{n}(y_i-\hat{y}_i)^2}{n-2}}\N].
Ainsi, la formule d'un intervalle de confiance pour la pente \(\beta_1\) est :
\[\hat{\beta}_1- t\cdot SE_{\beta_1}\le \beta_1\le \hat{\beta}_1+ t\cdot SE_{\beta_1}\]
ou une version encore plus courte :
\[\hat{\beta}_1\pm t\cdot SE_{\beta_1}\].
Cet intervalle de confiance s'applique à n'importe quel niveau de confiance, mais les niveaux de confiance que tu verras le plus souvent sont \(90\%\N), \N(95\N%\N) et \N(99\N%\N). Ce sont les valeurs que tu dois prendre en compte pour calculer la valeur critique \N(t\N).
Calculs pour l'intervalle de confiance pour la pente de la ligne de régression
D'après ce que tu as lu jusqu'à présent, la formule d'un intervalle de confiance pour la pente suggère une série d'étapes à suivre lorsque tu veux le trouver.
Étape 1: Trouve la statistique de l'échantillon \(\hat{\beta}_1\).
Tu obtiens la valeur de l'estimateur ponctuel \(\hat{\beta}_1\) en construisant la droite de régression pour l'ensemble de données avec lequel tu travailles.
Étape 2: Sélection d'un niveau de confiance \(c\%\).
Le niveau de confiance décrit l'incertitude d'une méthode d'échantillonnage. On te demandera le plus souvent un niveau de confiance de \(90\%\), \(95\%\), ou \(99\%\).
Le but de connaître le niveau de confiance est de pouvoir trouver la valeur critique \(t\N), en consultant un tableau \N(t\N), avec deux éléments d'information :
les degrés de liberté, donnés par : \[ \text{sample size } -2 = n-2\]où \(n\) est la taille de l'échantillon ; et
le niveau de confiance ajusté pour le tableau que tu utilises.
Selon le tableau que tu consultes, le niveau de confiance peut devoir être ajusté à \(1-\tfrac{\alpha}{2}\) ou à \(\tfrac{\alpha}{2} \).
Par exemple, pour un niveau de confiance de \N(99\N%\N), tu sais que \N(c=100(1-\Nalpha)\N%\N) et donc :
\N-[\N-[\N-[\N-[\N-[\N-[\N-[\N-[\N-[\N-[\N-[\N-[\N-[\N-[\N-[\N-[\N-[\N-[\N-[\N-[\N-[\N-[\N-[\N-[\N]]]]]]
Maintenant, selon le tableau que tu consultes, tu feras :
\[1-\frac{\alpha}{2}=1-\frac{0.01}{2}=0.995\]
ou
\[\frac{\alpha}{2} = \frac{0,01}{2}=0,005\]
Étape 3: Trouver la marge d'erreur \(t\cdot SE_{\beta_1}\).
Comme tu le sais déjà, la marge d'erreur est le produit de la valeur critique \(t\) avec la valeur de l'erreur standard. La formule de l'erreur standard est la suivante :
\[SE_{\beta_1}=\frac{s}{\sqrt{\sum_{i=1}^{n}(x_i-\bar{x})^2}}\]
où \(s\) est l'écart type de l'échantillon.
Étape 4: Trouve l'intervalle de confiance.
Ici, il te suffit de remplacer les valeurs que tu as obtenues à l'étape précédente dans la formule :
\[\hat{\beta}_1\pm t\cdot SE_{\beta_1}\\].
Voyons un exemple où tu peux appliquer les étapes à la main.
Étant donné que l'ensemble des données du tableau ci-dessous
x | y |
1 | 3 |
2 | 4 |
2 | 7 |
3 | 8 |
5 | 9 |
Tableau 1. Exemple de données.
Trouve un intervalle de confiance de \(95\%\) pour la pente sachant que la droite de régression des moindres carrés de ces données est :
\[\hat{y}=2.41+1.46x\]
la variance de l'échantillon est de \(s^2=2.39\) et \(t=3.182\).
Solution :
Étape 1: Trouver la statistique de l'échantillon \(\hat{\beta}_1\)
On t'a donné l'équation de la droite de régression, tu sais donc que \(\hat{\beta}_1=1.46\).
Étape 2: Sélection d'un niveau de confiance \(c\%\)
Le niveau de confiance est donné : \(c=95\%\). On te donne également la valeur critique : \(t=3.182\).
Si tu devais consulter un tableau de t, tu verrais d'abord que \(df=5-2=3\), ensuite que \(95\%=100\%(1-\alpha)\) si et seulement si \(0.95=1-\alpha\) si et seulement si \(\alpha=0.05\), et enfin que \(1-\alpha/2=1-0.05/2=0.975\).
Étape 3: Trouve la marge d'erreur \(t\cdot SE_{\beta_1}\).
Tu sais que :
\[SE_{\beta_1}=\frac{s}{\sqrt{\sum_{i=1}^{n}(x_i-\bar{x})^2}}\\]
Tu sais que \(s^2=2.39\), donc l'écart type de l'échantillon est \(s=1.55\).
Pour la somme du dénominateur, tu as d'abord besoin de la moyenne de l'échantillon des valeurs \(x-\).
\[\bar{x}=\frac{1+2+2+3+5}{5}=2.6\]
Maintenant, la somme :
\[\N- Début{alignement} \sum_{i=1}^{n}(x_i-\bar{x})^2=&(1-2.6)^2+(2-2.6)^2+(2-2.6)^2+\\&+(3-2.6)^2+(5-2.6)^2 \\ &=9.2 \end{align}\]
Enfin, pour la marge d'erreur :
\[\begin{align} t\cdot SE_{\beta_1}&=3.182\left( \frac{1.55}{\sqrt{9.2}}\right)\\ &=3.182(0.51)\\ &=1.62282. \N-END{align} \]
Étape 4: Trouver l'intervalle de confiance
Il te suffit maintenant de substituer les valeurs que tu as déterminées dans les étapes précédentes dans la formule :
\[\hat{\beta}_1\pm t\cdot SE_{\beta_1}= 1.46\pm 1.62282\]
ce qui donne
\[ -0,16282\le \beta_1 \le 3,08282\le \]
Si tu as rempli les conditions pour faire un intervalle de confiance pour la pente d'un modèle de régression, tu peux dire avec \(95\%\) confiance que la vraie valeur de la pente \(\beta_1\) est comprise entre \(-0,16282\) et \(3,08282\).
Exemple d'intervalle de confiance pour la pente d'une droite de régression
Voyons un exemple d'exécution des calculs nécessaires pour trouver l'intervalle de confiance de la pente d'une droite de régression.
Entre \N2010 et \N2022, des données ont été recueillies sur le coût moyen des manuels de collège nécessaires pour un semestre cette année-là. Ces données se trouvent dans le tableau ci-dessous. Trouve l'intervalle de confiance pour la pente de la ligne de régression à un niveau de confiance de \(99\%\).
Année | Coût moyen des livres (en $) | Année | Coût moyen des livres (en $) |
\(2010\) | \(660\) | \(2017\) | \(1125\) |
\(2011\) | \(678\) | \(2018\) | \(1100\) |
\(2012\) | \(596\) | \(2019\) | \(1300\) |
\(2013\) | \(550\) | \(2020\) | \(1320\) |
\(2014\) | \(770\) | \(2021\) | \(1369\) |
\(2015\) | \(790\) | \(2022\) | \(1400\) |
\(2016\) | \(860\) |
Tableau 2. Échantillon de données.
Solution :
Tout d'abord, dessine un diagramme de dispersion des données.
Il semble certainement raisonnable d'envisager un modèle de régression linéaire, et il n'y a pas de valeurs aberrantes évidentes. Suppose que l'année \(2010\) correspond à \(x=1\). Tu peux trouver le coefficient de corrélation \(r = 0,96\) et la ligne de meilleur ajustement \(\hat{y} = 79,9x+ 458,1\). Le coefficient de corrélation étant proche de \(1\), tu peux voir qu'il existe une forte relation linéaire entre l'année et le coût comptable moyen.
Pour un rappel sur la façon de trouver le coefficient de corrélation et la ligne de meilleur ajustement, voir Régression linéaire et Régression des moindres carrés.
En fait, si tu fais un graphique de la ligne de meilleur ajustement, tu peux voir immédiatement qu'il y a une forte relation linéaire.
Suivons maintenant les étapes pour trouver l'intervalle de confiance pour la pente de la droite de régression.
Étape 1: Trouve la statistique de l'échantillon \(\hat{\beta}_1\).
La ligne de meilleur ajustement est \ (\hat{y} = 79,9x + 458,1\), donc \(\beta_1 = 79,9\). Il s'agit de l'estimateur ponctuel pour les données.
Étape 2: Choisis un niveau de confiance \(c\%\).
Le niveau de confiance pour ce problème est \N(99\%\N). Il y a \N(13\N) échantillons, ce qui signifie que le degré de liberté est \N(13-2=11\N). La consultation d'un tableau de \N(t) donne alors la valeur critique de \N(t) comme étant \N(3,11), donc \N(t = 3,11).
Étape 3: Trouver la marge d'erreur \(t\cdot SE_{\beta_1}\).
Pour cela, tu dois d'abord calculer \(s^2\). Etant donné l'équation de la droite :
\N[ y_i-\hat{y}_i = y_i - (79,9x_i - 458,1 ) \N].
Pour rendre les calculs de \N(s\N) un peu plus faciles à suivre, il peut être utile de faire un tableau.
\N-(x_i\N) | \N-(y_i\N) | \N- (\Nqui{y}_i\N) | \N- (y_i-\hat{y}_i )^2 \N) |
1 | 660 | 538 | 3844 |
2 | 678 | 617.9 | 3612.01 |
3 | 596 | 697.8 | 10363.24 |
4 | 550 | 777.7 | 51847.29 |
5 | 770 | 857.6 | 24837.76 |
6 | 790 | 937.5 | 21756.25 |
7 | 860 | 1017.4 | 24774.76 |
8 | 1125 | 1097.3 | 767.29 |
9 | 1100 | 1177.2 | 5959.84 |
10 | 1300 | 1257.1 | 1840.41 |
11 | 1320 | 1337 | 289 |
12 | 1369 | 1416.9 | 2294.41 |
13 | 1400 | 1496.8 | 9370.24 |
Tableau 3. Échantillon de données.
En utilisant la formule et les informations du tableau ci-dessus :
\[\begin{align} s &=\sqrt{\frac{\sum_{i=1}^{n}(y_i-\hat{y}_i)^2}{n-2}} \N- &= \sqrt{\Nfrac{\Nsum_{i=1}^{13}(y_i-\hat{y}_i)^2}{11}} \N- &= \sqrt{\frac{161556.5 }{11}} \\N- &\N- environ 121,2 \Nend{align}\N]
Alors tu as :
\[\begin{align} SE_{\beta_1}&=\frac{s}{\sqrt{\sum_{i=1}^{n}(x_i-\bar{x})^2}} \\N- &= \frac{121.2}{182} \\N- &\N- environ 0,67 \N- end{align} \]
Tu as déjà trouvé la valeur critique \ (t = 3,11\), donc :
\[ \begin{align} \text{marge d'erreur} &= t\cdot SE_{\beta_1} \N- &= (3,11)(0,67 ) \N- &\N- environ 2,08 \N- [end{align}\N].
Étape 4: Trouve l'intervalle de confiance
Substitue les valeurs que tu as trouvées dans les étapes précédentes dans la formule :
\[\hat{\beta}_1\pm t\cdot SE_{\beta_1}= 79.9\pm 2.08\]
ce qui te donne un intervalle de confiance de \N( (77,82, 79,98) \N).
Si tu as rempli les conditions pour réaliser un intervalle de confiance pour la pente d'un modèle de régression, tu peux dire avec \(99\%\) confiance que la vraie valeur de la pente \(\beta_1\) est comprise entre \(77,82\N) et \(79,98\N).
Intervalles de confiance pour la pente d'un modèle de régression - Principaux enseignements
- En calculant un intervalle de confiance avec unniveau de confiance élevé, disons \(c\%\), pour la pente \(\beta_1\), tu obtiens deux valeurs qui définissent les limites d'une plage de valeurs dans laquelle tu peux trouver la pente. Tu peux dire avec \(c\%\) de confiance que la valeur de la pente sera comprise entre ces deux valeurs.
- Tu peux dire que la méthode utilisée pour construire l'intervalle réussit à capturer la pente réelle du modèle de régression linéaire dans environ \(c\%\) des cas.
- La formule de l'intervalle de confiance pour la pente d'un modèle de régression est \[\hat{\beta}_1\pm t\cdot SE_{\beta_1}\, ,\] où
- \(\hat{\beta}_1\) est l'estimation de la pente \ (\beta_1\)
- \(t\cdot SE_{\beta_1}\) est la marge d'erreur
- \N(t) est la valeur critique de la distribution \N(t-\N)avec le paramètre \N(df=n-2\N) (\N(n-2\N) degrés de liberté)
- \(SE_{\beta_1}\) est l' erreur standard de la pente
Apprends plus vite avec les 8 fiches sur Intervalles de confiance pour la pente d'un modèle de régression
Inscris-toi gratuitement pour accéder à toutes nos fiches.
Questions fréquemment posées en Intervalles de confiance pour la pente d'un modèle de régression
À propos de StudySmarter
StudySmarter est une entreprise de technologie éducative mondialement reconnue, offrant une plateforme d'apprentissage holistique conçue pour les étudiants de tous âges et de tous niveaux éducatifs. Notre plateforme fournit un soutien à l'apprentissage pour une large gamme de sujets, y compris les STEM, les sciences sociales et les langues, et aide également les étudiants à réussir divers tests et examens dans le monde entier, tels que le GCSE, le A Level, le SAT, l'ACT, l'Abitur, et plus encore. Nous proposons une bibliothèque étendue de matériels d'apprentissage, y compris des flashcards interactives, des solutions de manuels scolaires complètes et des explications détaillées. La technologie de pointe et les outils que nous fournissons aident les étudiants à créer leurs propres matériels d'apprentissage. Le contenu de StudySmarter est non seulement vérifié par des experts, mais également régulièrement mis à jour pour garantir l'exactitude et la pertinence.
En savoir plus