Intervalles de confiance pour la pente d'un modèle de régression

Avec quelle certitude dirais-tu qu'il existe une relation entre les heures de sommeil que tu passes la nuit et ta réussite à l'école ? Et que cette relation est une relation linéaire ?

C'est parti

Des millions de fiches spécialement conçues pour étudier facilement

Inscris-toi gratuitement

Review generated flashcards

Inscris-toi gratuitement
Tu as atteint la limite quotidienne de l'IA

Commence à apprendre ou crée tes propres flashcards d'IA

Équipe éditoriale StudySmarter

Équipe enseignants Intervalles de confiance pour la pente d'un modèle de régression

  • Temps de lecture: 14 minutes
  • Vérifié par l'équipe éditoriale StudySmarter
Sauvegarder l'explication Sauvegarder l'explication
Tables des matières
Tables des matières

Sauter à un chapitre clé

    Dans cet article, tu découvriras ce qu'est un intervalle de confiance pour la pente d'un modèle de régression, sa signification, les conditions nécessaires pour pouvoir les construire, la formule et la façon de les déterminer réellement. Pour savoir comment tirer des conclusions sur une population à partir de l'intervalle de confiance, consulte l'article Justifier des affirmations basées sur l'intervalle de confiance pour la pente d'un modèle de régression.

    Signification de l'intervalle de confiance pour la pente d'une droite de régression

    Tu sais maintenant que lorsqu'il existe une relation linéaire entre une variable \(x\N) et une variable \N(y\N) - le coefficient de corrélation linéaire \N(r\N) n'est pas nul - tu peux la modéliser à l'aide d'une régression linéaire. Cette régression consiste en :

    \[\hat{y}=\beta_0+\beta_1x\]

    où :

    • \(\beta_0\) est l'ordonnée à l'origine ;

    • \(\beta_1\) est la pente de la régression ;

    • \(x\) est la variable indépendante ; et

    • \(\hat{y}\) la valeur prédite de la variable dépendante.

    Pour un meilleur rappel de ce sujet, consulte notre article Régression des moindres carrés. Rappelle-toi que le coefficient de corrélation \(r\) indique le degré de corrélation entre les deux variables. Si \(r\) est proche de zéro, il y a peu ou pas de corrélation entre les variables, tandis que les valeurs de \(r\) proches de \(-1\) ou \(1\) indiquent qu'il y a une forte corrélation entre les deux variables.

    D'autre part, la pente \(\beta_1\) représente la variation de \(\hat{y}\) en fonction des variations des valeurs \(x\), c'est-à-dire que pour chaque unité d'augmentation de \(x\), \(\hat{y}\) augmente de \(\beta_1\) unités.

    Supposons que tu soupçonnes qu'une augmentation du prix des livres signifie que moins de livres seront vendus. Tu recueilles des données et tu trouves que la ligne de meilleur ajustement est :

    \[\hat{y}=3500-10x\]

    où \(x\) est le prix du livre et \(hat{y}\) est le nombre prédit de livres vendus. Qu'est-ce qu'une augmentation de \(1$) de \(x\) signifie pour le nombre de livres que tu prévois de vendre ?

    Solution :

    D'après l'équation donnée, tu peux voir que \(\beta_0 = 3500\) et \(\beta_1 = -10\). Remarque que la pente du modèle de régression est négative. Cela signifie qu'une augmentation de \(\$1\) du prix du livre correspond à une augmentation prévue de \(-10\) livres vendus, ou en d'autres termes, tu peux prédire que 10 livres de moins seront vendus pour chaque dollar d'augmentation du prix du livre.

    En calculant un intervalle de confiance avec un niveau de confiance élevé, disons \(c\%\), pour la pente \(\beta_1\), tu obtiens deux valeurs qui définissent les limites d'une plage de valeurs dans laquelle tu peux trouver la pente. Tu peux affirmer avec certitude que la valeur de la pente sera comprise entre ces deux valeurs.

    En outre, tu peux dire que la méthode utilisée pour construire l'intervalle réussit à capturer la pente réelle du modèle de régression linéaire dans environ \(c\N%\N) des cas.

    Conditions de l'intervalle de confiance pour la pente d'une ligne de régression

    Les conditions pour construire un intervalle de confiance pour la pente d'une régression linéaire sont les mêmes que pour construire une régression linéaire. Ces conditions sont :

    1. Condition de variable quantitative : La corrélation ne s'applique que si les deux variables sont quantitatives.

    2. Condition de linéarité : Regarde le diagramme de dispersion et assure-toi que tes données ont une relation approximativement linéaire. La corrélation ne mesure que la force d'une association linéaire. On peut aussi le faire en regardant le coefficient de corrélation des données.

    3. Indépendance des variables : Les données doivent être collectées au hasard, et si l'on procède à un échantillonnage sans remplacement, la taille de l'échantillon est inférieure ou égale à \(10\%\) de la population totale.

    4. Normalité : la variable indépendante est normalement distribuée.

    Formule de l'intervalle de confiance pour la pente de la ligne de régression

    Comme tout intervalle de confiance que tu as étudié jusqu'à présent, un intervalle de confiance pour la pente \(\beta_1\) de la droite de régression des moindres carrés a la structure suivante :

    statistique de l'échantillon - marge d'erreur \(\le \beta_1\le\) statistique de l'échantillon + marge d'erreur,

    où marge d'erreur = valeur critique \(\times\) erreur standard.

    Il ne te reste plus qu'à comprendre à quoi correspond chacun de ces trois éléments pour la pente \(\beta_1\) :

    • La statistique de l'échantillon sera \(\hat{\beta}_1\), l'estimateur ponctuel de la pente \(\beta_1\) ;

    • Pour la marge d'erreur :

      • cette fois, la valeur critique sera celle d'une distribution \N(t\N)avec \N(n-2\N) degrés de liberté, c'est-à-dire \N(t\N)avec \N(df=n-2\N) ;

      • l'erreur standard pour la pente, écrite \(SE_{\beta_1} \), sera :\[SE_{\beta_1}=\frac{s}{\sqrt{\sum_{i=1}^{n}(x_i-\bar{x})^2}}]où \(s\) est l'écart type de l'échantillon calculé comme suit :\[s={\sqrt{\frac{\sum_{i=1}^{n}(y_i-\hat{y}_i)^2}{n-2}}\N].

    La raison pour laquelle tu utiliseras une valeur critique de \(t\N) au lieu d'une valeur critique de \N(z\N) est que l'erreur standard de la pente \N (\hat{\Nbeta}_1\N) est une estimation. Il se peut que tu ne connaisses pas l'écart-type de la distribution d'échantillonnage.

    Ainsi, la formule d'un intervalle de confiance pour la pente \(\beta_1\) est :

    \[\hat{\beta}_1- t\cdot SE_{\beta_1}\le \beta_1\le \hat{\beta}_1+ t\cdot SE_{\beta_1}\]

    ou une version encore plus courte :

    \[\hat{\beta}_1\pm t\cdot SE_{\beta_1}\].

    Cet intervalle de confiance s'applique à n'importe quel niveau de confiance, mais les niveaux de confiance que tu verras le plus souvent sont \(90\%\N), \N(95\N%\N) et \N(99\N%\N). Ce sont les valeurs que tu dois prendre en compte pour calculer la valeur critique \N(t\N).

    Calculs pour l'intervalle de confiance pour la pente de la ligne de régression

    D'après ce que tu as lu jusqu'à présent, la formule d'un intervalle de confiance pour la pente suggère une série d'étapes à suivre lorsque tu veux le trouver.

    Étape 1: Trouve la statistique de l'échantillon \(\hat{\beta}_1\).

    Tu obtiens la valeur de l'estimateur ponctuel \(\hat{\beta}_1\) en construisant la droite de régression pour l'ensemble de données avec lequel tu travailles.

    Étape 2: Sélection d'un niveau de confiance \(c\%\).

    Le niveau de confiance décrit l'incertitude d'une méthode d'échantillonnage. On te demandera le plus souvent un niveau de confiance de \(90\%\), \(95\%\), ou \(99\%\).

    Le but de connaître le niveau de confiance est de pouvoir trouver la valeur critique \(t\N), en consultant un tableau \N(t\N), avec deux éléments d'information :

    1. les degrés de liberté, donnés par : \[ \text{sample size } -2 = n-2\]où \(n\) est la taille de l'échantillon ; et

    2. le niveau de confiance ajusté pour le tableau que tu utilises.

    Selon le tableau que tu consultes, le niveau de confiance peut devoir être ajusté à \(1-\tfrac{\alpha}{2}\) ou à \(\tfrac{\alpha}{2} \).

    Par exemple, pour un niveau de confiance de \N(99\N%\N), tu sais que \N(c=100(1-\Nalpha)\N%\N) et donc :

    \N-[\N-[\N-[\N-[\N-[\N-[\N-[\N-[\N-[\N-[\N-[\N-[\N-[\N-[\N-[\N-[\N-[\N-[\N-[\N-[\N-[\N-[\N-[\N-[\N]]]]]]

    Maintenant, selon le tableau que tu consultes, tu feras :

    \[1-\frac{\alpha}{2}=1-\frac{0.01}{2}=0.995\]

    ou

    \[\frac{\alpha}{2} = \frac{0,01}{2}=0,005\]

    Étape 3: Trouver la marge d'erreur \(t\cdot SE_{\beta_1}\).

    Comme tu le sais déjà, la marge d'erreur est le produit de la valeur critique \(t\) avec la valeur de l'erreur standard. La formule de l'erreur standard est la suivante :

    \[SE_{\beta_1}=\frac{s}{\sqrt{\sum_{i=1}^{n}(x_i-\bar{x})^2}}\]

    où \(s\) est l'écart type de l'échantillon.

    Étape 4: Trouve l'intervalle de confiance.

    Ici, il te suffit de remplacer les valeurs que tu as obtenues à l'étape précédente dans la formule :

    \[\hat{\beta}_1\pm t\cdot SE_{\beta_1}\\].

    Voyons un exemple où tu peux appliquer les étapes à la main.

    Étant donné que l'ensemble des données du tableau ci-dessous

    xy
    13
    24
    27
    38
    59

    Tableau 1. Exemple de données.

    Trouve un intervalle de confiance de \(95\%\) pour la pente sachant que la droite de régression des moindres carrés de ces données est :

    \[\hat{y}=2.41+1.46x\]

    la variance de l'échantillon est de \(s^2=2.39\) et \(t=3.182\).

    Solution :

    Étape 1: Trouver la statistique de l'échantillon \(\hat{\beta}_1\)

    On t'a donné l'équation de la droite de régression, tu sais donc que \(\hat{\beta}_1=1.46\).

    Étape 2: Sélection d'un niveau de confiance \(c\%\)

    Le niveau de confiance est donné : \(c=95\%\). On te donne également la valeur critique : \(t=3.182\).

    Si tu devais consulter un tableau de t, tu verrais d'abord que \(df=5-2=3\), ensuite que \(95\%=100\%(1-\alpha)\) si et seulement si \(0.95=1-\alpha\) si et seulement si \(\alpha=0.05\), et enfin que \(1-\alpha/2=1-0.05/2=0.975\).

    Étape 3: Trouve la marge d'erreur \(t\cdot SE_{\beta_1}\).

    Tu sais que :

    \[SE_{\beta_1}=\frac{s}{\sqrt{\sum_{i=1}^{n}(x_i-\bar{x})^2}}\\]

    Tu sais que \(s^2=2.39\), donc l'écart type de l'échantillon est \(s=1.55\).

    Pour la somme du dénominateur, tu as d'abord besoin de la moyenne de l'échantillon des valeurs \(x-\).

    \[\bar{x}=\frac{1+2+2+3+5}{5}=2.6\]

    Maintenant, la somme :

    \[\N- Début{alignement} \sum_{i=1}^{n}(x_i-\bar{x})^2=&(1-2.6)^2+(2-2.6)^2+(2-2.6)^2+\\&+(3-2.6)^2+(5-2.6)^2 \\ &=9.2 \end{align}\]

    Enfin, pour la marge d'erreur :

    \[\begin{align} t\cdot SE_{\beta_1}&=3.182\left( \frac{1.55}{\sqrt{9.2}}\right)\\ &=3.182(0.51)\\ &=1.62282. \N-END{align} \]

    Étape 4: Trouver l'intervalle de confiance

    Il te suffit maintenant de substituer les valeurs que tu as déterminées dans les étapes précédentes dans la formule :

    \[\hat{\beta}_1\pm t\cdot SE_{\beta_1}= 1.46\pm 1.62282\]

    ce qui donne

    \[ -0,16282\le \beta_1 \le 3,08282\le \]

    Si tu as rempli les conditions pour faire un intervalle de confiance pour la pente d'un modèle de régression, tu peux dire avec \(95\%\) confiance que la vraie valeur de la pente \(\beta_1\) est comprise entre \(-0,16282\) et \(3,08282\).

    Exemple d'intervalle de confiance pour la pente d'une droite de régression

    Voyons un exemple d'exécution des calculs nécessaires pour trouver l'intervalle de confiance de la pente d'une droite de régression.

    Entre \N2010 et \N2022, des données ont été recueillies sur le coût moyen des manuels de collège nécessaires pour un semestre cette année-là. Ces données se trouvent dans le tableau ci-dessous. Trouve l'intervalle de confiance pour la pente de la ligne de régression à un niveau de confiance de \(99\%\).

    AnnéeCoût moyen des livres (en $)AnnéeCoût moyen des livres (en $)
    \(2010\)\(660\)\(2017\)\(1125\)
    \(2011\)\(678\)\(2018\)\(1100\)
    \(2012\)\(596\)\(2019\)\(1300\)
    \(2013\)\(550\)\(2020\)\(1320\)
    \(2014\)\(770\)\(2021\)\(1369\)
    \(2015\)\(790\)\(2022\)\(1400\)
    \(2016\)\(860\)

    Tableau 2. Échantillon de données.

    Solution :

    Tout d'abord, dessine un diagramme de dispersion des données.

    Intervalles de confiance pour la pente d'un modèle de régression Le diagramme de dispersion du coût moyen des livres en fonction de l'année montre une relation approximativement linéaire qui augmente StudySmarter

    Il semble certainement raisonnable d'envisager un modèle de régression linéaire, et il n'y a pas de valeurs aberrantes évidentes. Suppose que l'année \(2010\) correspond à \(x=1\). Tu peux trouver le coefficient de corrélation \(r = 0,96\) et la ligne de meilleur ajustement \(\hat{y} = 79,9x+ 458,1\). Le coefficient de corrélation étant proche de \(1\), tu peux voir qu'il existe une forte relation linéaire entre l'année et le coût comptable moyen.

    Pour un rappel sur la façon de trouver le coefficient de corrélation et la ligne de meilleur ajustement, voir Régression linéaire et Régression des moindres carrés.

    En fait, si tu fais un graphique de la ligne de meilleur ajustement, tu peux voir immédiatement qu'il y a une forte relation linéaire.

    Intervalles de confiance pour la pente d'un modèle de régression diagramme de dispersion du coût moyen des livres en fonction de l'année avec la ligne de meilleur ajustement StudySmarter

    Suivons maintenant les étapes pour trouver l'intervalle de confiance pour la pente de la droite de régression.

    Étape 1: Trouve la statistique de l'échantillon \(\hat{\beta}_1\).

    La ligne de meilleur ajustement est \ (\hat{y} = 79,9x + 458,1\), donc \(\beta_1 = 79,9\). Il s'agit de l'estimateur ponctuel pour les données.

    Étape 2: Choisis un niveau de confiance \(c\%\).

    Le niveau de confiance pour ce problème est \N(99\%\N). Il y a \N(13\N) échantillons, ce qui signifie que le degré de liberté est \N(13-2=11\N). La consultation d'un tableau de \N(t) donne alors la valeur critique de \N(t) comme étant \N(3,11), donc \N(t = 3,11).

    Étape 3: Trouver la marge d'erreur \(t\cdot SE_{\beta_1}\).

    Pour cela, tu dois d'abord calculer \(s^2\). Etant donné l'équation de la droite :

    \N[ y_i-\hat{y}_i = y_i - (79,9x_i - 458,1 ) \N].

    Pour rendre les calculs de \N(s\N) un peu plus faciles à suivre, il peut être utile de faire un tableau.

    \N-(x_i\N)\N-(y_i\N)\N- (\Nqui{y}_i\N)\N- (y_i-\hat{y}_i )^2 \N)
    16605383844
    2678617.93612.01
    3596697.810363.24
    4550777.751847.29
    5770857.624837.76
    6790937.521756.25
    78601017.424774.76
    811251097.3767.29
    911001177.25959.84
    1013001257.11840.41
    1113201337289
    1213691416.92294.41
    1314001496.89370.24

    Tableau 3. Échantillon de données.

    En utilisant la formule et les informations du tableau ci-dessus :

    \[\begin{align} s &=\sqrt{\frac{\sum_{i=1}^{n}(y_i-\hat{y}_i)^2}{n-2}} \N- &= \sqrt{\Nfrac{\Nsum_{i=1}^{13}(y_i-\hat{y}_i)^2}{11}} \N- &= \sqrt{\frac{161556.5 }{11}} \\N- &\N- environ 121,2 \Nend{align}\N]

    Alors tu as :

    \[\begin{align} SE_{\beta_1}&=\frac{s}{\sqrt{\sum_{i=1}^{n}(x_i-\bar{x})^2}} \\N- &= \frac{121.2}{182} \\N- &\N- environ 0,67 \N- end{align} \]

    Tu as déjà trouvé la valeur critique \ (t = 3,11\), donc :

    \[ \begin{align} \text{marge d'erreur} &= t\cdot SE_{\beta_1} \N- &= (3,11)(0,67 ) \N- &\N- environ 2,08 \N- [end{align}\N].

    Étape 4: Trouve l'intervalle de confiance

    Substitue les valeurs que tu as trouvées dans les étapes précédentes dans la formule :

    \[\hat{\beta}_1\pm t\cdot SE_{\beta_1}= 79.9\pm 2.08\]

    ce qui te donne un intervalle de confiance de \N( (77,82, 79,98) \N).

    Si tu as rempli les conditions pour réaliser un intervalle de confiance pour la pente d'un modèle de régression, tu peux dire avec \(99\%\) confiance que la vraie valeur de la pente \(\beta_1\) est comprise entre \(77,82\N) et \(79,98\N).

    Intervalles de confiance pour la pente d'un modèle de régression - Principaux enseignements

    • En calculant un intervalle de confiance avec unniveau de confiance élevé, disons \(c\%\), pour la pente \(\beta_1\), tu obtiens deux valeurs qui définissent les limites d'une plage de valeurs dans laquelle tu peux trouver la pente. Tu peux dire avec \(c\%\) de confiance que la valeur de la pente sera comprise entre ces deux valeurs.
    • Tu peux dire que la méthode utilisée pour construire l'intervalle réussit à capturer la pente réelle du modèle de régression linéaire dans environ \(c\%\) des cas.
    • La formule de l'intervalle de confiance pour la pente d'un modèle de régression est \[\hat{\beta}_1\pm t\cdot SE_{\beta_1}\, ,\] où
      • \(\hat{\beta}_1\) est l'estimation de la pente \ (\beta_1\)
      • \(t\cdot SE_{\beta_1}\) est la marge d'erreur
      • \N(t) est la valeur critique de la distribution \N(t-\N)avec le paramètre \N(df=n-2\N) (\N(n-2\N) degrés de liberté)
      • \(SE_{\beta_1}\) est l' erreur standard de la pente
    Questions fréquemment posées en Intervalles de confiance pour la pente d'un modèle de régression
    Qu'est-ce qu'un intervalle de confiance pour la pente ?
    Un intervalle de confiance pour la pente estime à quel point la pente d'une régression est précise en indiquant une plage de valeurs probables.
    Comment calcule-t-on un intervalle de confiance pour la pente ?
    On calcule en utilisant la formule : pente ± (erreur standard × valeur t) avec la valeur t dépendant du niveau de confiance choisi.
    Pourquoi les intervalles de confiance sont-ils importants en régression ?
    Ils sont importants car ils indiquent la fiabilité de la pente estimée et aident à comprendre la précision des prédictions du modèle.
    Quel est le lien entre niveau de confiance et intervalle de confiance ?
    Le niveau de confiance détermine la probabilité que l'intervalle contienne la pente vraie, généralement exprimé en pourcentage comme 95%.
    Sauvegarder l'explication

    Teste tes connaissances avec des questions à choix multiples

    L'expression \ (t\cdot SE_{\beta_1}\) est connue sous le nom de ____.

    Le \(SE_{\beta_1}\) est connu sous le nom de ____.

    Le \(t\) dans \(t\cdot SE_{\beta_1}\) est connu sous le nom de ____.

    Suivant

    Découvre des matériels d'apprentissage avec l'application gratuite StudySmarter

    Lance-toi dans tes études
    1
    À propos de StudySmarter

    StudySmarter est une entreprise de technologie éducative mondialement reconnue, offrant une plateforme d'apprentissage holistique conçue pour les étudiants de tous âges et de tous niveaux éducatifs. Notre plateforme fournit un soutien à l'apprentissage pour une large gamme de sujets, y compris les STEM, les sciences sociales et les langues, et aide également les étudiants à réussir divers tests et examens dans le monde entier, tels que le GCSE, le A Level, le SAT, l'ACT, l'Abitur, et plus encore. Nous proposons une bibliothèque étendue de matériels d'apprentissage, y compris des flashcards interactives, des solutions de manuels scolaires complètes et des explications détaillées. La technologie de pointe et les outils que nous fournissons aident les étudiants à créer leurs propres matériels d'apprentissage. Le contenu de StudySmarter est non seulement vérifié par des experts, mais également régulièrement mis à jour pour garantir l'exactitude et la pertinence.

    En savoir plus
    Équipe éditoriale StudySmarter

    Équipe enseignants Mathématiques

    • Temps de lecture: 14 minutes
    • Vérifié par l'équipe éditoriale StudySmarter
    Sauvegarder l'explication Sauvegarder l'explication

    Sauvegarder l'explication

    Inscris-toi gratuitement

    Inscris-toi gratuitement et commence à réviser !

    Rejoins plus de 22 millions d'étudiants qui apprennent avec notre appli StudySmarter !

    La première appli d'apprentissage qui a réunit vraiment tout ce dont tu as besoin pour réussir tes examens.

    • Fiches & Quiz
    • Assistant virtuel basé sur l’IA
    • Planificateur d'étude
    • Examens blancs
    • Prise de notes intelligente
    Rejoins plus de 22 millions d'étudiants qui apprennent avec notre appli StudySmarter !