Sauter à un chapitre clé
Dans une analyse de régression, tu montres si d'autres variables ont un impact sur une certaine variable (dépendante) bien que l'on sache que certaines variables spécifiques (explicatives) peuvent avoir un lien ou l'expliquer. Cela s'explique par un concept appelé résidus. Examinons les résidus dans cette leçon.
Les résidus en mathématiques
Par exemple, supposons que tu veuilles découvrir comment les changements climatiques affectent le rendement d'une ferme. Tu peux spécifier des variables climatiques dans le modèle, telles que les précipitations et la température. Cependant, d'autres facteurs tels que la taille des terres cultivées et l'utilisation d'engrais, entre autres, affectent également le rendement de la ferme. La question est donc de savoir si le modèle prédit correctement le niveau de rendement en considérant les changements climatiques comme une variable explicative. Alors, comment mesurer l'impact d'un facteur donné ? Examinons une définition courte et informelle d'un résidu.
Pour toute observation, le résidu de cette observation est la différence entre la valeur prédite et la valeur observée.
Tu peux t'appuyer sur la taille du résidu pour te renseigner sur la qualité de ton modèle de prédiction. Cela signifie que tu considères la valeur du résidu pour expliquer pourquoi la prédiction n'est pas précisément comme la réalité.
En mathématiques, la valeur résiduelle est généralement utilisée en termes d'actifs et en statistiques (essentiellement, dans l'analyse de régression, comme nous l'avons vu dans les sections précédentes). La valeur d'un bien après une durée d'utilisation donnée explique la valeur résiduelle du bien.
Par exemple, la valeur résiduelle pour la location d'une machine d'usine pendant \N(10\N) ans, est la valeur de la machine après \N(10\N) ans. C'est ce que l'on appelle la valeur de récupération ou la valeur à la casse du bien. Il s'agit donc de la valeur d'un bien après sa période de location ou sa durée de vie productive/utile.
Ainsi, formellement, tu peux définir les valeurs résiduelles comme suit.
Définition du résidu
Le résidu est la distance verticale entre le point observé et le point prédit dans un modèle de régression linéaire. Un résidu est considéré comme le terme d'erreur dans un modèle de régression, bien qu'il ne s'agisse pas d'une erreur, mais de la différence entre les valeurs. Voici la définition plus formelle d'un résidu en termes de ligne de régression.
La différence entre la valeur réelle d'une variable dépendante et sa valeur prédite associée à partir d'une ligne de régression (ligne de tendance) est appelée résidu. Un résidu est appelé le terme d'erreur dans un modèle de régression. Il mesure la précision avec laquelle le modèle a été estimé avec les variables explicatives.
Mathématiquement, tu peux estimer le résidu en déduisant les valeurs estimées de la variable dépendante \((\hat{y})\) des valeurs réelles données dans un ensemble de données \((y)\).
Pour un rappel sur les droites de régression et leur utilisation, voir les articles Corrélation linéaire, Régression linéaire et Régression des moindres carrés.
Le résidu est représenté par \(\varepsilon \). Cela signifie
\[\varepsilon =y-\hat{y}.\]
La valeur prédite \N((\hat{y})\N) est obtenue en substituant les valeurs \N(x\N) dans la droite de régression des moindres carrés.
Dans le graphique ci-dessus, l'écart vertical entre un point de données et la ligne de tendance est appelé résidu. L'endroit où le point de données est épinglé détermine si le résidu sera positif ou négatif. Tous les points situés au-dessus de la ligne de tendance indiquent un résidu positif et les points situés en dessous de la ligne de tendance indiquent un résidu négatif.
Résidu dans la régression linéaire
Par souci de simplicité, examinons les résidus pour les données à deux variables. Dans la régression linéaire, tu inclus le terme résiduel pour estimer la marge d'erreur dans la prédiction de la ligne de régression qui passe par les deux ensembles de données. En termes simples, le terme résiduel explique ou prend en compte tous les autres facteurs qui peuvent influencer la variable dépendante dans un modèle, autres que ceux indiqués dans le modèle.
Les résidus sont un moyen de vérifier les coefficients de régression ou d'autres valeurs dans la régression linéaire. Si le tracé résiduel présente des motifs indésirables, alors certaines valeurs des coefficients linéaires ne sont pas fiables.
Tu dois faire les hypothèses suivantes concernant les résidus pour tout modèle de régression :
Hypothèses sur les résidus
Ils doivent être indépendants - aucun résidu à un point donné n'influence la valeur résiduelle du point suivant.
Une variance constante est supposée pour tous les résidus.
La valeur moyenne de tous les résidus d'un modèle doit être égale à \(0\).
Les résidus doivent être normalement distribués/suivre une distribution normale - leur tracé donnera une ligne droite s'ils sont normalement distribués.
Équation résiduelle en mathématiques
Étant donné le modèle de régression linéaire qui inclut le résidu pour l'estimation, tu peux écrire :
\[y=a+bx+\varepsilon ,\]
où \(y\N) est la variable réponse (variable indépendante), \N(a\N) est l'ordonnée à l'origine, \N(b\N) est la pente de la droite, \N(x\N) est la variable explicative (variable dépendante).
la variable explicative (variable dépendante) et \(\varepsilon\) est le résidu.
Par conséquent, la valeur prédite de \(y\) sera :
\N-[\Nqui{y} = a+bx .\N]
En utilisant la définition, l'équation résiduelle pour le modèle de régression linéaire est la suivante
\[\varepsilon =y-\hat{y}\]
où \(\varepsilon\) représente le résidu, \(y\) est la valeur réelle et \(\hat{y}\) est la valeur prédite de y.
Pour \(n\) observations de données, tu peux représenter les valeurs prédites comme suit,
\N[ \N-gin{align}\N-at{y}_1&=a+bx_1 \N- \N-at{y}_2&=a+bx_2 \N- &\N-vdots \N- \N-at{y}_n&=a+bx_n\N-\N-end{align}\N-]
Et avec ces quantités prédites, les résidus peuvent être écrits comme suit,
\[ \N-\Nvarepsilon _1&=y_1-\hat{y}_1 \N- \Nvarepsilon _2&=y_2-\hat{y}_2 \N- &\Nvdots \N- \Nvarepsilon _n&=y_n-\hat{y}_n \N- \N-\N- \N- \N- \N- \N- \N- \N]
Cette équation pour les résidus sera utile pour trouver les résidus à partir de n'importe quelles données. Note que l'ordre de soustraction est important pour trouver les résidus. Il s'agit toujours de la valeur prédite prise à partir de la valeur réelle. En d'autres termes
résidu = valeur réelle - valeur prévue.
Comment trouver les résidus en mathématiques
Comme tu l'as vu, les résidus sont des erreurs. Ainsi, tu veux savoir à quel point ta prédiction est exacte à partir des chiffres réels en tenant compte de la ligne de tendance. Pour trouver le résidu d'un point de données :
Tout d'abord, connais les valeurs réelles de la variable considérée. Elles peuvent être présentées sous forme de tableau.
Deuxièmement, identifie le modèle de régression à estimer. Trouver la ligne de tendance.
Ensuite, à l'aide de l'équation de la ligne de tendance et de la valeur de la variable explicative, trouve la valeur prédite de la variable dépendante.
Enfin, soustrais la valeur estimée de la valeur réelle donnée.
Cela signifie que si tu as plus d'un point de données ; par exemple, \(10\) observations pour deux variables, tu estimeras le résidu pour toutes les \(10\) observations. Il s'agit donc de \(10\) résidus.
Le modèle de régression linéaire est considéré comme un bon prédicteur lorsque la somme de tous les résidus est égale à \(0\).
Tu peux comprendre plus clairement en regardant un exemple.
Une usine de production produit un nombre variable de crayons par heure. La production totale est donnée par
\N-[y=50+0,6x ,\N]
où \(x\) est l'intrant utilisé pour produire les crayons et \(y\) est le niveau de production total.
Trouve les résidus de l'équation pour le nombre suivant de crayons produits par heure :
\(x\) | \(500\) | \(550\) | \(455\) | \(520\) | \(535\) |
\(y\) | \(400\) | \(390\) | \(350\) | \(355\) | \(371\) |
Tableau 1. Résidus de l'exemple.
Solution :
Étant donné les valeurs du tableau et l'équation \N(y=50+0,6x\N), tu peux trouver les valeurs estimées en substituant les valeurs de \N(x\N) dans l'équation pour trouver la valeur estimée correspondante de \N(y\N).
\(X\) | \(Y\) | \N(y=50+0,6x\N) | \(\varepsilon =y-\hat{y}\) |
\(500\) | \(400\) | \(350\) | \(50\) |
\(550\) | \(390\) | \(380\) | \(10\) |
\(455\) | \(350\) | \(323\) | \(27\) |
\(520\) | \(355\) | \(362\) | \(-7\) |
\(535\) | \(365\) | \(365\) | \(0\) |
Tableau 2. Valeurs estimées.
Les résultats pour \(\varepsilon =y-\hat{y}\) montrent que la ligne de tendance a sous-prédit les valeurs de \(y\) pour \(3\) observations (valeurs positives), et a sur-prédit pour une observation (valeur négative). Cependant, une observation a été correctement prédite (résidu = \(0\)). Par conséquent, ce point se trouve sur la ligne de tendance.
Tu peux voir ci-dessous comment tracer les résidus sur le graphique.
Tracé des résidus
Le graphique des résidus mesure la distance entre les points de données et la ligne de tendance sous la forme d'un diagramme de dispersion. Il est obtenu en traçant les valeurs résiduelles calculées en fonction des variables indépendantes. Le graphique t'aide à visualiser la perfection de la ligne de tendance par rapport à l'ensemble des données.
Le graphique des résidus souhaitable est celui qui ne présente aucun schéma et dont les points sont dispersés au hasard. Tu peux voir sur le graphique ci-dessus qu'il n'y a pas de schéma spécifique entre les points et que tous les points de données sont dispersés.
Une petite valeur résiduelle se traduit par une ligne de tendance qui correspond mieux aux points de données et vice versa. Les valeurs plus élevées des résidus suggèrent donc que la ligne n'est pas la mieux adaptée aux points de données. Lorsque le résidu est \(0\) pour une valeur observée, cela signifie que le point de données se trouve précisément sur la ligne de meilleur ajustement.
Un graphique des résidus peut parfois être utile pour identifier des problèmes potentiels dans le modèle de régression. Il est beaucoup plus facile de montrer la relation entre deux variables. Les points situés bien au-dessus ou en dessous des lignes horizontales dans les tracés résiduels montrent l'erreur ou le comportement inhabituel des données. Et certains de ces points sont appelés des valeurs aberrantes en ce qui concerne les lignes de régression linéaire.
Note que la droite de régression peut ne pas être valable pour une gamme plus large de \(x\) car elle peut parfois donner de mauvaises prédictions.
Si l'on considère le même exemple que celui utilisé ci-dessus, tu peux tracer les valeurs résiduelles ci-dessous.
En utilisant les résultats de l'exemple de la production de crayons pour le graphique des résidus, tu peux dire que la distance verticale des résidus par rapport à la ligne de meilleur ajustement est proche. Par conséquent, tu peux visualiser que la droite \(y=50+0,6x\) est un bon ajustement pour les données.
Ci-dessous, tu peux voir comment résoudre le problème des résidus pour différents scénarios.
Exemples de résidus en mathématiques
Tu peux comprendre plus clairement comment calculer les résidus en suivant les exemples de résidus ici.
Un vendeur gagne \N(\N800,00 $) par mois. En supposant que la fonction de consommation de ce vendeur est donnée par \(y=275+0.2x\), où \(y\) est la consommation et \(x\) le revenu. En supposant en outre que le vendeur dépense \N(\N650$\N) par mois, détermine le résidu.
Solution :
Tout d'abord, tu dois trouver la valeur estimée ou prédite de \(y\) en utilisant le modèle \(y=275+0,2x\).
Par conséquent, \[\hat{y}=275+0,2(800) =\$435.\N].
Étant donné que \Nvarepsilon =y-\hat{y}\), tu peux calculer le résidu comme suit :
\[\varepsilon =\$650-\$435 =\$215 .\]
Par conséquent, le résidu est égal à \(\$215\). Cela signifie que tu as prédit que le vendeur dépensait moins (c'est-à-dire \N(\N435$)) que ce qu'il dépense réellement (c'est-à-dire \N(\N650$)).
Considère un autre exemple pour trouver les valeurs prédites et les résidus pour les données données.
La fonction de production d'une usine suit la fonction \N(y=275+0,75x\N). Où \(y\) est le niveau de production et \(x\) est le matériel utilisé en kilogrammes. En supposant que l'entreprise utilise \(1000\, kg\) d'intrants, trouve le résidu de la fonction de production.
Solution :
L'entreprise utilise \(1000kg\) d'intrants, donc ce sera aussi la valeur réelle \(y\). Tu veux trouver le niveau de production estimé. Donc
\N- \N- Début{alignement}\N- Ce{y}&=275+0.75x \N- &=275+0.75(1000) \N- &=1025 . \\N- \Nend{align}\N]
Tu peux ensuite estimer le résidu ou l'erreur de prédiction :
\[ \bgin{align}\varepsilon &=y-\hat{y} \\N- &=1000-1025 \N- &=(-)25\, kg .\N- \N- end{align}\N]
Par conséquent, le niveau de sortie prédit est plus grand que le niveau réel de \(1000kg\) de \(25kg\).
L'exemple suivant montre la représentation des résidus dans le graphique.
Sam a recueilli auprès de la classe des données sur le temps d'étude et les notes obtenues après le test donné. Trouve les résidus du modèle de régression linéaire (y=58,6+8,7x\). Reporte également les résidus sur le graphique.
Temps d'étude \((x)\) | \(0.5\) | \(1\) | \(1.5\) | \(2\) | \(2.5\) | \(3\) | \(3.5\) |
Résultats des tests \(y)\) | \(63\) | \(67\) | \(72\) | \(76\) | \(80\) | \(85\) | \(89\) |
Tableau 3. Exemple de temps d'étude.
Solution :
Tu peux créer un tableau avec les données ci-dessus et calculer les valeurs prédites en utilisant \N(y=58,6+8,7x\N).
Temps d'étude \((x)\) | Résultats des tests \((y)\) | Valeurs prédites (\(\hat{y}=58.6+8.7x\)) | Résidus (\varepsilon =y-\hat{y}\)) |
\(0.5\) | \(63\) | \(62.95\) | \(0.05\) |
\(1\) | \(67\) | \(67.3\) | \(-0.3\) |
\(1.5\) | \(72\) | \(71.65\) | \(0.35\) |
\(2\) | \(76\) | \(76\) | \(0\) |
\(2.5\) | \(80\) | \(80.35\) | \(-0.35\) |
\(3\) | \(85\) | \(84.7\) | \(0.3\) |
\(3.5\) | \(89\) | \(89.05\) | \(-0.05\) |
Tableau 4. Exemple avec le temps d'étude, les résultats des tests, les valeurs prédites et les données résiduelles.
En utilisant toutes les valeurs résiduelles et \(x\), tu peux créer le graphique résiduel suivant.
Résidus - Points clés à retenir
- La différence entre la valeur réelle d'une variable dépendante et sa valeur prédite associée à partir d'une ligne de régression (ligne de tendance) est appelée résidu.
- Tous les points situés au-dessus de la ligne de tendance indiquent un résidu positif et les points situés en dessous de la ligne de tendance indiquent un résidu négatif.
- Les résidus sont une façon de vérifier les coefficients de régression ou d'autres valeurs dans la régression linéaire.
- L'équation résiduelle est donc : \(\varepsilon =y-\hat{y}\).
- La valeur prédite de \(y\) sera \(\hat{y} = a+bx\) pour la régression linéaire \(y=a+bx+\varepsilon \).
- Un graphique des résidus peut parfois être utile pour identifier des problèmes potentiels dans le modèle de régression.
Apprends plus vite avec les 7 fiches sur Résidus
Inscris-toi gratuitement pour accéder à toutes nos fiches.
Questions fréquemment posées en Résidus
À propos de StudySmarter
StudySmarter est une entreprise de technologie éducative mondialement reconnue, offrant une plateforme d'apprentissage holistique conçue pour les étudiants de tous âges et de tous niveaux éducatifs. Notre plateforme fournit un soutien à l'apprentissage pour une large gamme de sujets, y compris les STEM, les sciences sociales et les langues, et aide également les étudiants à réussir divers tests et examens dans le monde entier, tels que le GCSE, le A Level, le SAT, l'ACT, l'Abitur, et plus encore. Nous proposons une bibliothèque étendue de matériels d'apprentissage, y compris des flashcards interactives, des solutions de manuels scolaires complètes et des explications détaillées. La technologie de pointe et les outils que nous fournissons aident les étudiants à créer leurs propres matériels d'apprentissage. Le contenu de StudySmarter est non seulement vérifié par des experts, mais également régulièrement mis à jour pour garantir l'exactitude et la pertinence.
En savoir plus