Sauter à un chapitre clé
Somme résiduelle des carrés régression linéaire
Poursuivons avec l'exemple de l'utilisation du poids d'un chien à l'âge adulte pour prédire sa taille. Tu as procédé à un échantillonnage aléatoire et tu as fait de ton mieux pour t'assurer que ton échantillon est représentatif de l'ensemble de la population des chiens adultes. Les informations que tu as recueillies se trouvent dans le tableau ci-dessous, où le poids est exprimé en livres et la taille en pouces.
Tableau 1 - Poids (en livres) et taille (en pouces) des chiens
Poids | Taille | Poids | Taille | Poids | Taille |
\(10\) | \(10\) | \(75\) | \(23\) | \(12\) | \(12\) |
\(63\) | \(25\) | \(80\) | \(25\) | \(45\) | \(22\) |
\(60\) | \(23\) | \(20\) | \(15\) | \(50\) | \(18\) |
\(100\) | \(26\) | \(46\) | \(24\) | \(36\) | \(17\) |
\(6\) | \(12\) | \(62\) | \(23\) | \(95\) | \(27\) |
\(48\) | \(20\) | \(45\) | \(18\) | \(34\) | \(24\) |
\(40\) | \(19\) | \(32\) | \(17\) | \(57\) | \(21\) |
\(50\) | \(21\) | \(19\) | \(10\) | \(37\) | \(23\) |
La première chose à faire est d'établir un diagramme de dispersion.
Ensuite, tu dois vérifier s'il y a des points inhabituels dans les données.
Points de données inhabituels
Examinons les types de points inhabituels que tu pourrais voir et qui affecteraient ton analyse de régression linéaire.
Valeurs aberrantes
Rappelle-toi qu'une valeuraberrante est un point de données qui se trouve à une distance anormale des autres points de l'échantillon. En d'autres termes, la variable de réponse (dans ce cas, la hauteur du chien) ne suit pas la tendance générale des autres données. Qui décide quels points sont aberrants ? La personne qui observe les données, bien sûr ! Dans le diagramme de dispersion des données ci-dessus, tu peux voir qu'il ne semble pas y avoir de véritables valeurs aberrantes dans les données.
Points à fort effet de levier
Qu'est-ce qui fait qu'un point de données de ton échantillon est un point à fort effet de levier ?
Unpoint de levier élevé est un point qui présente une distance inhabituellement grande entre lui et la moyenne.
Un point de levier élevé peut se situer au-dessus ou au-dessous de la moyenne. Les points de ce type peuvent avoir un effet important sur la régression linéaire.
Points d'influence
L'influence est un moyen de mesurer l'impact d'une valeur aberrante ou d'un point à fort effet de levier sur ton modèle de régression.
Un point est considéré comme influent s'il influence indûment une partie de ton analyse de régression, comme la ligne de meilleur ajustement.
Bien que les valeurs aberrantes et les points à fort effet de levier puissent être des points influents, ils ne le sont pas toujours. Pour savoir si une valeur aberrante ou un point à fort effet de levier est réellement influent, tu dois le retirer de l'ensemble des données, recalculer la régression linéaire, puis voir dans quelle mesure il a changé. La meilleure façon de vérifier est de voir si la valeur de \(R^2\) a changé.
Pour un rappel sur la valeur \(R^2\), voir les articles Régression linéaire et Résidus.
Interprétation géométrique de la somme des carrés résiduels
Une fois que tu as réalisé un nuage de points des données, tu peux vérifier s'il a l'air linéaire. Dans ce cas, il pourrait l'être, mais la question est de savoir comment tracer la ligne. Comme tu peux le voir dans l'image ci-dessous, n'importe laquelle des trois lignes tracées semble correspondre assez bien aux données.
Qu'est-ce qui fait d'une ligne la "meilleure" ligne ? Tu veux une ligne qui soit aussi proche que possible du plus grand nombre de points de données de l'échantillon. Pour cela, tu dois examiner l'écart , également appelé résidu. Le résidu d'un point de données est simplement la distance qui sépare le point de données de la ligne potentielle de meilleur ajustement.
Un résidu négatif signifie que le point se trouve sous la ligne, et un résidu positif signifie que le point se trouve au-dessus de la ligne. Si un point se trouve exactement sur la ligne, le résidu est égal à zéro. Comme le résidu peut être positif ou négatif, il est courant d'examiner le carré du résidu pour éviter que les choses ne s'annulent accidentellement.
Définition de la somme des carrés résiduels
Examinons la définition de la somme résiduelle des carrés. Tu remarqueras qu'elle peut être définie pour n'importe quelle droite \(y=a+bx\), et pas seulement pour la droite de meilleur ajustement.
Pour \(n\) points de données,
\N[(x_1, y_1), (x_2, y_2), \Npoints (x_n, y_n),\N]
Une façon de mesurer l'ajustement d'une droite (y=bx+a) à des données bivariées est lasomme des résidus quadratiques à l'aide de la formule .
\[\sum\limites_{i=1}^n (y_i - (a+bx_i))^2.\N- \N- \N- \N- \N- \N- \N- \N- \N- \N].
L'objectif est de rendre la somme des résidus au carré aussi petite que possible.
Pour savoir pourquoi la somme des carrés résiduels est la meilleure façon de procéder, consulte l'article Minimiser la somme des carrés résiduels.
Tu peux voir le résidu au point \((x_i,y_i)\) écrit sous la forme \(\epsilon_i\).
Formule pour la somme des carrés résiduels
Tu peux maintenant définir la ligne de meilleur ajustement, également connue sous le nom de ligne de régression des moindres carrés.
Laligne de régression des moindres carrés est la ligne qui minimise la somme des écarts quadratiques par rapport aux données de l'échantillon.
Tu dois encore trouver un moyen de trouver la droite de régression des moindres carrés ! Heureusement, d'autres personnes ont fait tous les calculs pour trouver la pente et l'ordonnée à l'origine de la droite. La notation des formules est la suivante :
\(n\) nombre de points d'échantillonnage ;
\(\bar{x}\) la moyenne des valeurs \(x_i\) ; et
\(\bar{y}\) la moyenne des valeurs \(y_i\).
La pente de la ligne de régression des moindres carrés est la suivante
\[ b = \frac{\sum\limites_{i=1}^n(x_i - \bar{x})(y_i - \bar{y})}{ \sum\limites_{i=1}^n(x_i - \bar{x})^2 } = \frac{S_{xy}}{S_{xx}} ,\]
l'ordonnée à l'origine est
\N[ a = \Nbar{y} - b\Nbar{x},\N]
et l'équation de la droite de régression des moindres carrés est
\[ \hat{y} = a+bx,\]
où \(\hat{y}\) est la valeur prédite qui résulte de la substitution d'un \(x\) donné dans l'équation.
\(S_{xx}\) et \(S_{xy}\) sont appelées statistiques sommaires, et leurs formules peuvent apparaître en fonction des outils d'apprentissage que tu utilises.
Prenons un exemple.
Revenons au tableau des poids et des tailles des chiens. La variable dépendante est la taille (ce sont les valeurs \(y_i\)) et la variable indépendante est le poids (ce sont les valeurs \(x_i\)). Il y a \(24\) points de données dans le tableau, donc \(n=24\). Tu peux calculer
- \N( \Nbar{x} = 46.75\N) et
- \N(\Nbar{y} = 19,79\N),
arrondis à deux décimales. En général, tu utiliseras un tableur ou une calculatrice pour trouver les valeurs de \(b\) et \(a\), surtout lorsqu'il y a beaucoup de points de données ! Ici
- \N( a =11.69\N) et
- \(b = 0.17\),
où les deux valeurs ont été arrondies à deux décimales. L'équation de la droite de régression des moindres carrés est donc la suivante
\N[ \Nqui{y} = 11,69 + 0,17x.\N]
Maintenant que tu as une formule pour la droite, tu peux trouver l'écart résiduel de la somme des carrés pour cette droite. Utilise la formule,
\[\sum\limites_{i=1}^24 (y_i - (a+bx_i))^2 \approx 160.58.\]
En fait, la valeur de R^2, également connue sous le nom de coefficient de détermination, est d'environ R^2 = 0,73, soit 73%.
Cherchons maintenant les points influents.
Pour revenir au tableau des données,si tu regardes l'écart pour chaque point de l'échantillon, l'un d'entre eux semble contribuer beaucoup plus que les autres à l'écart de la somme des carrés. Ce point de données est \N( (37, 23)\N) avec un écart de presque \N(24\N). C'est beaucoup plus que n'importe quel autre point de l'échantillon, le plus élevé étant inférieur à \(12\). Cela implique que le point de données \N( (37, 23)\N) est un point à fort effet de levier, mais tu dois montrer s'il s'agit ou non d'un point influent.
Il se peut que \( (37, 23)\) soit un point influent. Si tu retires ce point de l'échantillon et que tu calcules la nouvelle valeur de \(R^2\), tu obtiens environ \(0,77\), ou \(77\%\), avec une droite de régression des moindres carrés de \(0,77\).
\N[\Nqui{y} = 11,31 + 0,18x,\N] et un écart résiduel de la somme des carrés de \N(135,36\N).
Rappelle-toi que le coefficient de détermination, \(R^2\), est une mesure de la variabilité de \(y\) qui peut être expliquée par une relation linéaire entre \(x\) et \(y\). Plus \(1\) est proche de \(R^2\), plus les données de ton échantillon sont linéaires. Ainsi, en supprimant un point de l'ensemble des données, tu as modifié la valeur de \(R^2\) de \(73\%) à \(77\%), ce qui est un grand changement ! Cela signifie que le point de données \N( (37, 23)\N) est en fait un point influent.
Rappelle-toi que la variabilité peut être réduite en augmentant la taille de l'échantillon. Voir Estimations ponctuelles non biaisées pour plus d'informations.
Une fois que tu as obtenu la droite de régression des moindres carrés, que peux-tu en faire ?
Exemples de sommes des carrés résiduels
Il y a quelques éléments importants à prendre en compte lorsque tu utilises la droite de régression des moindres carrés pour faire une prédiction.
La droite de régression des moindres carrés est un prédicteur de la population, pas d'un individu.
L'utilisation de la droite de régression des moindres carrés pour faire une prédiction pour une valeur en dehors de la plage des données collectées risque de ne pas très bien fonctionner.
Voyons un exemple du type de problèmes qui peuvent survenir lorsque ces considérations sont ignorées.
Reprends les informations sur le poids et la taille du chien et utilise la droite de régression des moindres carrés
\N- [\N- \Nqui{y} = 11,31 + 0,18x,\N]
que peux-tu prédire sur la taille d'un bouledogue qui pèse \(65\) livres ?
Réponse :
En introduisant simplement le poids du bouledogue, tu obtiens
\[\hat{y} = 11.31 + 0.18(65) = 23.01,\]
La ligne de régression des moindres carrés prédit donc que le bouledogue devrait mesurer \(23,01\) pouces. Cependant, un bouledogue de ce poids mesurera en réalité environ \(15\) pouces, ce qui est une sacrée différence ! C'est un exemple de la raison pour laquelle tu peux utiliser la ligne de régression des moindres carrés pour faire une prédiction sur les chiens en général (c'est-à-dire la population de chiens) et non sur des chiens en particulier.
Qu'en est-il d'un chien dont le poids est supérieur à \(100\) livres ?
Un mâle bull mastiff peut facilement peser plus de 100 kilos. Ce poids se situe en dehors de la fourchette des données recueillies dans le tableau. Lorsque tu utilises la ligne de régression des moindres carrés pour faire une prédiction, tu découvres qu'un mâle bull mastiff devrait peser
\N- [\N- ce qui{y} = 11,31 + 0,18(130) = 34,71 \N, \Ntext{in},\N]
grand. Cependant, en général, ce chien ne mesurera pas plus de \(27\) pouces, ce qui est considérablement moins que ce que prédit la ligne de régression des moindres carrés ! Cela s'explique par le fait que le poids du chien est très éloigné des données recueillies, et que laligne de régression des moindres carrés n'est donc pas un très bon indicateur.
Somme résiduelle des carrés - Principaux enseignements
- Le résidu d'un point de données est la distance qui sépare le point de données de la ligne potentielle de meilleur ajustement. L'écart peut être positif ou négatif.
Pour les points de données \(n\),
\N[(x_1, y_1), (x_2, y_2), \Npoints (x_n, y_n),\N]
Une façon de mesurer l'ajustement d'une droite (y=mx+b\) à des données bivariées est la somme résiduelle des écarts quadratiques à l'aide de la formule suivante
\[\sum\limites_{i=1}^n (y_i - (a+bx_i))^2.\N- \N- \N- \N- \N- \N- \N- \N- \N- \N].
- La droite de régression des moindres carrés est la droite qui minimise la somme des carrés résiduels.
- La pente de la droite de régression des moindres carrés est la suivante
\[ \N- b &=\frac{S_{xy}}{S_{xx}} \N- & = \Nfrac{S_{xy}}{S_{xx}} \\ & = \frac{\sum\limites_{i=1}^n(x_i - \bar{x})(y_i - \bar{y})}{ \sum\limites_{i=1}^n(x_i - \bar{x})^2 }, \end{align}\]
l'ordonnée à l'origine est
\N[ a = \Nbar{y} - b\Nbar{x},\N]
et l'équation de la droite de régression des moindres carrés est
\[ \hat{y} = a+bx,\]
où \(\hat{y}\) est la valeur prédite qui résulte de la substitution d'un \(x\) donné dans l'équation.
Apprends plus vite avec les 11 fiches sur La somme des carrés des résidus
Inscris-toi gratuitement pour accéder à toutes nos fiches.
Questions fréquemment posées en La somme des carrés des résidus
À propos de StudySmarter
StudySmarter est une entreprise de technologie éducative mondialement reconnue, offrant une plateforme d'apprentissage holistique conçue pour les étudiants de tous âges et de tous niveaux éducatifs. Notre plateforme fournit un soutien à l'apprentissage pour une large gamme de sujets, y compris les STEM, les sciences sociales et les langues, et aide également les étudiants à réussir divers tests et examens dans le monde entier, tels que le GCSE, le A Level, le SAT, l'ACT, l'Abitur, et plus encore. Nous proposons une bibliothèque étendue de matériels d'apprentissage, y compris des flashcards interactives, des solutions de manuels scolaires complètes et des explications détaillées. La technologie de pointe et les outils que nous fournissons aident les étudiants à créer leurs propres matériels d'apprentissage. Le contenu de StudySmarter est non seulement vérifié par des experts, mais également régulièrement mis à jour pour garantir l'exactitude et la pertinence.
En savoir plus