Régression linéaire des moindres carrés

Imagine que tu aies recueilli des données auprès des élèves sur leur note d'examen et le nombre d'heures qu'ils ont étudiées. En reportant ces informations sur un graphique en nuage de points, il semble qu'il y ait une relation linéaire positive entre la note moyenne et le nombre d'heures d'étude.

C'est parti

Des millions de fiches spécialement conçues pour étudier facilement

Inscris-toi gratuitement

Review generated flashcards

Inscris-toi gratuitement
Tu as atteint la limite quotidienne de l'IA

Commence à apprendre ou crée tes propres flashcards d'IA

Équipe éditoriale StudySmarter

Équipe enseignants Régression linéaire des moindres carrés

  • Temps de lecture: 9 minutes
  • Vérifié par l'équipe éditoriale StudySmarter
Sauvegarder l'explication Sauvegarder l'explication
Tables des matières
Tables des matières

Sauter à un chapitre clé

    Peux-tu utiliser ces données pour prédire la note d'une personne en fonction du nombre d'heures d'étude ?

    En utilisant la régression linéaire, il est effectivement possible de faire une estimation raisonnable basée sur des données passées. Cet article te montrera comment trouver la ligne de régression linéaire des moindres carrés afin de faire des prédictions basées sur des données déjà collectées.

    Explication de la régression linéaire des moindres carrés

    Lorsque tu analyses des données à deux variables, tu as deux variables : la variable dépendante ou réponse , généralement désignée par \(y\), et la variable indépendante ou explicative , généralement désignée par \(x\).

    Lorsque \(y\) est la variable dépendante et \(x\) la variable indépendante, on peut dire que \(y\) dépend de \(x\).

    Supposons que tu aies recueilli des données sur deux variables, \N(y\N) et \N(x\N), où le résultat de \N(y\N) dépend de \N(x\N). Il semble également y avoir une relation linéaire entre les variables. Comment pourrais-tu prédire la valeur de \(y\) pour une valeur donnée de \(x\) ?

    Au GCSE, tu as peut-être dû tracer une ligne de meilleur ajustement où tu as utilisé ton propre jugement pour déterminer dans quelle "direction" les données allaient. La ligne de régression des moindres carrés permet de faire cela mathématiquement.

    Une droite de régression des moindres carrés est utilisée pour prédire les valeurs de la variable dépendante pour une variable indépendante donnée lors de l'analyse de données à deux variables.

    Résidus

    Si tu as déjà vu des données à deux variables, tu sais qu'il est très rare que les points de données tombent exactement le long d'une ligne droite, même s'il existe une "relation" linéaire confirmée entre les variables.

    Il peut y avoir plusieurs raisons à ces imprécisions (par exemple, d'autres facteurs affectant la variable dépendante ou des relevés inexacts lors de la collecte des données). Il y a tellement de facteurs et de causes possibles pour ces inexactitudes que tu peux supposer qu'elles sont entièrement dues au hasard.

    Dans l'image ci-dessous, tu peux voir une "ligne de meilleur ajustement" pour les points de données \((x_1,y_1)\), \((x_2,y_2)\), \((x_3,y_3)\) et \((x_4,y_4)\). Note que la ligne ne touche aucun de ces points.

    La différence verticale entre ces points et la ligne de meilleur ajustement est indiquée par \(\epsilon _1\), \(\epsilon _2\), \(\epsilon _3\) et \(\epsilon _4\). Il s'agit des résidus associés à chaque point de données.

    Une ligne d'ajustement optimale inclinée vers le haut avec des lignes pointillées verticales étiquetées Droite de régression des moindres carrés avec résidus

    La différence entre la variable dépendante observée (\(y_i\)) et la variable dépendante prédite \(x_i\) est appelée résidu (\(\epsilon _i\)).

    Bien que ces résidus signifient que la prédiction n'est pas exacte à 100 %, ils sont en fait essentiels pour trouver la droite de régression des moindres carrés : en minimisant les carrés de ces résidus. D'où le nom de" régression par lesmoindres carrés ".

    La droite de régression des moindres carrés de \(y\) sur \(x\) est celle qui minimise la somme des carrés des résidus,

    $$\epsilon _1 ^2 +\epsilon _2 ^2 + \epsilon _3 ^2 + ...$$

    où \(\epsilon _i\) est le résidu du point de données \((x_i,y_i)\).

    Méthode de régression linéaire des moindres carrés

    La méthode de régression linéaire des moindres carrés est utilisée pour trouver la droite de régression. L 'objectif principal de cette méthode est de minimiser lasomme des carrés des résidus des points de données dans un ensemble de données .

    Calcul de la droite de régression linéaire des moindres carrés

    Bien que cela puisse sembler compliqué, trouver la droite de régression est en fait assez simple.

    Comme pour toute ligne droite en mathématiques, tu as besoin de deux choses : une \(y\)-interception et un gradient. Heureusement, il existe une formule simple pour trouver ces deux éléments.

    Formule de régression linéaire des moindres carrés

    La ligne de régression de \(y\) sur \(x\) est

    $$y=ax+b$$

    où \(a=\dfrac{S_{xy}}{S_{xx}}\) et \(b=\bar{y}-a\bar{x}\), où

    $$S_{xy}=\sum x_iy_i - \dfrac{\sum x_i \sum y_i}{n}$$$S_{xx}=\sum x_i^2 - \dfrac{(\sum x_i)^2}{n}$$$S_{yy}=\sum y_i^2 - \dfrac{(\sum y_i)^2}{n}$$$.

    Les statistiques sommaires \(S_{xy}\), \(S_{xx}\) et \(S_{yy}\) peuvent t'être données lors d'un examen, ou tu peux aussi avoir besoin de les trouver à partir des données brutes à l'aide d'une calculatrice.

    Exemple résolu de régression linéaire des moindres carrés

    Tu es maintenant prêt à appliquer cette méthode à une éventuelle question d'examen.

    Le nombre d'heures étudiées par les élèves et leurs résultats à l'examen sont consignés dans le tableau ci-dessous.

    Temps d'étude en heures \(1\)\(2\)\(3\)\(4\)\(5\)
    Résultat de l'examen \(49\)\(81\)\(71\)\(83\)\(99\)

    a. Calcule \(S_{xy}\) et \(S_{xx}\).
    b. Trouve la droite de régression de \(y\) sur \(x\).

    c. Reporte les points de données et la ligne de régression sur le même graphique.

    d. Interprète la signification de \(a=10.2\) et \(b=46\) dans le contexte de la question.

    e. Prédis la note d'un élève qui étudie pendant

    i) 2,5 heures

    ii) \N(8\N) heures.

    f. Commente tes réponses pour la partie e).

    Solution

    a. À l'aide de ta calculatrice, tu peux facilement trouver les résultats suivants,

    \(\sum x=15\) \(\sum x^2=55\) \(\bar{x}=3\) \(\sum xy=1,251\) \(\sum y=383\) \(\sum y^2=30,693\) \(\bar{y}=76.6\).

    Il suffit d'insérer ces résultats dans les formules détaillées ci-dessus pour obtenir les statistiques récapitulatives.

    \N-( \Nbegin{align}) S_{xx} &=\sum x^2 - \dfrac{(\sum x)^2}{n} \N&= 55 - \Ndfrac{15^2}{5} \\&= 10. \N-{align}\N-{align}})

    \N-( \N- début{align}) S_{xy} &= \sum xy - \dfrac{\sum x \sum y}{n}\&= 1251 - \dfrac{15 \times 383}{5} \\&= 102. \NFin{align}\N)

    b. En commençant par \(a\), le gradient de la ligne,

    \[a=\dfrac{S_{xy}}{S_{xx}}=\frac{102}{10}=10.2.\]

    L'ordonnée à l'origine est donc

    \(b=\bar{y}-a\bar{x}=76.6-10.2 fois 3=46\).

    Par conséquent, la ligne de régression est \N(y=10.2x+46\N).

    c. C'est une excellente question pour revérifier ton travail - il sera évident que tu as fait de graves erreurs de calcul !

    Droite de régression ascendante passant par 5 points de données.Exemple de droite de régression des moindres carrés

    d. Puisque \(a=10,2\), pour chaque heure supplémentaire sur l'axe \(x\), l'élève obtient \(10,2\) points de plus à l'examen.

    Puisque \(b=46\), si un élève n'étudiait pas du tout, il obtiendrait quand même (selon la ligne de régression) 46 points.

    e. Saisis simplement les chiffres ci-dessus pour \(x\).

    i) Si \(x=2,5\), \(y=10,2\ fois 2,5+46=71,5\).

    ii) Si \(x=8\N), \N(y=10,2\Nfois 8+46=127,6\N).

    f. Il y a un problème fondamental pour la partie ii) : puisque les examens sont notés en pourcentage, la note \(127,6\N) n'existe pas ! En réalité, pour tout laps de temps supérieur à 5 heures, les données ne contiennent aucune information sur ce qu'il advient des notes des élèves.

    Bien que tu puisses déduire que pour toute durée supérieure à 5 heures, 100 % serait une bonne prédiction, cela dépasse la portée des données et du modèle de régression linéaire.

    Tu dois garder à l'esprit que l'utilisation d'une droite de régression ne doit jamais servir à prédire les valeurs qui se situent dans l'intervalle des données à partir desquelles tu déduis cette droite de régression, c'est-à-dire l'interpolation.

    Si tu essayes de faire des prédictions en dehors de cette plage, cela s'appelle une extrapolation et c'est moins fiable car les données peuvent se comporter différemment.

    Le plus difficile dans ce sujet est de s'assurer que tu entres les bons chiffres dans ta calculatrice ! Assure-toi de revérifier tes calculs lors de l'examen afin de ne pas perdre des points faciles.

    Régression linéaire des moindres carrés - Principaux enseignements

    • Une droite de régression des moindres carrés est utilisée pour prédire les valeurs de la variable dépendante pour une variable indépendante donnée lors de l'analyse de données bivariées.
    • La différence entre la variable dépendante observée (\(y_i\)) et la variable dépendante prédite est appelée résidu (\(\epsilon _i\)).
    • La droite de régression des moindres carrés de \(y\) sur \(x\) est celle qui minimise la somme des carrés des résidus :

      $$\epsilon _1 ^2 +\epsilon _2 ^2 + \epsilon _3 ^2 + ...$$

      où \(\epsilon _i\) est le résidu du point de données \((x_i,y_i)\).

    • La droite de régression de \(y\) sur \(x\) est

      $$y=ax+b$$

      où \(a=\dfrac{S_{xy}}{S_{xx}}\) et \(b=\bar{y}-a\bar{x}\).

    • Les statistiques récapitulatives sont :
      • \(S_{xy}=\sum xy - \dfrac{\sum x \sum y}{n}\)

        \(S_{xx}=\sum x^2 - \dfrac{(\sum x)^2}{n}\)

        \(S_{yy}=\sum y^2 - \dfrac{(\sum y)^2}{n}\)

    Questions fréquemment posées en Régression linéaire des moindres carrés
    Qu'est-ce que la régression linéaire des moindres carrés ?
    La régression linéaire des moindres carrés est une méthode statistique utilisée pour déterminer la relation linéaire entre deux variables en minimisant la somme des carrés des différences entre les valeurs observées et les valeurs prédites.
    Comment fonctionne la régression linéaire des moindres carrés ?
    Elle fonctionne en ajustant une ligne à un ensemble de données de sorte que la somme des carrés des écarts entre les points de données et la ligne soit minimisée.
    Pourquoi utiliser la régression linéaire des moindres carrés ?
    On l'utilise pour prédire les valeurs futures, comprendre la relation entre les variables et identifier les tendances dans les données.
    Quels sont les avantages de la régression linéaire des moindres carrés ?
    Ses avantages incluent sa simplicité, sa facilité d'interprétation et son efficacité pour établir des relations linéaires entre les variables.
    Sauvegarder l'explication

    Teste tes connaissances avec des questions à choix multiples

    Une ligne de régression des moindres carrés est utilisée pour...

    La régression linéaire des moindres carrés est utilisée pour analyser...

    Que minimise une droite de régression des moindres carrés ?

    Suivant

    Découvre des matériels d'apprentissage avec l'application gratuite StudySmarter

    Lance-toi dans tes études
    1
    À propos de StudySmarter

    StudySmarter est une entreprise de technologie éducative mondialement reconnue, offrant une plateforme d'apprentissage holistique conçue pour les étudiants de tous âges et de tous niveaux éducatifs. Notre plateforme fournit un soutien à l'apprentissage pour une large gamme de sujets, y compris les STEM, les sciences sociales et les langues, et aide également les étudiants à réussir divers tests et examens dans le monde entier, tels que le GCSE, le A Level, le SAT, l'ACT, l'Abitur, et plus encore. Nous proposons une bibliothèque étendue de matériels d'apprentissage, y compris des flashcards interactives, des solutions de manuels scolaires complètes et des explications détaillées. La technologie de pointe et les outils que nous fournissons aident les étudiants à créer leurs propres matériels d'apprentissage. Le contenu de StudySmarter est non seulement vérifié par des experts, mais également régulièrement mis à jour pour garantir l'exactitude et la pertinence.

    En savoir plus
    Équipe éditoriale StudySmarter

    Équipe enseignants Mathématiques

    • Temps de lecture: 9 minutes
    • Vérifié par l'équipe éditoriale StudySmarter
    Sauvegarder l'explication Sauvegarder l'explication

    Sauvegarder l'explication

    Inscris-toi gratuitement

    Inscris-toi gratuitement et commence à réviser !

    Rejoins plus de 22 millions d'étudiants qui apprennent avec notre appli StudySmarter !

    La première appli d'apprentissage qui a réunit vraiment tout ce dont tu as besoin pour réussir tes examens.

    • Fiches & Quiz
    • Assistant virtuel basé sur l’IA
    • Planificateur d'étude
    • Examens blancs
    • Prise de notes intelligente
    Rejoins plus de 22 millions d'étudiants qui apprennent avec notre appli StudySmarter !