|
|
Corrélation

As-tu déjà constaté que plus tu bois de l'eau, plus ton envie d'uriner est fréquente ? Grâce à des recherches scientifiques, nous pouvons conclure que ces deux variables sont reliées. Pour savoir si c'est le cas (ou pas), nous pouvons calculer leur corrélation. La corrélation entre deux séries statistiques nous indique si nous pouvons établir une formule qui relie les deux. Nous commencerons cette explication avec une définition rigoureuse de ce qu'est la corrélation. Ensuite, nous rentrerons dans les détails sur le coefficient de corrélation, ainsi que la corrélation positive et la corrélation négative. Après, nous examinerons la différence entre la corrélation et la causalité. Pour finir, nous étudierons brièvement la matrice de corrélation

Mockup Schule

Explore notre appli et découvre plus de 50 millions de contenus d'apprentissage gratuitement.

Illustration

Lerne mit deinen Freunden und bleibe auf dem richtigen Kurs mit deinen persönlichen Lernstatistiken

Jetzt kostenlos anmelden

Nie wieder prokastinieren mit unseren Lernerinnerungen.

Jetzt kostenlos anmelden
Illustration

As-tu déjà constaté que plus tu bois de l'eau, plus ton envie d'uriner est fréquente ? Grâce à des recherches scientifiques, nous pouvons conclure que ces deux variables sont reliées. Pour savoir si c'est le cas (ou pas), nous pouvons calculer leur corrélation. La corrélation entre deux séries statistiques nous indique si nous pouvons établir une formule qui relie les deux. Nous commencerons cette explication avec une définition rigoureuse de ce qu'est la corrélation. Ensuite, nous rentrerons dans les détails sur le coefficient de corrélation, ainsi que la corrélation positive et la corrélation négative. Après, nous examinerons la différence entre la corrélation et la causalité. Pour finir, nous étudierons brièvement la matrice de corrélation.

Corrélation : définition

La corrélation mesure à quel point il y a un lien numérique entre deux variables. Une corrélation forte entre deux variables statistiques implique que quand une variable change, l'autre variable change proportionnellement. Le fait que deux variables sont corrélées ne signifie pas que l'une a un impact sur l'autre.

Plus nous buvons de l'eau, plus de fois nous avons besoin d'aller aux toilettes. Nous pouvons donc dire qu'il y a une corrélation entre le volume d'eau qu'une personne boit et le nombre de fois qu'elle va aux toilettes.

Autrement dit, nous cherchons à savoir si, disposant de deux variables \(x\) et \(y\), nous pouvons écrire \(y = f(x)\), avec \(f\) une fonction connue. Même s'il peut y avoir plusieurs types de corrélations entre variables, nous considérons souvent des coefficients de corrélation linéaire. En d'autres termes, nous souhaitons savoir si les deux variables peuvent être reliées à l'aide d'une fonction affine ou linéaire.

Coefficient de corrélation

Un coefficient de corrélation mesure la corrélation entre deux variables. En effet, un coefficient de corrélation nous indique le lien statistique entre les deux variables. Il y a plusieurs coefficients de corrélation, mais celui qui est le plus souvent utilisé est le coefficient de corrélation linéaire, également appelé le coefficient de Bravais-Pearson.

Le coefficient de corrélation linéaire de deux variables \(x\) et \(y\) est noté \(r\) ou \(\rho (x,y)\). Il se calcule à l'aide de la formule suivante : \[r = \frac{cov(x,y)}{\sqrt{var(x)var(y)}} \] où \(cov(x,y)\) est la covariance de \(x\) et \(y\) et \(var(x)\) (\(var(y)\)) est la variance de \(x\) (de \(y\)).

La variance mesure les variations d'une série statistique ou une variable aléatoire. Comme son nom l'indique, la covariance mesure comment varie une variable par rapport à une autre.

La covariance de deux séries statistiques \(x = x_1, x_2, ... , x_n\) et \(y = y_1, y_2, ... , y_n\) est notée \(cov(x,y)\). Elle se calcule avec la formule : \[ cov(x,y) = \sum_{i=1}^n \frac{(x_i - \bar{x})(y_i - \bar{y})}{n} \] où \( \bar{x} \) est la moyenne de \(x\).

Pour une variable \(x\), nous avons \(cov(x,x) = var(x)\).

Nous pouvons calculer le coefficient de corrélation grâce aux formules citées au-dessus. Or, avec certaines calculatrices, il suffit d'entrer les séries statistiques pour calculer le coefficient de corrélation linéaire. Une fois calculé, il faut savoir comment interpréter le coefficient de corrélation, qui peut prendre des valeurs entre \(-1\) et \(1\), compris.

  • Si le coefficient est positif, alors quand une variable augmente, l'autre augmente aussi.

  • En revanche, si le coefficient est négatif, alors quand une variable augmente, l'autre diminue.

  • De plus, si la valeur absolue du coefficient est plus proche de \(1\), le lien est plus fort. Et tu peux imaginer : si la valeur absolue du coefficient est plus proche de \(0\), le lien est plus faible.

Corrélation positive

Si deux variables ont une corrélation positive, l'augmentation (ou la diminution) d'une variable implique l'augmentation (ou diminution) de l'autre. Visuellement, si nous faisons un nuage de points, les points ont l'air de suivre une droite avec une pente positive.

Tu veux tout comprendre sur les nuages de points ? Consulte notre explication sur ce sujet en cliquant sur le lien ci-dessus.

Corrélation Corrélation positive forte StudySmarterFig. 1 - Un nuage de points avec une corrélation positive forte

Si la corrélation est moins forte, il est plus difficile d'envisager une droite. Or, nous pouvons en faire un ajustement affine.

Corrélation Corrélation positive faible StudySmarterFig. 2 - Un nuage de points avec une corrélation positive faible

Corrélation négative

Si deux variables ont une corrélation négative, l'augmentation d'une variable implique la diminution de l'autre, et vice-versa. Visuellement, si nous faisons un nuage de points, les points ont l'air de suivre une droite avec une pente négative.

Corrélation Corrélation négative forte StudySmarterFig. 3 - Un nuage de points avec une corrélation négative forte

Avec une corrélation moins forte, le nuage de points ressemblerait à l'image ci-dessous.

Corrélation Corrélation négative faible StudySmarterFig. 4 - Un nuage de points avec une corrélation négative faible

La droite qui est le plus près possible du nuage de points est appelée la droite de régression ou la droite des moindres carrés. Ces appellations sont dues aux méthodes d'ajustement affine souvent utilisées pour construire la droite : la régression linéaire et la méthode des moindres carrés.

Corrélation et causalité

Les personnes ont tendance à confondre la corrélation et la causalité. Comme nous l'avons expliqué ici, la corrélation est une mesure mathématique du lien entre deux variables. Le fait que deux variables sont corrélées ne signifie pas que l'une a un impact sur l'autre.

Un lien de causalité est une relation entre deux variables ou phénomènes qui dit qu'une variable affecte l'autre via un raisonnement logique. Nous pouvons également considérer la causalité comme un type de corrélation où une variable dépend de l'autre.

Si une entreprise vend plus de leurs produits, alors leurs revenus augmentent. Nous pouvons alors dire qu'il y a un lien de causalité entre le nombre de produits vendus et les revenus. Ici, les revenus dépendent du nombre de produits vendus. Le nombre de produits vendus est donc appelé la variable explicative et le revenu est la variable expliquée.

Différence entre corrélation et causalité

Ces concepts sont très similaires, mais ils ne sont pas pareils. Quelle est donc la différence entre la corrélation et la causalité ? Regardons un exemple qui montre que la corrélation n'implique pas la causalité.

Depuis la révolution industrielle, nous avons observé à la fois une hausse conséquente de la production de dioxyde de carbone CO2, ainsi que du taux d'obésité. Nous pouvons donc établir une corrélation statistique entre ces deux variables. Or, il n'y a pas de preuve scientifique qui indique que l'obésité est dûe au CO2. Cependant, nous pouvons présenter des arguments logiques qui montrent que l'industrialisation est à l'origine de ces deux phénomènes. Dans ce cas, l'industrialisation est une variable cachée : elle n'est pas l'objet de l'étude statistique mais elle a une influence sur les variables considérées.

Matrice de corrélation

Si nous disposons de plus que deux séries statistiques, nous pouvons examiner la corrélation entre chaque couple de variables à l'aide d'une matrice de corrélation. Les coefficients de cette matrice sont les coefficients de corrélation pour chaque couple de variables.

Si nous disposons des séries statistiques \(X_1, ... , X_n\), alors les coefficients de la matrice de corrélation associée, \(R\), sont données par \(R_{ij} = \rho (X_i,X_j) \).

Cette matrice nous permet d'analyser les relations entre plusieurs variables en même temps.

Si tu as besoin de rafraîchir tes connaissances sur les matrices, n'hésite pas à consulter notre explication à ce sujet.

Corrélation - Points clés

  • La corrélation mesure le lien mathématique entre deux variables statistiques.
  • Nous pouvons calculer le coefficient de corrélation linéaire grâce à la formule suivante : \[r = \frac{cov(x,y)}{\sqrt{var(x)var(y)}} \]
  • S'il y a une corrélation positive entre deux variables, l'augmentation d'une variable implique l'augmentation de l'autre. S'il y a une corrélation négative entre deux variables, l'augmentation d'une variable implique la diminution de l'autre.
  • La corrélation n'implique pas la causalité.
  • Avec plusieurs séries statistiques \(X_1, ... , X_n\), nous pouvons créer une matrice de corrélation, \(R\), dont les coefficients sont \(R_{ij} = \rho (X_i,X_j) \).

Questions fréquemment posées en Corrélation

La corrélation mesure à quel point il y a un lien statistique entre deux variables. En d'autres termes, nous cherchons à savoir s'il existe une fonction f, telle que nous pouvons écrire y = f(x), pour des variables x et y. 

La corrélation est une mesure du lien mathématique entre deux variables statistiques. 

Pour savoir si deux variables sont corrélées, il faut calculer leur coefficient de corrélation. Plus proche cette valeur est à 1 ou -1, plus les deux variables sont corrélées. 

La corrélation entre deux séries statistiques nous donne une idée si nous pouvons établir une formule qui relie les deux. La corrélation mesure à quel point il y a un lien numérique entre deux variables.

Rejoins plus de 22 millions d'étudiants qui apprennent avec notre appli StudySmarter !

La première appli d'apprentissage qui a réunit vraiment tout ce dont tu as besoin pour réussir tes examens.

  • Fiches & Quiz
  • Assistant virtuel basé sur l’IA
  • Planificateur d'étude
  • Examens blancs
  • Prise de notes intelligente
Rejoins plus de 22 millions d'étudiants qui apprennent avec notre appli StudySmarter ! Rejoins plus de 22 millions d'étudiants qui apprennent avec notre appli StudySmarter !

Inscris-toi gratuitement et commence à réviser !

Entdecke Lernmaterial in der StudySmarter-App

Google Popup

Rejoins plus de 22 millions d'étudiants qui apprennent avec notre appli StudySmarter !

Rejoins plus de 22 millions d'étudiants qui apprennent avec notre appli StudySmarter !

La première appli d'apprentissage qui a réunit vraiment tout ce dont tu as besoin pour réussir tes examens.

  • Fiches & Quiz
  • Assistant virtuel basé sur l’IA
  • Planificateur d'étude
  • Examens blancs
  • Prise de notes intelligente
Rejoins plus de 22 millions d'étudiants qui apprennent avec notre appli StudySmarter !