Comment représenter les données à deux variables ?
Nous utilisons des diagrammes de dispersion pour représenter les données à deux variables. Un graphique de dispersion de données à deux variables est un graphique à deux dimensions avec une variable sur un axe et l'autre variable sur l'autre axe. Nous reportons ensuite les points correspondants sur le graphique. Nous pouvons ensuite tracer une ligne de régression (également connue sous le nom de ligne de meilleur ajustement) et examiner la corrélation des données (dans quelle direction les données vont et à quel point les points de données sont proches de la ligne de meilleur ajustement).
Dessiner un graphique de dispersion
Étape1 : Nous commençons par dessiner un ensemble d'axes et par choisir une échelle appropriée pour les données.Étape 2: Indique sur l'axe des x la variable explicative / indépendante (la variable qui va changer), et sur l'axe des y la réponse / variable dépendante (la variable dont nous pensons qu'elle va changer en raison du changement de la variable indépendante). Étiquette également le graphique lui-même, en décrivant ce qu'il montre. Étape 3 : Place les points de données sur le graphique.Étape 4 : Trace la ligne de meilleur ajustement, si nécessaire.
Voici un ensemble de données mettant en relation la température des jours du mois de juillet, et le nombre de glaces vendues dans un magasin du coin.
Température (° C) | 14 | 16 | 15 | 16 | 23 | 12 | 21 | 22 |
Ventes de glaces | 16 | 18 | 14 | 19 | 43 | 12 | 24 | 26 |
Dans ce cas, la température est la variable indépendante et les ventes de crème glacée sont la variable dépendante. Cela signifie que nous traçons la température sur l'axe des x et les ventes de glaces sur l'axe des y. Le graphique obtenu devrait ressembler à ce qui suit.
Graphique des ventes de glaces en fonction de la température - StudySmarter Originals
Les données suivantes représentent le trajet d'une voiture avec le temps et la distance parcourue mesurés à partir du début du trajet :
Temps (en heures) | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 |
Distance (km) | 12 | 17 | 18 | 29 | 35 | 51 | 53 | 60 |
Dans ce cas, le temps est la variable indépendante et la distance est la variable dépendante. Cela signifie que nous inscrivons le temps sur l'axe des x et la distance sur l'axe des y. Le graphique obtenu devrait ressembler à ce qui suit.
Graphique de la distance en fonction du temps - StudySmarter Originals
Quelle est la signification de la corrélation et de la régression pour les données bivariées ?
La corrélation décrit la relation entre deux variables. Nous décrivons la corrélation sur une échelle mobile allant de -1 à 1. Tout ce qui est négatif est appelé corrélation négative, et une corrélation positive correspond à un nombre positif. Plus la corrélation est proche de chaque extrémité de l'échelle, plus la relation est forte, et plus la corrélation est proche de zéro, plus la relation est faible. Une corrélation nulle signifie qu'il n'y a pas de relation entre les deux variables. La régression consiste à tracer une ligne d'ajustement optimale pour les données. Cette ligne d'ajustement optimal minimise la distance entre les points de données et cette ligne de régression. La corrélation est une mesure de la proximité des données par rapport à notre ligne d'ajustement optimal. Si nous pouvons trouver une forte corrélation entre deux variables, alors nous pouvons établir qu'elles ont une forte relation, ce qui signifie qu'il y a une bonne probabilité qu'une variable influence l'autre.
Données bivariées - Principaux enseignements
- Les données bivariées sont la collection de deux ensembles de données, où chaque donnée est jumelée à une autre provenant de l'autre ensemble de données
- Nous utilisons un graphique en nuage de points pour montrer les données bivariées.
- La corrélation entre les données bivariées montre la force de la relation entre deux variables.