Sauter à un chapitre clé
Définition du plan en blocs aléatoires
Lorsque les données sont regroupées en fonction de variables indésirables mesurables et connues, on dit que les données ont été bloquées. Cette opération est effectuée pour éviter que des facteurs indésirables ne réduisent la précision d'une expérience.
Le plan en blocs aléatoires est décrit comme le processus de regroupement (ou de stratification) avant de prélever au hasard des échantillons pour une expérience.
Lorsque tu réalises une expérience ou une enquête, tu dois essayer de réduire les erreurs qui peuvent être dues à différents facteurs. Un facteur peut être connu et contrôlable, alors tu bloques (groupes) les échantillons en fonction de ce facteur afin de réduire la variabilité causée par ce facteur. L'objectif final de ce processus est de minimiser les différences entre les composants d'un groupe bloqué par rapport aux différences entre les composants de l'échantillon entier. Cela te permettrait d'obtenir des estimations plus précises à partir de chaque bloc, puisque la variabilité des membres de chaque groupe est faible.
Note qu'une variabilité réduite rend la comparaison plus précise car des caractères plus spécifiques sont comparés, et des résultats plus précis sont obtenus.
Par exemple, si Femi veut nettoyer la maison et prévoit de déterminer laquelle des trois brosses nettoierait toute la maison plus rapidement. Plutôt que de réaliser une expérience impliquant que chaque brosse nettoie toute la maison, il décide de diviser la maison en trois parties, à savoir la chambre, le salon et la cuisine.
C'est une chose raisonnable à faire si Femi suppose que chaque mètre carré du sol des différentes pièces diffère par sa texture. De cette façon, la variabilité due aux différents types de sol est réduite pour que chacun existe dans son bloc.
Dans l'exemple ci-dessus, Femi a identifié que la texture du sol peut faire une différence. Mais Femi est intéressé par la question de savoir quelle brosse est meilleure, il a donc décidé de faire trois blocs pour son expérience : la cuisine, la chambre à coucher et le salon. Le facteur qui a conduit Femi à la décision de faire des blocs est souvent considéré comme un facteur de nuisance.
Un facteur de nuisance, également appelé variable parasite, est une variable qui affecte les résultats de l'expérience, mais qui ne présente pas d'intérêt particulier pour l'expérience.
Les facteurs de nuisance ne sont pas la même chose que les variables cachées.
Lesvariables cach ées sont celles qui cachent une relation entre des variables qui pourrait exister, ou qui conduisent à une corrélation qui n'est pas vraiment vraie.
Une variable cachée dont il faut tenir compte dans les essais médicaux est l'effet placebo, où les gens croient que le médicament aura un effet et ressentent donc un effet, même si ce qu'ils obtiennent en réalité est une pilule de sucre au lieu d'un véritable traitement médical.
Voyons deux illustrations d'un plan en blocs aléatoires pour aider à clarifier la façon dont un plan en blocs aléatoires serait construit.
Sur la figure ci-dessus, tu peux voir comment Femi a regroupé l'expérience en trois sections. Il s'agit là d'une idée importante concernant le plan en blocs aléatoires.
D'après la figure ci-dessus, après le blocage en groupes, Femi échantillonne au hasard chaque groupe pour le test. Après cette étape, l'analyse de la variance est effectuée.
Plan en blocs aléatoires vs plan complètement aléatoire
Un plan complètement aléatoire consiste à choisir au hasard des échantillons pour une expérience de façon à ce que tous les éléments sélectionnés au hasard soient traités sans ségrégation (regroupement). Cette méthode est susceptible d'entraîner une erreur par hasard, puisque les caractéristiques communes ne sont pas prises en compte au départ, ce qui devrait minimiser la variabilité s'ils étaient mis en groupes. Cette variabilité est minimisée par le plan en blocs aléatoires grâce au regroupement, de sorte qu'un équilibre est forcé entre les groupes d'étude.
Un exemple te permettra de mieux comprendre la différence entre un plan en blocs aléatoires et un plan complètement aléatoire.
Supposons que tu veuilles tester une recette virale de crème glacée faite maison. La recette contient des indications assez bonnes, sauf qu'elle ne précise pas la quantité de sucre que tu dois utiliser. Comme tu as l'intention de la servir lors d'un repas de famille la semaine prochaine, tu demandes à tes voisins s'ils peuvent t'aider en goûtant différents lots de crème glacée préparés avec différentes quantités de sucre.
Ici, l'expérience est réalisée en faisant varier la quantité de sucre de chaque lot.
Le premier ingrédient, et le plus important, est le lait cru, alors tu te rends au marché fermier le plus proche pour constater qu'il ne leur reste plus qu'un demi gallon. Il te faut au moins \(2\) gallons pour faire suffisamment de lots de crème glacée, afin que tes voisins puissent les goûter.
Après avoir cherché un peu, tu trouves un autre marché fermier à 15 minutes sur l'autoroute, où tu achètes le reste du lait cru dont tu as besoin.
Ici, les différents types de lait sont la variable gênante.
Pendant que tu prépares la glace, tu remarques que la glace faite avec le lait d'un endroit a un goût légèrement différent de la glace faite avec le lait de l'autre endroit ! Tu considères que tu es peut-être biaisé parce que tu as utilisé du lait qui ne provenait pas de ton marché fermier digne de confiance. Il est temps de faire des expériences !
Un plan complètement aléatoire consisterait à faire goûter à tes voisins des lots aléatoires de crème glacée, simplement organisés en fonction de la quantité de sucre utilisée dans la recette.
Un plan en blocs aléatoires consisterait d'abord à séparer les lots fabriqués à partir des différents laits, puis à faire goûter à tes voisins des lots aléatoires de crème glacée, tout en notant quel lait a été utilisé dans chaque observation.
Il est tout à fait possible que le lait ait une influence sur le résultat lors de la fabrication de la glace. Cela pourrait introduire une erreur dans ton expérience. C'est pourquoi tu dois utiliser le même type de lait pour l'expérience et pour le repas de famille.
Alors, qu'est-ce qui est mieux, le blocage ou la randomisation ?
Le blocage est-il préférable à la randomisation ou non ?
Le plan en blocs aléatoires est plus avantageux que la randomisation complète car il réduit les erreurs en créant des groupes qui contiennent des éléments beaucoup plus similaires par rapport aux échantillons entiers.
Cependant, le blocage n'est préférable que lorsque la taille de l'échantillon n'est pas trop importante et que les facteurs de nuisance ne sont pas trop nombreux. Lorsque tu as affaire à de grands échantillons, les facteurs de nuisance ont tendance à être plus nombreux, ce qui t'obligerait à augmenter le nombre de groupes. Le principe est que plus tu fais de regroupements, plus la taille de l'échantillon dans chaque groupe est petite. Par conséquent, lorsque la taille des échantillons est importante ou qu'il y a de nombreux facteurs de nuisance, il est préférable d'aborder ces cas avec un plan complètement randomisé.
De plus, comme nous l'avons déjà mentionné, lorsque la variable de blocage est inconnue, il est préférable d'utiliser un plan complètement aléatoire.
Plan par blocs aléatoires et plan par paires appariées
Un plan par paires appariées consiste à regrouper les échantillons par deux (paires) sur la base de caractéristiques confusionnelles (telles que l'âge, le sexe, le statut, etc.), et les membres de chaque paire se voient attribuer les conditions de traitement de façon aléatoire. Les plans en blocs aléatoires diffèrent des paires appariées car il peut y avoir plus de deux groupes. Cependant, lorsqu'il n'y a que deux groupes dans un plan en blocs aléatoires, il peut sembler similaire à un plan en paires appariées.
De plus, les plans en blocs aléatoires et en paires appariées ne s'appliquent de préférence qu'à des échantillons de petite taille.
Dans l'exemple de la crème glacée, tu ferais un plan par paires appariées en demandant à tes voisins de goûter deux boules de crème glacée à chaque observation, toutes deux avec la même quantité de sucre mais avec du lait provenant d'endroits différents.
Quels sont donc les avantages d'un plan en blocs aléatoires ?
Quels sont les avantages d'un plan en blocs aléatoires ?
L'un des principaux avantages du plan en blocs aléatoires est la création de groupes qui augmentent les similitudes entre les membres du bloc par rapport à la grande variation qui peut se produire lorsque chaque membre est comparé à l'ensemble des données. Cet attribut est très avantageux car :
Il réduit les erreurs.
Il augmente la fiabilité statistique d'une étude.
Il reste une meilleure approche pour analyser des échantillons de petite taille.
Examinons de plus près le modèle d'un plan en blocs aléatoires.
Le modèle statistique d'un plan en blocs aléatoires
Le modèle statistique d'un plan en blocs aléatoires pour un facteur de nuisance bloqué est donné par :
\[y_{ij}=µ+T_1+B_j+E_{ij}\]
où :
\(y_{ij}\) est la valeur d'observation pour les traitements dans \(j\) et les blocs dans \(i\) ;
\(μ\) est la grande moyenne ;
\(T_j\) est le \(j\)ième effet de traitement ;
\(B_i\) est le \(i\)ième effet de blocage ; et
\(E_{ij}\) est l'erreur aléatoire.
La formule ci-dessus est équivalente à celle de l'analyse de la variance. Tu peux donc utiliser :
\[SS_T=SS_t+SS_b+SS_e\]
où :
\(SS_T\) est la somme totale des carrés ;
\N(SS_t\N) est la somme des carrés des traitements ;
\(SS_b\) est la somme des carrés du blocage ; et
\(SS_e\) est la somme des carrés de l'erreur.
La somme totale des carrés est calculée en utilisant :
\[SS_T=\sum_{i=1}^{\alpha} \sum_{j=1}^{\beta}(y_{ij}-\mu)^2\]
La somme des carrés des traitements est calculée en utilisant :
\[SS_t=\beta \sum_{j=1}^{\alpha}(\bar{y}_{.j}-\mu)^2\]
La somme des carrés du blocage est calculée en utilisant :
\[SS_b=\alpha \sum_{i=1}^{\beta}(\bar{y}_{i.}-\mu)^2\]
où :
\(\alpha\) est le nombre de traitements ;
\(\beta\) est le nombre de blocs ;
\(\bar{y}_{.j}\) est la moyenne du \(j\)ième traitement ;
\(\bar{y}_{i.}\) est la moyenne du \(i\)ème bloc ; et
la taille totale de l'échantillon est le produit du nombre de traitements et de blocs, soit \(\alpha \beta\).
La somme des carrés de l'erreur peut être calculée en utilisant :
\[SS_e=SS_T-SS_t-SS_b\]
Note que :
\[SS_T=SS_t+SS_b+SS_e\]
Cela devient :
\[SS_e=\sum_{i=1}^{\alpha} \sum_{j=1}^{\beta}(y_{ij}-\mu)^2- \beta \sum_{j=1}^{\alpha}(\bar{y}_{.j}-\mu)^2 -\alpha \sum_{i=1}^{\beta}(\bar{y}_{i.}-\mu)^2\]
Cependant, la valeur de la statique de test est obtenue en divisant les valeurs carrées moyennes du traitement par celle de l'erreur. Cela s'exprime mathématiquement comme suit :
\[F=\frac{M_t}{M_e}\]
où :
\(F\) est la valeur statique du test.
\(M_t\) est la valeur carrée moyenne du traitement, qui est équivalente au quotient de la somme des carrés des traitements et de son degré de liberté, ce qui s'exprime comme suit :\[M_t=\frac{SS_t}{\alpha -1}\]
\(M_e\) est la valeur carrée moyenne de l'erreur qui est équivalente au quotient de la somme des carrés de l'erreur et de son degré de liberté, ce qui s'exprime comme suit :\[M_e=\frac{SS_e}{(\alpha -1)(\beta -1)}\]
La section suivante examine un exemple pour expliquer l'application de ces formules.
Exemples de plans en blocs aléatoires
Comme mentionné à la fin de la section précédente, tu comprendras mieux le plan en blocs aléatoires grâce à son application dans l'illustration ci-dessous.
Nonso demande à Femi d'évaluer l'efficacité de trois types de brosses pour nettoyer toute sa maison. Les valeurs suivantes, qui se réfèrent au taux d'efficacité, ont été obtenues à partir de l'étude réalisée par Femi par la suite.
Brosse 1 | Brosse 2 | Brosse 3 | |
Salle de séjour | \(65\) | \(63\) | \(71\) |
Chambre à coucher | \(67\) | \(66\) | \(72\) |
Cuisine | \(68\) | \(70\) | \(75\) |
Salle de bain | \(62\) | \(57\) | \(69\) |
Tableau 1. Exemple de plan en blocs aléatoires.
La conclusion de Femi indiquerait-elle une variabilité de l'efficacité entre les brosses ?
Solution :
Note que Femi avait effectué un blocage en regroupant son évaluation de l'ensemble de la maison en quatre telles que la chambre à coucher, la cuisine, le salon et la salle de bain.
Première étape : Formule tes hypothèses.
\[ \begin{align} &H_0: \; \text{There is no variability in the efficiency of the brushes.} \N- &H_a : \; \text{There is variability in the efficiency of the brushes.} \Nend{align} \]
N'oublie pas que \(H_0\) implique l'hypothèse nulle, et \(H_a\) implique l'hypothèse alternative.
Deuxième étape : Trouve les moyennes des traitements (colonnes), des blocs (ligne) et la moyenne générale.
La moyenne du traitement 1 est :
\[\bar{y}_{.1}=\frac{262}{4}=65.5\]
La moyenne du traitement 2 est :
\[\bar{y}_{.2}=\frac{256}{4}=64\]
La moyenne du traitement 3 est de :
\[\bar{y}_{.3}=\frac{287}{4}=71.75\]
La moyenne du bloc 1 est de :
\[\bar{y}_{1.}=\frac{199}{3}=66.33\]
La moyenne du bloc 2 est :
\[\bar{y}_{2.}=\frac{205}{3}=68.33\]
La moyenne du bloc 3 est :
\[\bar{y}_{3.}=\frac{213}{3}=71\]
La moyenne du bloc 4 est :
\[\bar{y}_{4.}=\frac{188}{3}=62.67\]
La moyenne générale est de :
\[\mu=\frac{805}{12}=67.08\]
Mets à jour ton tableau comme suit :
Brosse 1(Traitement 1) | Brosse 2(Traitement 2) | Brosse 3(Traitement 3) | Total du bloc(addition des lignes)& moyenne | ||
Salle de séjour(1er bloc) | \(65\) | \(63\) | \(71\) | \(199\) | \(63.3\) |
Chambre(2ème bloc) | \(67\) | \(66\) | \(72\) | \(205\) | \(68.3\) |
Cuisine(3ème bloc) | \(68\) | \(70\) | \(75\) | \(213\) | \(71\) |
Salle de bain(4ème bloc) | \(62\) | \(57\) | \(69\) | \(188\) | \(62.67\) |
Total du traitement(Somme de la colonne) | \(262\) | \(256\) | \(287\) | \(805\) | \(67.08\) |
Moyenne du traitement | \(65.5\) | \(64\) | \(71.75\) |
Tableau 2. Exemple de plan en blocs aléatoires.
Troisième étape : Trouve la somme des carrés pour le total, le traitement, le blocage et l'erreur.
La somme totale des carrés, \(SS_T\), est :
Rappelle-toi que
\[SS_T=\sum_{i=1}^{\alpha} \sum_{j=1}^{\beta}(y_{ij}-\mu)^2\]
\N- [\N- Début{align} SS_T& =(65-67.08)^2+(63-67.08)^2 \N- & \Nquad + \Ndots+(57-67.08)^2+(69-67.08)^2 \N- &=264.96 \Nend{align}\N]
La somme des carrés des traitements, \(SS_t\), est :
Rappelons que :
\[SS_t=\beta \sum_{j=1}^{\alpha}(\bar{y}_{.j}-\mu)^2\]
et \N(beta\N) est \N(3\N).
\N- [\N- Début{align} SS_t &=3((65.5-67.08)^2+(64-67.08)^2+(71.75-67.08)^2)\N- &=101.37 \Nend{align}\N]
La somme des carrés du blocage, \(SS_b\), est :
Rappelle que :
\[SS_b=\alpha \sum_{i=1}^{\beta}(\bar{y}_{i.}-\mu)^2\]
et \(\alpha\) est \(4\)
\N- [\N- Début{align} SS_b &=4((66.33-67.08)^2+(68.33-67.08)^2+(71-67.08)^2+(62.67-67.08)^2)\\ &=147.76 \end{align}\]
Par conséquent, tu peux trouver la somme des carrés de l'erreur :
Rappelle-toi que :
\[SS_e=SS_T-SS_t-SS_b\]
\[\begin{align} SS_e&=264.96-101.37-147.76 \\ &=15.83 \end{align}\]
Quatrième étape : Trouve les valeurs quadratiques moyennes pour le traitement et l'erreur.
La valeur quadratique moyenne pour le traitement, \(M_t\), est :
Rappelle-toi que :
\[M_t=\frac{SS_t}{\alpha -1}\]
\[M_t=\frac{101.37}{4-1}=33.79\]
Rappelons que \(\alpha\) est le nombre de blocs qui est \(4\) dans ce cas.
La valeur quadratique moyenne de l'erreur, \(M_e\), est :
Rappelle-toi que :
[M_e=\frac{SS_e}{(\alpha -1)(\beta -1)}\]
\[M_e=\frac{15.83}{(4-1)(3-1)}=2.64\]
Cinquième streptocoque : Trouve la valeur du test statique.
La valeur du test statique, \(F\), est :
Rappelle-toi que :
\[F=\frac{M_t}{M_e}\]
\[F=\frac{33,79}{2,64} \approx 12,8\]
Sixième étape : Utilise des tableaux statistiques pour déterminer la conclusion.
Ici, tu dois faire attention. Tu as besoin de tes degrés de liberté du numérateur, \(df_n\), et de tes degrés de liberté du dénominateur \(df_d\).
Note que :
\[df_n=\alpha -1\]
et
\[df_d=(\alpha-1)(\beta-1)\]
D'où ,
\N-[df_n=4-1=3\N]
et
\[df_d=(4-1)(3-1)=6\]
Tu pourrais utiliser un niveau de signification \(a=0,05\) pour effectuer ton test d'hypothèse. Trouve la valeur de P à ce niveau de signification (a=0,05) avec un df_n de 3 et un df_d de 6, soit 4,76. Il semble que la valeur résolue de F soit très proche d'un niveau significatif de A=0,005, qui a une valeur de P de 12,9.
Tu dois pouvoir te référer au tableau "Percentiles de la distribution F" pour effectuer ton analyse ou utiliser un autre logiciel statistique pour déterminer la valeur exacte de \(P\)-.
Dernière étape : Communique tes résultats.
La valeur \(F) déterminée à partir de l'expérience, \(12,8) se situe entre \(F_{0,01}=9,78) et \(F_{0,005}=12,9), et en utilisant un logiciel statistique, la valeur \(P) exacte est \(0,00512). Puisque la valeur de l'expérience (\(0.00512\)) est inférieure au niveau de signification choisi \(a=0.05\), tu peux rejeter l'hypothèse nulle, \(H_0\) : Il n'y a pas de variabilité dans l'efficacité des brosses.
Cela signifie que la conclusion de Femi indique une variabilité dans les brosses.
Eh bien, je suppose que cela confirme mon excuse pour expliquer pourquoi j'en ai eu assez de nettoyer puisque certaines brosses n'étaient pas très efficaces.
Essaie d'autres exemples par toi-même, tout en gardant à l'esprit que le blocage aléatoire consiste essentiellement à se débarrasser des facteurs de nuisance par le biais du blocage (regroupement) avant la randomisation. L'objectif est de créer des groupes qui sont similaires avec moins de variabilité par rapport aux échantillons entiers. De plus, si la variabilité est plus observable à l'intérieur des blocs, cela indique que le blocage n'est pas fait correctement ou que le facteur de nuisance n'est pas une très bonne variable à bloquer. En espérant que tu commenceras à bloquer par la suite !
Plan en blocs aléatoires - Principaux points à retenir
- Le plan en blocs aléatoires est décrit comme le processus de regroupement (ou de stratification) avant de prélever au hasard des échantillons pour une expérience.
- Le plan en blocs aléatoires est plus avantageux que la randomisation complète car il réduit les erreurs en créant des groupes qui contiennent des éléments beaucoup plus similaires par rapport à l'ensemble de l'échantillon.
- Les plans d'échantillonnage par blocs aléatoires et par paires appariées ne s'appliquent de préférence qu'à des échantillons de petite taille.
L'erreur aléatoire est bénéfique pour les échantillons de petite taille, car elle permet de réduire le terme d'erreur.
Le modèle statistique d'un plan en blocs aléatoires pour un facteur de nuisance bloqué est donné par :
\[y_{ij}=µ+T_1+B_j+E_{ij}\]
Apprends plus vite avec les 14 fiches sur Plan en blocs randomisés
Inscris-toi gratuitement pour accéder à toutes nos fiches.
Questions fréquemment posées en Plan en blocs randomisés
À propos de StudySmarter
StudySmarter est une entreprise de technologie éducative mondialement reconnue, offrant une plateforme d'apprentissage holistique conçue pour les étudiants de tous âges et de tous niveaux éducatifs. Notre plateforme fournit un soutien à l'apprentissage pour une large gamme de sujets, y compris les STEM, les sciences sociales et les langues, et aide également les étudiants à réussir divers tests et examens dans le monde entier, tels que le GCSE, le A Level, le SAT, l'ACT, l'Abitur, et plus encore. Nous proposons une bibliothèque étendue de matériels d'apprentissage, y compris des flashcards interactives, des solutions de manuels scolaires complètes et des explications détaillées. La technologie de pointe et les outils que nous fournissons aident les étudiants à créer leurs propres matériels d'apprentissage. Le contenu de StudySmarter est non seulement vérifié par des experts, mais également régulièrement mis à jour pour garantir l'exactitude et la pertinence.
En savoir plus