Sauter à un chapitre clé
C'est là qu'intervient le biais d'estimation utilisé par les statisticiens. Puisque ton estimation est basée sur une idée moyenne de la façon dont les choses se sont passées dans le passé, tu peux utiliser un estimateur pour la moyenne et, à partir de là, déterminer s'il est biaisé ou non.
La comparaison des estimateurs et la détermination de la variance ou de l'erreur type d'un estimateur sont expliquées dans l'article Qualité des estimateurs.
Définition du biais d'un estimateur
Disons, par exemple, que tu souhaites trouver la longueur moyenne des poissons d'un aquarium. Non seulement il y a un très grand nombre de poissons à mesurer, mais il est également très difficile d'attraper et de mesurer tous les poissons.
Au lieu de mesurer chaque poisson de la population (ce que l'on appelle un recensement), une meilleure approche consisterait à prendre un échantillon de poissons et, à partir de cet échantillon, à trouver une estimation de la longueur moyenne des poissons. C'est ce qu'on appelle un estimateur.
Mais avant tout, tu dois savoir ce qu'est une statistique.
La statistique, \N(T\N), est composée de \N(n\N) échantillons de la variable aléatoire \N(X\N) (c'est-à-dire \N(X_1,X_2,X_3,...,X_n\N)). Ces observations sont indépendantes et sont toutes identiquement distribuées.
On parle souvent de statistiques de test pour les différencier du mot "statistiques". Mathématiquement, cela signifie que la statistique utilisée pour estimer un paramètre, \(T\), sera composée de \(n\) échantillons aléatoires indépendants prélevés sur une variable aléatoire, \(X\).
Un estimateur est une statistique utilisée pour estimer un paramètre de la population. Une estimation est la valeur de l'estimateur lorsqu'elle est obtenue à partir d'un échantillon.
Tu peux aussi voir un estimateur appelé estimation ponctuelle. Il est important de pouvoir reconnaître ce que sont les estimateurs. Jette un coup d'œil à l'exemple suivant.
Explique pourquoi les fonctions suivantes sont ou ne sont pas des estimateurs lorsque \(X_1, X_2,...,X_n\) sont tirées d'une population avec les paramètres \(\mu\) et \(\sigma\).
i) \N- \N(\Ndfrac{X_3+X_6}{2}\N)
ii) \(\dfrac{\sum(X_i-\mu)^2}{n}\)
Solution :
i) La fonction
\[\dfrac{X_3+X_6}{2}\]
est un estimateur puisqu'elle est composée d'échantillons indépendants et identiquement distribués.
ii) D'autre part
\[\dfrac{\sum(X_i-\mu)^2}{n}\]
n'est pas un estimateur puisqu'il contient \(\mu\) qui n'est pas un échantillon. En fait, cet estimateur potentiel n'est même pas une statistique. La variable \(\mu\) est le paramètre de la population ! Tu ne peux pas utiliser une formule impliquant le paramètre de la population pour estimer le paramètre de la population.
Jetons un coup d'œil rapide à ce sujet.
Aperçu du biais de l'estimateur
Toutes les statistiques ne sont pas des estimateurs fiables. Pour déterminer la validité de la capacité d'une statistique à estimer un paramètre, tu devras trouver la valeur attendue de la statistique.
Si l'espérance de la statistique est différente du paramètre que tu veux estimer, alors cela t'indique que la statistique est biaisée.
Tu peux considérer le biais comme unemesure de l'asymétrie de ta distribution d'échantillonnage ou de la distance qui sépare ton estimateur du paramètre de la population. Plus la distribution d'échantillonnage est asymétrique, plus le biais est élevé.
Pour plus d'informations sur l'asymétrie, voir l'article Asymétrie.
Explication du biais d'un estimateur
Tu peux écrire la définition d'une estimation biaisée ou non biaisée à l'aide d'une notation mathématique simple.
Si \(\hat{\theta}\) est une statistique utilisée pour estimer le paramètre de population \(\theta\), \(\hat{\theta}\) est sans biais lorsque
\[\text {E}(\hat{\theta})=\theta\]
où \(\text{E}\) est la notation de la valeur attendue. Toute statistique qui n'est pas sans biais est dite biaisée.
Si \(\hat{\theta}\) est biaisée, le biais peut être trouvé en utilisant la formule suivante :
\[\text{Bias}(\hat{\theta})=\text{E}(\hat{\theta})-\theta.\]
L'importance du biais de \(\hat{\theta}\) peut être déterminée à l'aide de la formule suivante :
\[\text{Bias}(\hat{\theta})=\text{E}(\hat{\theta})-\theta.\]
Remarquez que si \(\text{E}(\hat{\theta})=\theta.\) alors \(\text{Bias}=0\).
Mettons cette définition en pratique.
Montrer que \(\text{E}(\bar{X})=\mu\) où
\[\bar{X}=\frac{(X_1+X_2+\dots+X_n)}{n} \]
est un estimateur sans biais.
Solution :
En gardant à l'esprit que \(\text {E}(aX)=\text {E}(X)\), tu as
\[\begin{align}\text {E}(\bar{X})&=\frac{1}{n}\text{E}(X_1+\dots +X_n)\&=\frac{1}{n}(\text {E}(X_1)+\dots +\text {E}(X_n))\Nend{align}\N].
Puisque \(\text {E}(X_i)=\mu\) pour tout \(i\), vous avez
\N[ \Ndébut{align}] \text {E} (\bar{X}) &= \frac{\r} +\mu +\dots + \mu}{n} \\N- &= \frac{n \mu}{\mu}\N- &=\mu .\N- [end{align}\N].
Cela montre que \(\text {E}(\bar{X})=\mu\), ce qui signifie que \(\bar{X}\) est un estimateur sans biais du paramètre \(\mu\). Cela signifie qu'en moyenne, cette statistique donnera la bonne valeur pour le paramètre estimé.
Pour un rappel sur la raison pour laquelle \ (\text {E}(aX)=\text {E}(X)\), voir l'article Somme de variables aléatoires indépendantes.
Le fait que l'exemple précédent te donne un estimateur sans biais est la raison pour laquelle tu le verras utilisé pour construire des intervalles de confiance.
Exemple de biais d'estimateur
Tous les estimateurs ne sont pas sans biais !
On te donne
\[T=\frac{X_1+2X_2}{n}\]
comme candidat pour un estimateur du paramètre de la moyenne d'une distribution, \(t\), où \(n\) est le nombre total d'échantillons prélevés. Trouve le biais de cette statistique.
Solution :
Dans ce problème, le paramètre de la population est la moyenne, \(t\). Pour trouver le biais, tu peux donc utiliser la formule suivante
\[\text{Bias}(T)=\text {E}(T)-t,\]
ce qui te donne
\[ \begin{align} \text{Bias} (T) &= \text {E} \Ngauche(\frac{X_1+2X_2}{n}\Ndroite) -t \N&= \frac{\text {E} (X_1)+2\text {E} (X_2)}{n} -t \\N&= \frac{3t}{n}-t\N&= \frac{t(3-n)}{n} .\Nend{align}\N]
Par conséquent, le biais de l'estimateur \(T\) est
\N-[\N-texte{Bias}(T) = \Ndfrac{t(3-n)}{n}.\N]
Biais de la formule d'estimation
Si la moyenne de l'échantillon est un moyen d'obtenir un estimateur sans biais, ce n'est pas le seul. Voyons plutôt comment appliquer la formule de l'estimateur du biais à la variance.
Pour trouver un estimateur de la variance de la population, tu peux essayer d'utiliser la variance de l'échantillon qui serait notée comme suit
\[V=\frac{\sum\limits_{i=1}^n(X_i-\bar{X})^2}{n}.\]
Cependant, comme cette formule utilise la moyenne de l'échantillon, \(\bar{X}\), plutôt que \(\mu\), la moyenne de la population, la variance d'un échantillon sera biaisée en faveur de la moyenne de l'échantillon plutôt que de la moyenne de la population.
Tu peux donc utiliser une autre statistique : la variance de l'échantillon. Tu obtiendras ainsi un estimateur sans biais de la variance de la population, \(\sigma^2\).
Un estimateur sans biais de la variance de la population, \(\sigma^2\), est la variance de l'échantillon, \(S^2\) :
\[S^2=\frac{\sum\limits^n_{i=1} (X_i-\bar{X})^2}{n-1}.\]
Cette formule n'est pas toujours la plus facile à utiliser pour calculer la moyenne de l'échantillon. Il existe d'autres façons de trouver \(s^2\).
Voici comment tu peux calculer la variance de l'échantillon :
\[\big{align} s^2 &= \frac{\sum\limites^n_{i=1} (X_i-\bar{X})^2}{n-1} \&= \frac{\sum\limites_{i=1}^n x^2-n\bar{x}^2}{n-1} \&=\frac{S_{xx}}{n-1} .\n-end{align} \]
En général, \(S^2\) est utilisé pour désigner l'estimateur de la variance de la population, et \(s^2\) est utilisé pour désigner une estimation particulière. Il vaut la peine d'apprendre les deux formules équivalentes ci-dessus, car elles sont beaucoup plus faciles à appliquer que la première.
Examinons la preuve que \(s^2\) est une estimation sans biais de \( \sigma ^2\). En d'autres termes, l'objectif est de montrer que \ (\text {E}(s^2)=\sigma ^2\).
Pour ce faire, tu dois écrire l'espérance de la variance de l'échantillon
\[\text{E}(S^2) = \frac{\sum\limites_{i=1}^n x^2-n\bar{x}^2}{n-1} \]
en termes de \(\sigma\) et \(\mu\). Remarque que tu as déjà utilisé l'une des autres façons de calculer la variance de l'échantillon.
Tout d'abord, en utilisant la définition de \(\sigma ^2\), tu as
\N- [\N- Début{align} \sigma ^2 &=\text{Var}(X) \\sigma ^2 &=\text {E}(X^2)-\mu ^2, \end{align} \]
donc \(\text{E}(X^2)=\sigma ^2 +\mu ^2.\N-)
Tu sais aussi que \(\text{Var}(\bar{X})=\dfrac{\sigma ^2}{n}\) et \text{E}(\bar{X})=\mu\), tu peux donc écrire \(\text{Var}(\bar{X})\) comme suit
\N- [\N- Début{align} \text{Var}(\bar{X}) &= \frac{\sigma ^2}{n} \N- &=\text {E}(\bar{X} ^2)-\mu ^2, \Nend{align}\N]
donc
\[\text {E}(\bar{X}^2)=\frac{\sigma ^2}{n}+\mu ^2.\]
L'espérance de la variance de l'échantillon est donnée par :
\[\begin{align} \text {E}(S^2) &= \frac{ \text {E}\left(\sum\limits_{i=1}^n X^2-n\bar{X}^2\right)}{n-1} \&= \frac{ \text {E}\left(\sum\limits_{i=1}^n X^2\right)-\text {E}(n\bar{X}^2)}{n-1} .\end{align} \]
Puisque
\N- [\N- Début{align} \N-text {E}\Nà gauche (\Nsum\Nlimites_{i=1}n X^2\Nà droite)&=\Nsum\Nlimites_{i=1}^n \Ntext {E}(X^2)\N &=n\Ntext {E}(X^2), \Nend{align} \N]
tu as
\N- [\N- Début{align} \ntext {E}(S^2) &= \frac{ n\text {E}(X^2)-\text {E}(n\bar{X}^2)}{n-1} \N &= \frac{n(\sigma ^2 +\mu ^2)-n\n gauche(\dfrac{\sigma ^2}{n} +\mu ^2\n droite)}{n-1}\n &=\frac{n\sigma^2 +n\mu ^2 -\sigma ^2 -n\mu ^2 }{n-1} \\N&= \frac{(n-1)\sigma ^2}{n-1} \N &=\sigma^2 . \Nend{align} \]
Puisque \(\text {E}(s^2)=\sigma ^2\), tu as montré que \(s^2\) est une estimation sans biais de la variance de la population, \(\sigma ^2\).
Bien que tu n'aies pas besoin de mémoriser la preuve, il est toujours bon de lire et de comprendre les étapes pour s'assurer que tu as une bonne compréhension du sujet.
Biais de l'estimateur - Principaux enseignements
- Un estimateur est une statistique utilisée pour estimer un paramètre de la population. Une estimation est la valeur de l'estimateur lorsqu'elle est obtenue à partir d'un échantillon.
- La statistique, \N(T\N), est composée de \N(n\N) échantillons de la variable aléatoire \N(X\N) (c'est-à-dire \N(X_1,X_2,X_3,\Npoints ,X_n\N)). Ces observations sont indépendantes et distribuées de façon identique.
- Si \(\hat{\theta}\) est une statistique utilisée pour estimer le paramètre de population \(\theta\), \(\hat{\theta}\) est sans biais lorsque \(\text {E}(\hat{\theta})=\theta\).
- Si \(\hat{\theta}\) est biaisée, le biais peut être quantifié à l'aide de la formule suivante :\[\text{Bias}(\hat{\theta})=\text {E}(\hat{\theta})-\theta.\].
Apprends plus vite avec les 4 fiches sur Biais de l'estimateur
Inscris-toi gratuitement pour accéder à toutes nos fiches.
Questions fréquemment posées en Biais de l'estimateur
À propos de StudySmarter
StudySmarter est une entreprise de technologie éducative mondialement reconnue, offrant une plateforme d'apprentissage holistique conçue pour les étudiants de tous âges et de tous niveaux éducatifs. Notre plateforme fournit un soutien à l'apprentissage pour une large gamme de sujets, y compris les STEM, les sciences sociales et les langues, et aide également les étudiants à réussir divers tests et examens dans le monde entier, tels que le GCSE, le A Level, le SAT, l'ACT, l'Abitur, et plus encore. Nous proposons une bibliothèque étendue de matériels d'apprentissage, y compris des flashcards interactives, des solutions de manuels scolaires complètes et des explications détaillées. La technologie de pointe et les outils que nous fournissons aident les étudiants à créer leurs propres matériels d'apprentissage. Le contenu de StudySmarter est non seulement vérifié par des experts, mais également régulièrement mis à jour pour garantir l'exactitude et la pertinence.
En savoir plus