Estimation dune moyenne de population
Le processus destimation par points et intervalles le plus fondamental implique lestimation dune moyenne de population. Supposons quil soit intéressant destimer la moyenne de la population, μ, pour une variable quantitative. Les données collectées à partir dun échantillon aléatoire simple peuvent être utilisées pour calculer la moyenne de léchantillon, x̄, où la valeur de x̄ fournit une estimation ponctuelle de μ.
Lorsque la moyenne de léchantillon est utilisée comme estimation ponctuelle de la population moyenne, une erreur peut être attendue du fait quun échantillon, ou un sous-ensemble de la population, est utilisé pour calculer lestimation ponctuelle. La valeur absolue de la différence entre la moyenne de léchantillon, x̄, et la moyenne de la population, μ, écrite | x̄ – μ |, est appelée erreur déchantillonnage. Lestimation dintervalle incorpore un énoncé de probabilité concernant lampleur de lerreur déchantillonnage. La distribution déchantillonnage de x̄ fournit la base dune telle affirmation.
Les statisticiens ont montré que la moyenne de la distribution déchantillonnage de x̄ est égale à la moyenne de la population, μ, et que lécart type est donné par σ / Racine carrée de √n, où σ est lécart-type de la population. Lécart type dune distribution déchantillonnage est appelé lerreur standard. Pour les échantillons de grande taille, le théorème de la limite centrale indique que la distribution déchantillonnage de x̄ peut être approximée par une distribution de probabilité normale. En pratique, les statisticiens considèrent généralement que les échantillons de taille 30 ou plus sont grands.
Dans le cas dun grand échantillon, une estimation de lintervalle de confiance à 95% pour la moyenne de la population est donnée par x̄ ± 1,96σ / Racine carrée de √n. Lorsque lécart-type de la population, σ, est inconnu, lécart-type de léchantillon est utilisé pour estimer σ dans la formule dintervalle de confiance. La quantité 1,96σ / Racine carrée de √n est souvent appelée marge derreur de lestimation. La quantité σ / Racine carrée de √n est lerreur standard, et 1,96 est le nombre derreurs standard à partir de la moyenne nécessaire pour inclure 95% des valeurs dans une distribution normale. Linterprétation dun intervalle de confiance à 95% est que 95% des intervalles construits de cette manière contiendront la moyenne de la population. Ainsi, tout intervalle calculé de cette manière a une confiance de 95% pour contenir la moyenne de la population. En changeant la constante de 1,96 à 1,645, un intervalle de confiance de 90% peut être obtenu. Il convient de noter à partir de la formule pour une estimation dintervalle quun intervalle de confiance à 90% est plus étroit quun intervalle de confiance à 95% et, en tant que tel, a une confiance légèrement plus faible pour inclure la moyenne de la population. Des niveaux de confiance plus faibles conduisent à des intervalles encore plus étroits. En pratique, un intervalle de confiance de 95% est le plus utilisé.
En raison de la présence du terme n1 / 2 dans la formule dune estimation dintervalle, la taille de léchantillon affecte la marge derreur. Des échantillons de plus grande taille entraînent de plus petites marges derreur. Cette observation constitue la base des procédures utilisées pour sélectionner la taille de léchantillon. La taille des échantillons peut être choisie de telle sorte que lintervalle de confiance réponde à toutes les exigences souhaitées concernant la taille de la marge derreur.
La procédure qui vient dêtre décrite pour développer des estimations dintervalle dune moyenne de population est basée sur lutilisation dun grand échantillon. Dans le cas du petit échantillon, cest-à-dire où la taille de léchantillon n est inférieure à 30, la distribution t est utilisée pour spécifier la marge derreur et construire une estimation de lintervalle de confiance. Par exemple, à un niveau de confiance de 95%, une valeur de la distribution t, déterminée par la valeur de n, remplacerait la valeur de 1,96 obtenue à partir de la distribution normale. Les valeurs t seront toujours plus grandes, conduisant à des intervalles de confiance plus larges, mais, lorsque la taille de léchantillon devient plus grande, les valeurs t se rapprochent des valeurs correspondantes dune distribution normale. Avec une taille déchantillon de 25, la valeur t utilisée serait de 2,064, par rapport à la valeur de distribution de probabilité normale de 1,96 dans le cas du grand échantillon.