Odhad průměrné hodnoty populace
Nejzásadnější proces odhadu bodu a intervalu zahrnuje odhad průměrné hodnoty populace. Předpokládejme, že je zajímavé odhadnout průměr populace μ pro kvantitativní proměnnou. Data shromážděná z jednoduchého náhodného vzorku lze použít k výpočtu střední hodnoty vzorku x̄, kde hodnota x̄ poskytuje bodový odhad μ.
Když se střední hodnota vzorku použije jako bodový odhad populace znamená, že lze očekávat nějakou chybu vzhledem k tomu, že k výpočtu bodového odhadu se používá vzorek nebo podmnožina populace. Absolutní hodnota rozdílu mezi průměrem vzorku, x̄ a průměrem populace, μ, zapsaná | x̄ – μ |, se nazývá chyba vzorkování. Odhad intervalu zahrnuje prohlášení o pravděpodobnosti velikosti chyby vzorkování. Rozdělení vzorků x̄ poskytuje základ pro takové tvrzení.
Statistici ukázali, že průměr distribuce vzorků x̄ se rovná populačnímu průměru μ a že standardní odchylka je dána σ / Druhá odmocnina z Ön, kde σ je směrodatná odchylka populace. Směrodatná odchylka distribuce vzorkování se nazývá standardní chyba. U velkých velikostí vzorků naznačuje střední limitní věta, že distribuční vzorek x̄ lze aproximovat normálním rozdělením pravděpodobnosti. V praxi statistici obvykle považují vzorky velikosti 30 a více za velké.
V případě velkého vzorku je odhad 95% intervalu spolehlivosti pro průměr populace dán x̄ ± 1,96σ / Druhá odmocnina z Ön. Když je směrodatná odchylka populace σ neznámá, použije se pro odhad σ ve vzorci intervalu spolehlivosti výběrová směrodatná odchylka. Množství 1,96σ / druhá odmocnina z Ön se často pro odhad nazývá mez chyby. Množství σ / druhá odmocnina z Ön je standardní chyba a 1,96 je počet standardních chyb ze střední hodnoty nutné k zahrnutí 95% hodnot do normálního rozdělení. Interpretace 95% intervalu spolehlivosti je taková, že 95% intervalů konstruovaných tímto způsobem bude obsahovat průměr populace. Jakýkoli interval vypočítaný tímto způsobem má tedy 95% spolehlivost, že obsahuje průměr populace. Změnou konstanty z 1,96 na 1,645 lze získat 90% interval spolehlivosti. Ze vzorce pro odhad intervalu je třeba poznamenat, že 90% interval spolehlivosti je užší než 95% interval spolehlivosti a jako takový má o něco menší spolehlivost zahrnující průměr populace. Nižší úrovně spolehlivosti vedou k ještě užším intervalům. V praxi se nejčastěji používá 95% interval spolehlivosti.
Vzhledem k přítomnosti výrazu n1 / 2 ve vzorci pro odhad intervalu má velikost vzorku vliv na míru chyby. Větší velikosti vzorků vedou k menším okrajům chyby. Toto pozorování tvoří základ pro postupy používané k výběru velikosti vzorku. Velikosti vzorků lze zvolit tak, aby interval spolehlivosti splňoval jakékoli požadované požadavky na velikost míry chyby.
Postup popsaný pro vývoj odhadů intervalu střední hodnoty populace je založen na použití velkého rozsahu vzorek. V případě malého vzorku – tj. Kde velikost vzorku n je menší než 30 – se při určení rozpětí chyby a konstrukci odhadu intervalu spolehlivosti použije distribuce t. Například při 95% hladině spolehlivosti by hodnota z t rozdělení, určená hodnotou n, nahradila hodnotu 1,96 získanou z normálního rozdělení. Hodnoty t budou vždy větší, což povede k širším intervalům spolehlivosti, ale jak se velikost vzorku zvětší, hodnoty t se přiblíží odpovídajícím hodnotám z normálního rozdělení. Při velikosti vzorku 25 by použitá hodnota t byla 2,064 ve srovnání s normální hodnotou rozdělení pravděpodobnosti 1,96 v případě velkého vzorku.