Schatting van een populatiegemiddelde
Het meest fundamentele punt- en intervalschattingsproces betreft de schatting van een populatiegemiddelde. Stel dat het interessant is om het populatiegemiddelde μ te schatten voor een kwantitatieve variabele. Gegevens die zijn verzameld uit een eenvoudige willekeurige steekproef kunnen worden gebruikt om het steekproefgemiddelde, x†, te berekenen, waarbij de waarde van x ̄ een puntschatting geeft van μ.
Wanneer het steekproefgemiddelde wordt gebruikt als een puntschatting van de populatie gemiddelde, enige fout kan worden verwacht vanwege het feit dat een steekproef, of een deelverzameling van de populatie, wordt gebruikt om de puntschatting te berekenen. De absolute waarde van het verschil tussen het steekproefgemiddelde, x†, en het populatiegemiddelde, μ, geschreven | x – μ |, wordt de steekproeffout genoemd. Intervalschatting omvat een waarschijnlijkheidsverklaring over de omvang van de steekproeffout. De steekproefverdeling van x† vormt de basis voor een dergelijke bewering.
Statistici hebben aangetoond dat het gemiddelde van de steekproevenverdeling van x† gelijk is aan het populatiegemiddelde, μ, en dat de standaarddeviatie wordt gegeven door σ / Vierkantswortel van√n, waarbij σ de standaarddeviatie van de populatie is. De standaarddeviatie van een steekproefverdeling wordt de standaardfout genoemd. Voor grote steekproeven geeft de centrale limietstelling aan dat de steekproevenverdeling van xiscell kan worden benaderd door een normale kansverdeling. In de praktijk beschouwen statistici steekproeven met een grootte van 30 of meer gewoonlijk als groot.
In het geval met een grote steekproef wordt een schatting van het 95% betrouwbaarheidsinterval voor het populatiegemiddelde gegeven door x ± 1.96σ / Vierkantswortel van√n. Als de standaarddeviatie van de populatie, σ, onbekend is, wordt de standaarddeviatie van de steekproef gebruikt om σ in de betrouwbaarheidsintervalformule te schatten. De grootheid 1.96σ / vierkantswortel van√n wordt vaak de foutmarge genoemd voor de schatting. De hoeveelheid σ / vierkantswortel van√n is de standaardfout en 1,96 is het aantal standaardfouten van het gemiddelde dat nodig is om 95% van de waarden in een normale verdeling op te nemen. De interpretatie van een 95% betrouwbaarheidsinterval is dat 95% van de op deze manier geconstrueerde intervallen het populatiegemiddelde zal bevatten. Elk interval dat op deze manier wordt berekend, heeft dus een zekerheid van 95% dat het het populatiegemiddelde bevat. Door de constante te veranderen van 1,96 in 1,645, kan een betrouwbaarheidsinterval van 90% worden verkregen. Op basis van de formule voor een intervalschatting moet worden opgemerkt dat een betrouwbaarheidsinterval van 90% smaller is dan een betrouwbaarheidsinterval van 95% en als zodanig een iets kleinere betrouwbaarheid heeft voor het opnemen van het populatiegemiddelde. Een lager betrouwbaarheidsniveau leidt tot nog nauwere intervallen. In de praktijk wordt een betrouwbaarheidsinterval van 95% het meest gebruikt.
Door de aanwezigheid van de n1 / 2-term in de formule voor een intervalschatting, heeft de steekproefomvang invloed op de foutenmarge. Grotere steekproeven leiden tot kleinere foutmarges. Deze observatie vormt de basis voor procedures die worden gebruikt om de steekproefomvang te selecteren. De steekproefomvang kan zo worden gekozen dat het betrouwbaarheidsinterval voldoet aan alle gewenste eisen met betrekking tot de grootte van de foutmarge.
De zojuist beschreven procedure voor het ontwikkelen van intervalschattingen van een populatiegemiddelde is gebaseerd op het gebruik van een grote monster. In het geval van een kleine steekproef – d.w.z. waar de steekproefomvang n kleiner is dan 30 – wordt de t-verdeling gebruikt bij het specificeren van de foutmarge en het construeren van een schatting van het betrouwbaarheidsinterval. Bij een betrouwbaarheidsniveau van 95% zou bijvoorbeeld een waarde uit de t-verdeling, bepaald door de waarde van n, de waarde van 1,96 vervangen die is verkregen uit de normale verdeling. De t-waarden zullen altijd groter zijn, wat leidt tot bredere betrouwbaarheidsintervallen, maar naarmate de steekproefomvang groter wordt, komen de t-waarden dichter bij de overeenkomstige waarden van een normale verdeling. Met een steekproefomvang van 25 zou de gebruikte t-waarde 2,064 zijn, vergeleken met de normale kansverdelingswaarde van 1,96 in het geval met grote steekproeven.