Estimering av et populasjonsmiddel
Den mest grunnleggende estimeringsprosessen for punkt og intervall involverer estimering av et populasjonsgjennomsnitt. Anta at det er av interesse å estimere populasjonsgjennomsnittet, μ, for en kvantitativ variabel. Data samlet fra et enkelt tilfeldig utvalg kan brukes til å beregne prøvenes gjennomsnitt, x̄, hvor verdien av x̄ gir et poengestimat på μ.
Når prøvenes gjennomsnitt brukes som et poengestimat av populasjonen mener, noen feil kan forventes på grunn av at et utvalg, eller en delmengde av populasjonen, brukes til å beregne poengestimatet. Den absolutte verdien av forskjellen mellom gjennomsnittet av prøven, x̄, og populasjonsgjennomsnittet, μ, skrevet | x̄ – μ |, kalles samplingsfeilen. Intervallestimering inkluderer en sannsynlighetsuttalelse om størrelsen på prøvetakingsfeilen. Samplingsfordelingen av x̄ gir grunnlag for en slik uttalelse.
Statistikere har vist at gjennomsnittet av samplingsfordelingen av x̄ er lik populasjonsgjennomsnittet, μ, og at standardavviket er gitt av σ / Kvadratrot av√n, der σ er populasjonsstandardavviket. Standardavviket til en samplingsfordeling kalles standardfeilen. For store utvalgsstørrelser indikerer den sentrale grensesetningen at samplingsfordelingen av x̄ kan tilnærmes med en normal sannsynlighetsfordeling. Som et spørsmål om praksis anser statistikere vanligvis at prøver av størrelse 30 eller mer er store.
I storprøvesaken er et estimat på 95% konfidensintervall for populasjonsgjennomsnitt gitt av x̄ ± 1,96σ / Kvadratrot av√n. Når populasjonsstandardavviket, σ, er ukjent, brukes standardavviket til prøven for å estimere σ i konfidensintervallformelen. Mengden 1,96σ / kvadratrot av √n kalles ofte feilmarginen for estimatet. Mengden σ / kvadratrot av√n er standardfeilen, og 1,96 er antall standardfeil fra gjennomsnittet som er nødvendig for å inkludere 95% av verdiene i en normalfordeling. Tolkningen av et 95% konfidensintervall er at 95% av intervallene konstruert på denne måten vil inneholde populasjonsgjennomsnittet. Således har ethvert intervall beregnet på denne måten en 95% tillit til å inneholde populasjonsgjennomsnittet. Ved å endre konstanten fra 1,96 til 1,645 kan man oppnå et konfidensintervall på 90%. Det skal bemerkes fra formelen for et intervallestimat at et 90% konfidensintervall er smalere enn et 95% konfidensintervall og som sådan har en litt mindre tillit til å inkludere populasjonsgjennomsnittet. Lavere nivå av selvtillit fører til enda smalere intervaller. I praksis er et 95% konfidensintervall det mest brukte.
På grunn av tilstedeværelsen av n1 / 2-begrepet i formelen for et intervallestimat, påvirker prøvestørrelsen feilmarginen. Større utvalgstørrelser fører til mindre feilmarginer. Denne observasjonen danner grunnlaget for prosedyrer som brukes til å velge prøvestørrelse. Eksempelstørrelser kan velges slik at konfidensintervallet tilfredsstiller alle ønskede krav til størrelsen på feilmarginen.
Fremgangsmåten som er beskrevet for å utvikle intervallestimater for et populasjonsmiddel er basert på bruk av et stort prøve. I småprøvesaken – dvs. hvor prøvestørrelsen n er mindre enn 30 – brukes t-fordelingen når du angir feilmarginen og konstruerer et estimat for konfidensintervallet. For eksempel, på et 95% konfidensnivå, vil en verdi fra t-fordelingen, bestemt av verdien av n, erstatte 1,96-verdien oppnådd fra normalfordelingen. T-verdiene vil alltid være større, noe som fører til større konfidensintervaller, men når prøvestørrelsen blir større, kommer t-verdiene nærmere de tilsvarende verdiene fra en normalfordeling. Med en prøvestørrelse på 25 ville t-verdien som ble brukt være 2.064, sammenlignet med den normale sannsynlighetsfordelingsverdien på 1,96 i storprøvesaken.