Stima della media di una popolazione
Il processo più fondamentale di stima per punti e intervalli implica la stima di una media della popolazione. Supponiamo che sia interessante stimare la media della popolazione, μ, per una variabile quantitativa. I dati raccolti da un semplice campione casuale possono essere utilizzati per calcolare la media campionaria, x̄, dove il valore di x̄ fornisce una stima puntuale di μ.
Quando la media campionaria viene utilizzata come stima puntuale della popolazione significa che ci si può aspettare qualche errore dovuto al fatto che un campione, o un sottoinsieme della popolazione, viene utilizzato per calcolare la stima puntuale. Il valore assoluto della differenza tra la media campionaria, x̄, e la media della popolazione, μ, scritto | x̄ – μ |, è chiamato errore di campionamento. La stima dellintervallo incorpora una dichiarazione di probabilità sullentità dellerrore di campionamento. La distribuzione campionaria di x̄ fornisce la base per tale affermazione.
Gli statistici hanno dimostrato che la media della distribuzione campionaria di x̄ è uguale alla media della popolazione, μ, e che la deviazione standard è data da σ / Radice quadrata di√n, dove σ è la deviazione standard della popolazione. La deviazione standard di una distribuzione campionaria è chiamata errore standard. Per campioni di grandi dimensioni, il teorema del limite centrale indica che la distribuzione campionaria di x̄ può essere approssimata da una distribuzione di probabilità normale. In pratica, gli statistici di solito considerano grandi campioni di dimensione 30 o superiore.
Nel caso di un campione di grandi dimensioni, una stima dellintervallo di confidenza del 95% per la media della popolazione è data da x 1. ± 1,96σ / Radice quadrata di√n. Quando la deviazione standard della popolazione, σ, è sconosciuta, la deviazione standard campionaria viene utilizzata per stimare σ nella formula dellintervallo di confidenza. La quantità 1,96 σ / radice quadrata di √n è spesso chiamata margine di errore per la stima. La quantità σ / radice quadrata di√n è lerrore standard e 1,96 è il numero di errori standard dalla media necessaria per includere il 95% dei valori in una distribuzione normale. Linterpretazione di un intervallo di confidenza del 95% è che il 95% degli intervalli costruiti in questo modo conterrà la media della popolazione. Pertanto, qualsiasi intervallo calcolato in questo modo ha una confidenza del 95% nel contenere la media della popolazione. Modificando la costante da 1,96 a 1,645, è possibile ottenere un intervallo di confidenza del 90%. Si dovrebbe notare dalla formula per una stima dellintervallo che un intervallo di confidenza del 90% è più stretto di un intervallo di confidenza del 95% e come tale ha una confidenza leggermente inferiore dellinclusione della media della popolazione. Livelli di fiducia inferiori portano a intervalli ancora più stretti. In pratica, un intervallo di confidenza del 95% è il più utilizzato.
A causa della presenza del termine n1 / 2 nella formula per una stima dellintervallo, la dimensione del campione influisce sul margine di errore. Dimensioni del campione più grandi portano a margini di errore minori. Questa osservazione costituisce la base per le procedure utilizzate per selezionare la dimensione del campione. Le dimensioni del campione possono essere scelte in modo tale che lintervallo di confidenza soddisfi i requisiti desiderati circa la dimensione del margine di errore.
La procedura appena descritta per sviluppare stime di intervallo di una media della popolazione si basa sulluso di un ampio campione. Nel caso del campione piccolo, ovvero dove la dimensione del campione n è inferiore a 30, la distribuzione t viene utilizzata quando si specifica il margine di errore e si costruisce una stima dellintervallo di confidenza. Ad esempio, a un livello di confidenza del 95%, un valore della distribuzione t, determinato dal valore di n, sostituirebbe il valore 1,96 ottenuto dalla distribuzione normale. I valori t saranno sempre maggiori, portando a intervalli di confidenza più ampi, ma, man mano che la dimensione del campione diventa più grande, i valori t si avvicinano ai valori corrispondenti da una distribuzione normale. Con una dimensione del campione di 25, il valore t utilizzato sarebbe 2,064, rispetto al valore della distribuzione di probabilità normale di 1,96 nel caso del campione di grandi dimensioni.