Minimi quadrati ordinari

Presupposti Modifica

Vedi anche: Regressione lineare § Presupposti

Ci sono diversi quadri in cui il modello di regressione lineare può essere lanciato per rendere applicabile la tecnica OLS. Ciascuna di queste impostazioni produce le stesse formule e gli stessi risultati. Lunica differenza è linterpretazione e le ipotesi che devono essere imposte affinché il metodo dia risultati significativi. La scelta del framework applicabile dipende principalmente dalla natura dei dati in mano e dal compito di inferenza che deve essere eseguito.

Una delle linee di differenza nellinterpretazione è se trattare i regressori come casuali variabili o come costanti predefinite. Nel primo caso (disegno casuale) i regressori xi sono casuali e campionati insieme agli yi di una certa popolazione, come in uno studio osservazionale. Questo approccio consente uno studio più naturale delle proprietà asintotiche degli stimatori. Nellaltra interpretazione (progetto fisso), i regressori X sono trattati come costanti note impostate da un progetto e y è campionato condizionatamente sui valori di X come in un esperimento. Per scopi pratici, questa distinzione è spesso irrilevante, poiché la stima e linferenza vengono eseguite durante il condizionamento su X. Tutti i risultati dichiarati in questo articolo sono allinterno del framework di progettazione casuale.

Modello di regressione lineare classicoModifica

Il modello classico si concentra sulla stima e linferenza del “campione finito”, il che significa che il numero di osservazioni n è fisso. Ciò contrasta con gli altri approcci, che studiano il comportamento asintotico di OLS, e in cui il numero di osservazioni può crescere allinfinito.

Il conseque immediato Una delle ipotesi di esogeneità è che gli errori abbiano media zero: E = 0, e che i regressori non siano correlati con gli errori: E = 0. Lassunzione di esogeneità è fondamentale per la teoria OLS. Se vale, le variabili regressive vengono chiamate esogene. In caso contrario, i regressori che sono correlati con il termine di errore sono chiamati endogeni e quindi le stime OLS diventano non valide. In tal caso si può utilizzare il metodo delle variabili strumentali per effettuare linferenza. Di solito, si presume anche che i regressori hanno momenti finiti almeno fino al secondo momento. Allora la matrice Qxx = E è finita e semidefinita positiva. Quando questa ipotesi viene violata i regressori sono detti linearmente dipendenti o perfettamente multicollineari. In tal caso il valore del il coefficiente di regressione β non può essere appreso, sebbene la previsione dei valori y sia ancora possibile per i nuovi valori dei regressori che si trovano nello stesso sottospazio linearmente dipendente.

  • Errori sferici: Var ⁡ = σ 2 I n, {\ displaystyle \ operatorname {Var} = \ sigma ^ {2} I_ {n},}

dove In è la matrice identità nella dimensione ne σ2 è un parametro che determina la varianza di ogni osservazione. σ2 è considerato un parametro di disturbo nel modello, alth ough solitamente è anche stimato. Se questa ipotesi viene violata, le stime OLS sono ancora valide, ma non più efficienti. È consuetudine suddividere questa ipotesi in due parti:

  • Omoscedasticità: E = σ2, il che significa che il termine di errore ha la stessa varianza σ2 in ogni osservazione. Quando questo requisito viene violato, questo viene chiamato eteroschedasticità, in tal caso uno stimatore più efficiente sarebbe dei minimi quadrati ponderati. Se gli errori hanno una varianza infinita, anche le stime OLS avranno una varianza infinita (sebbene per la legge dei grandi numeri tendano comunque verso i valori veri fintanto che gli errori hanno media zero). In questo caso, si raccomandano tecniche di stima robuste.
  • Nessuna autocorrelazione: gli errori non sono correlati tra le osservazioni: E = 0 per i ≠ j. Questa ipotesi può essere violata nel contesto di dati di serie temporali, dati panel, campioni di cluster, dati gerarchici, dati di misure ripetute, dati longitudinali e altri dati con dipendenze. In questi casi i minimi quadrati generalizzati forniscono unalternativa migliore rispetto allOLS. Unaltra espressione per lautocorrelazione è la correlazione seriale.

Questa ipotesi non è necessaria per la validità del metodo OLS, sebbene alcune proprietà aggiuntive a campione finito possano essere stabilite nel caso in cui lo fa (specialmente nellarea di verifica delle ipotesi). Anche quando gli errori sono normali, lo stimatore OLS è equivalente allo stimatore di massima verosimiglianza (MLE), e quindi è asintoticamente efficiente nella classe di tutti gli stimatori regolari. È importante sottolineare che lipotesi di normalità si applica solo ai termini di errore; contrariamente a un malinteso popolare, la variabile di risposta (dipendente) non deve essere distribuita normalmente.

Modifica indipendente e distribuita in modo identico (iid)

In alcune applicazioni, specialmente con dati trasversali, viene imposto un presupposto aggiuntivo: tutte le osservazioni sono indipendenti e distribuite in modo identico.Ciò significa che tutte le osservazioni sono prese da un campione casuale, il che rende tutte le ipotesi elencate in precedenza più semplici e facili da interpretare. Anche questo framework consente di affermare risultati asintotici (come dimensione del campione n → ∞), che sono intesi come una possibilità teorica di recuperare nuove osservazioni indipendenti dal processo di generazione dei dati. Lelenco delle ipotesi in questo caso è:

Time series modelEdit

Finite sample propertiesEdit

Prima di tutto, sotto la stretta ipotesi di esogeneità gli stimatori OLS β ^ {\ displaystyle \ scriptstyle {\ hat {\ beta}}} e s2 sono imparziali, il che significa che i loro valori attesi coincidono con i veri valori dei parametri:

E ⁡ = β, E ⁡ = σ 2. {\ Displaystyle \ operatorname {E} = \ beta, \ quad \ operatorname {E} = \ sigma ^ {2}.}

Se la rigida esogeneità non è valida (come nel caso di molti modelli di serie temporali, dove si assume esogeneità solo rispetto agli shock passati ma non a quelli futuri), quindi questi stimatori saranno distorti in campioni finiti.

La matrice di varianza-covarianza (o semplicemente matrice di covarianza) di β ^ {\ displaystyle \ scriptstyle {\ hat {\ beta}}} è uguale a

Var ⁡ = σ 2 (XTX) – 1 = σ 2 Q. {\ Displaystyle \ operatorname {Var} = \ sigma ^ {2} (X ^ {T} X) ^ {- 1} = \ sigma ^ {2} Q.}

In particolare, lerrore standard di ciascun coefficiente β ^ j {\ displaystyle \ scriptstyle {\ hat {\ beta}} _ {j}} è uguale alla radice quadrata dellelemento diagonale j-esimo di questa matrice. La stima di questo errore standard si ottiene sostituendo la quantità sconosciuta σ2 con la sua stima s2. Quindi,

s. e. ^ (β ^ j) = s 2 (XTX) jj – 1 {\ displaystyle {\ widehat {\ operatorname {s. \! e.}}} ({\ hat {\ beta}} _ {j}) = { \ sqrt {s ^ {2} (X ^ {T} X) _ {jj} ^ {- 1}}}} Cov ⁡ = 0. {\ displaystyle \ operatorname {Cov} = 0.}

Gauss –Il teorema di Markov afferma che sotto lipotesi degli errori sferici (cioè, gli errori dovrebbero essere non correlati e omoscedastici) lo stimatore β ^ {\ displaystyle \ scriptstyle {\ hat {\ beta}}} è efficiente nella classe degli stimatori imparziali lineari. Questo è chiamato il miglior stimatore imparziale lineare (BLU). Lefficienza dovrebbe essere intesa come se dovessimo trovare qualche altro stimatore β ~ {\ displaystyle \ scriptstyle {\ tilde {\ beta}}} che sarebbe lineare in y e non corretto, quindi

Var ⁡ – Var ⁡ ≥ 0 {\ Displaystyle \ operatorname {Var} – \ operatorname {Var} \ geq 0}

nel senso che questa è una matrice non negativa. Questo teorema stabilisce lottimalità solo nella classe degli stimatori imparziali lineari, il che è abbastanza restrittivo. A seconda della distribuzione dei termini di errore ε, altri stimatori non lineari possono fornire risultati migliori dellOLS.

Assumendo normalitàEdit

Le proprietà elencate finora sono tutte valide indipendentemente dal distribuzione sottostante dei termini di errore. Tuttavia, se si è disposti a presumere che valga lipotesi di normalità (cioè che ε ~ N (0, σ2In)), allora si possono affermare proprietà aggiuntive degli stimatori OLS.

Lo stimatore β ^ {\ displaystyle \ scriptstyle {\ hat {\ beta}}} è normalmente distribuito, con media e varianza come indicato in precedenza:

β ^ ∼ N (β, σ 2 (XTX) – 1) {\ displaystyle {\ hat {\ beta}} \ \ sim \ {\ mathcal {N}} {\ big (} \ beta, \ \ sigma ^ {2} (X ^ {\ mathrm {T}} X) ^ {- 1} { \ big)}}

dove Q è la matrice cofattore. Questo stimatore raggiunge il limite di Cramér – Rao per il modello, ed è quindi ottimale nella classe di tutti gli stimatori imparziali. Si noti che a differenza del teorema di Gauss-Markov, questo risultato stabilisce lottimalità tra stimatori sia lineari che non lineari, ma solo nel caso di termini di errore normalmente distribuiti.

Lo stimatore s2 sarà proporzionale al chi- distribuzione al quadrato:

s 2 ∼ σ 2 n – p ⋅ χ n – p 2 {\ displaystyle s ^ {2} \ \ sim \ {\ frac {\ sigma ^ {2}} {np}} \ cdot \ chi _ {np} ^ {2}}

La varianza di questo stimatore è uguale a 2σ4 / (n – p), che non raggiunge il limite di Cramér – Rao di 2σ4 / n. Tuttavia è stato dimostrato che non esistono stimatori imparziali di σ2 con varianza inferiore a quella dello stimatore s2. Se siamo disposti a consentire stimatori distorti e consideriamo la classe di stimatori proporzionali alla somma dei residui quadrati (SSR) del modello, il miglior stimatore (nel senso dellerrore quadratico medio) in questa classe sarà ~ σ2 = SSR / (n – p + 2), che batte anche il limite di Cramér – Rao nel caso in cui vi sia un solo regressore (p = 1).

Osservazioni influenti Modifica

Articolo principale: osservazione influente
Vedi anche: Leverage (statistiche)

Come accennato prima, lo stimatore β ^ {\ displaystyle {\ hat {\ beta}}} è lineare in y, il che significa che rappresenta una combinazione lineare delle variabili dipendenti yi. I pesi in questa combinazione lineare sono funzioni dei regressori X e generalmente non sono uguali. Le osservazioni con pesi elevati sono chiamate influenti perché hanno un effetto più pronunciato sul valore dello stimatore.

Per analizzare quali osservazioni sono influenti, rimuoviamo una specifica j-esima osservazione e consideriamo quanto cambieranno le quantità stimate (in modo simile al metodo del coltello a serramanico). Si può dimostrare che la variazione nello stimatore OLS per β sarà uguale a

β ^ (j) – β ^ = – 1 1 – hj (XTX) – 1 xj T ε ^ j, {\ displaystyle { \ hat {\ beta}} ^ {(j)} – {\ hat {\ beta}} = – {\ frac {1} {1-h_ {j}}} (X ^ {\ mathrm {T}} X ) ^ {- 1} x_ {j} ^ {\ mathrm {T}} {\ hat {\ varepsilon}} _ {j} \ ,,}

dove hj = xjT (XTX) −1xj è j- esimo elemento diagonale della matrice hat P, e xj è il vettore dei regressori corrispondente allosservazione j-esima. Allo stesso modo, la variazione del valore previsto per j-esima osservazione risultante dallomissione di tale osservazione dal set di dati sarà uguale a

y ^ j (j) – y ^ j = xj T β ^ (j) – xj T β ^ = – hj 1 – hj ε ^ j {\ displaystyle {\ hat {y}} _ {j} ^ {(j)} – {\ hat {y}} _ {j} = x_ {j} ^ { \ mathrm {T}} {\ hat {\ beta}} ^ {(j)} – x_ {j} ^ {T} {\ hat {\ beta}} = – {\ frac {h_ {j}} {1 -h_ {j}}} \, {\ hat {\ varepsilon}} _ {j}}

Dalle proprietà della matrice cappello, 0 ≤ hj ≤ 1, e si sommano in p, in modo che in media hj ≈ p / n. Queste quantità hj sono chiamate leve e le osservazioni con alta hj sono chiamate punti di leva. Di solito le osservazioni con un elevato effetto leva dovrebbero essere esaminate con maggiore attenzione, nel caso siano errate, o valori anomali, o in qualche altro modo atipiche rispetto al resto del set di dati.

Regressione partizionata Modifica

A volte le variabili e i parametri corrispondenti nella regressione possono essere logicamente suddivisi in due gruppi, in modo che la regressione prenda forma

y = X 1 β 1 + X 2 β 2 + ε, {\ displaystyle y = X_ {1 } \ beta _ {1} + X_ {2} \ beta _ {2} + \ varepsilon,}

dove X1 e X2 hanno dimensioni n × p1, n × p2 e β1, β2 sono p1 × 1 e p2 Vettori × 1, con p1 + p2 = p.

M 1 y = M 1 X 2 β 2 + η, {\ displaystyle M_ {1} y = M_ {1} X_ {2} \ beta _ {2 } + \ eta \ ,,}

dove M1 è la matrice annientatrice per i regressori X1.

Il teorema può essere utilizzato per stabilire una serie di risultati teorici. Ad esempio, avere una regressione con una costante e un altro regressore equivale a sottrarre le medie dalla variabile dipendente e dal regressore e quindi eseguire la regressione per le variabili designificate ma senza il termine costante.

Vincolato estimationEdit

Articolo principale: regressione della cresta

Supponiamo che sia noto che i coefficienti nella regressione soddisfano un sistema di equazioni lineari

A: QT β = c, {\ displaystyle Un \ due punti \ quad Q ^ {T} \ beta = c, \,}

dove Q è ap × q matrice di rango completo e c è un vettoreq × 1 di costanti note, dove q < p. In questo caso la stima dei minimi quadrati equivale a minimizzare la somma dei quadrati dei residui del modello soggetto al vincolo A. Lo stimatore dei minimi quadrati vincolati (CLS) può essere dato da una formula esplicita:

β ^ c = β ^ – (XTX) – 1 Q (QT (XTX) – 1 Q) – 1 (QT β ^ – c). {\ displaystyle {\ hat {\ beta}} ^ {c} = {\ hat {\ beta}} – (X ^ {T} X) ^ {- 1} Q {\ Big (} Q ^ {T} ( X ^ {T} X) ^ {- 1} Q {\ Big)} ^ {- 1} (Q ^ {T} {\ hat {\ beta}} – c).}

Questa espressione per il vincolato Lo stimatore è valido fintanto che la matrice XTX è invertibile. Dallinizio di questo articolo si presumeva che questa matrice fosse di rango pieno, ed è stato notato che quando la condizione di rango fallisce, β non sarà identificabile. Tuttavia può accadere che laggiunta della restrizione A renda β identificabile, nel qual caso si vorrebbe trovare la formula per lo stimatore. Lo stimatore è uguale a

β ^ c = R (RTXTXR) – 1 RTXT y + (I p – R (RTXTXR) – 1 RTXTX) Q (QTQ) – 1 c, {\ displaystyle {\ hat {\ beta}} ^ {c} = R (R ^ {T} X ^ {T} XR) ^ {- 1} R ^ {T} X ^ {T} y + {\ Big (} I_ {p} -R ( R ^ {T} X ^ {T} XR) ^ {- 1} R ^ {T} X ^ {T} X {\ Big)} Q (Q ^ {T} Q) ^ {- 1} c,}

dove R è una matrice ap × (p – q) tale che la matrice non è singolare e RTQ = 0. Tale matrice può sempre essere trovata, sebbene generalmente non sia unica. La seconda formula coincide con la prima nel caso in cui XTX sia invertibile.

Large sample propertiesEdit

Gli stimatori dei minimi quadrati sono stime puntuali dei parametri del modello di regressione lineare β. Tuttavia, in genere vogliamo anche sapere quanto potrebbero essere vicine queste stime ai valori reali dei parametri. In altre parole, vogliamo costruire le stime degli intervalli.

Poiché non abbiamo fatto alcuna ipotesi sulla distribuzione del termine di errore εi, è impossibile inferire la distribuzione degli stimatori β ^ {\ displaystyle {\ hat {\ beta}}} e σ ^ 2 {\ displaystyle {\ hat {\ sigma}} ^ {2}}. Tuttavia, possiamo applicare il teorema del limite centrale per derivare le loro proprietà asintotiche al variare della dimensione del campione n infinito Sebbene la dimensione del campione sia necessariamente finita, è consuetudine assumere che n sia “abbastanza grande” in modo che la distribuzione reale dello stimatore OLS sia vicina al suo limite asintotico.

(β ^ – β) → d N (0, σ 2 Q xx – 1), {\ displaystyle ({\ hat {\ beta}} – \ beta) \ {\ xrightarrow {d}} \ { \ mathcal {N}} {\ big (} 0, \; \ sigma ^ {2} Q_ {xx} ^ {- 1} {\ big)},}

dove Q xx = XTX. {\ displaystyle Q_ {xx} = X ^ {T} X.}

IntervalsEdit

Articoli principali: intervallo di confidenza e intervallo di previsione

Utilizzo di questa distribuzione asintotica , gli intervalli di confidenza bilaterali approssimativi per la componente j-esima del vettore β ^ {\ displaystyle {\ hat {\ beta}}} possono essere costruiti come

β j ∈ jj] {\ displaystyle \ beta _ { j} \ in {\ bigg _ {jj}}} \ {\ bigg]}} al livello di confidenza 1 – α,

dove q denota la funzione quantile della distribuzione normale standard e jj è la j-esima diagonale elemento di una matrice.

Allo stesso modo, lo stimatore dei minimi quadrati per σ2 è anche coerente e asintoticamente normale (ammesso che esista il quarto momento di εi) con distribuzione limitante

(σ ^ 2 – σ 2 ) → d N (0, E ⁡ – σ 4). {\ displaystyle ({\ hat {\ sigma}} ^ {2} – \ sigma ^ {2}) \ {\ xrightarrow {d}} \ {\ mathcal {N}} \ left (0, \; \ operatorname { E} \ sinistra- \ sigma ^ {4} \ destra).} (Y ^ 0 – y 0) → d N (0, σ 2 x 0 TQ xx – 1 x 0), {\ displaystyle \ sinistra ({\ hat {y}} _ {0} -y_ {0} \ right) \ {\ xrightarrow {d}} \ {\ mathcal {N}} \ left (0, \; \ sigma ^ {2} x_ {0} ^ {\ mathrm {T}} Q_ {xx} ^ {- 1} x_ {0} \ right),}

che consente di costruire intervalli di confidenza per la risposta media y 0 {\ displaystyle y_ {0}} :

y 0 ∈ {\ displaystyle y_ {0} \ in \ left} al livello di confidenza 1 – α.

Verifica delle ipotesiEdit

Articolo principale: verifica delle ipotesi

Questa sezione necessita di espansione. Puoi contribuire aggiungendo ad esso. (Febbraio 2017)

Due test di ipotesi sono particolarmente utilizzati. Innanzitutto, si vuole sapere se lequazione di regressione stimata è migliore della semplice previsione che tutti i valori della variabile di risposta sono uguali alla sua media campionaria (in caso contrario, si dice che non abbia potere esplicativo). Lipotesi nulla di nessun valore esplicativo della regressione stimata viene verificata utilizzando un test F. Se il valore F calcolato è sufficientemente grande da superare il suo valore critico per il livello di significatività prescelto, lipotesi nulla viene respinta e viene accettata lipotesi alternativa, che la regressione abbia potere esplicativo. In caso contrario, è accettata lipotesi nulla di assenza di potere esplicativo.

In secondo luogo, per ogni variabile esplicativa di interesse, si vuole sapere se il suo coefficiente stimato differisce significativamente da zero, cioè se questa particolare variabile esplicativa in ha infatti potere esplicativo nel prevedere la variabile di risposta. Qui lipotesi nulla è che il coefficiente vero sia zero. Questa ipotesi viene verificata calcolando il coefficiente “s t-statistica, come rapporto tra la stima del coefficiente e il suo errore standard. Se la statistica t è maggiore di un valore predeterminato, lipotesi nulla viene rifiutata e la variabile si trova potere esplicativo, con il suo coefficiente significativamente diverso da zero. In caso contrario, viene accettata lipotesi nulla di un valore zero del coefficiente vero.

Inoltre, il test di Chow viene utilizzato per verificare se due sottocampioni hanno entrambi il stessi valori dei coefficienti reali sottostanti. La somma dei quadrati residui delle regressioni su ciascuno dei sottoinsiemi e sullinsieme di dati combinato viene confrontata calcolando una statistica F; se questa supera un valore critico, lipotesi nulla di nessuna differenza tra i due sottoinsiemi viene rifiutato; in caso contrario, viene accettato.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *