Vanliga minsta kvadrater

AntagandenEdit

Se även: Linjär regression § Antaganden

Det finns flera olika ramar där den linjära regressionsmodellen kan kastas in för att göra OLS-tekniken tillämplig. Var och en av dessa inställningar ger samma formler och samma resultat. Den enda skillnaden är tolkningen och antagandena som måste införas för att metoden ska ge meningsfulla resultat. Valet av tillämpligt ramverk beror främst på vilken typ av data som finns i handen och på den inferensuppgift som måste utföras.

En av skillnaderna i tolkningen är om regressorerna ska behandlas som slumpmässiga variabler eller som fördefinierade konstanter. I det första fallet (slumpmässig design) regressorerna xi är slumpmässiga och samplas tillsammans med yi från en viss population, som i en observationsstudie. Detta tillvägagångssätt möjliggör en mer naturlig studie av de asymptotiska egenskaperna hos uppskattarna. I den andra tolkningen (fast design) behandlas regressorerna X som kända konstanter som sätts av en design, och y samplas villkorligt på värdena på X som i ett experiment. För praktiska ändamål är denna skillnad ofta obetydlig, eftersom uppskattning och slutsats utförs medan konditionering på X. Alla resultat som anges i den här artikeln ligger inom slumpmässiga designramar.

Klassisk linjär regressionsmodellEdit

Den klassiska modellen fokuserar på uppskattningen och slutningen av ”finite sample”, vilket betyder att antalet observationer n är fast. Detta står i kontrast till de andra tillvägagångssätten, som studerar det asymptotiska beteendet hos OLS, och där antalet observationer får växa till oändlighet.

Den omedelbara conseque nce av antagandet om exogenitet är att felen har medelvärde noll: E = 0, och att regressorerna är okorrelerade med felen: E = 0. Exogenitetsantagandet är kritiskt för OLS-teorin. Om det håller kallas regressorvariablerna exogena. Om det inte gör det, så kallas de regressorer som är korrelerade med feltermen endogena, och då blir OLS-uppskattningarna ogiltiga. I sådana fall kan metoden för instrumentvariabler användas för att utföra slutledning. Vanligtvis antas det också att regressorerna har ändliga moment fram till åtminstone det andra ögonblicket. Då är matrisen Qxx = E ändlig och positiv halvdefinierad. När detta antagande bryts kallas regressorerna linjärt beroende eller helt multikollinär. I sådant fall är värdet på regressionskoefficient β kan inte läras, även om förutsägelse av y-värden fortfarande är möjlig för nya värden hos regressorerna som ligger i samma linjärt beroende underområde.

  • Sfäriska fel: Var ⁡ = σ 2 I n, {\ displaystyle \ operatorname {Var} = \ sigma ^ {2} I_ {n},}

där In är identitetsmatrisen i dimension n, och σ2 är en parameter som bestämmer variansen för varje observation. σ2 anses vara en olägesparameter i modellen, alth borde det vanligtvis också uppskattas. Om detta antagande bryts är OLS-uppskattningarna fortfarande giltiga men inte längre effektiva. Det är vanligt att dela upp detta antagande i två delar:

  • Homoscedasticitet: E = σ2, vilket innebär att felterm har samma varians σ2 i varje observation. När detta krav bryts kallas det heteroscedasticitet, i ett sådant fall skulle en mer effektiv uppskattning vägas minsta kvadrater. Om felen har oändlig varians kommer OLS-uppskattningarna också att ha oändlig varians (även om de enligt lagen med stora siffror ändå tenderar mot de sanna värdena så länge felen har nollmedelvärde). I detta fall rekommenderas robusta uppskattningstekniker.
  • Ingen autokorrelation: felen är okorrelerade mellan observationer: E = 0 för i ≠ j. Detta antagande kan brytas mot bakgrund av tidsseriedata, paneldata, klusterprover, hierarkiska data, upprepade måttdata, longitudinella data och andra data med beroende. I sådana fall ger generaliserade minsta rutor ett bättre alternativ än OLS. Ett annat uttryck för autokorrelation är seriell korrelation.

Detta antagande behövs inte för giltigheten av OLS-metoden, även om vissa ytterligare begränsade provegenskaper kan fastställas om det gör det (särskilt inom området för hypoteser). Också när felen är normala motsvarar OLS-uppskattaren maximal sannolikhetsuppskattning (MLE), och därför är den asymptotiskt effektiv i klassen för alla vanliga uppskattare. Det är viktigt att normalitetsantagandet endast gäller felvillkoren; I motsats till en populär missuppfattning krävs inte att variabeln (beroende) varieras normalt.

Oberoende och identiskt distribuerat (iid) Redigera

I vissa applikationer, särskilt med tvärsnittsdata, antas ett ytterligare antagande – att alla observationer är oberoende och identiskt fördelade.Detta innebär att alla observationer är hämtade från ett slumpmässigt urval som gör alla antaganden som listats tidigare enklare och lättare att tolka. Även detta ramverk gör det möjligt att ange asymptotiska resultat (som provstorleken n → ∞), som förstås som en teoretisk möjlighet att hämta nya oberoende observationer från den data genererande processen. Listan över antaganden i detta fall är:

Tidsseriemodell Redigera

Slutliga provegenskaper Redigera

Först och främst, under det strikta antagandet om exogenitet, beräknas OLS-beräknarna β ^ {\ displaystyle \ scriptstyle {\ hat {\ beta}}} och s2 är opartiska, vilket innebär att deras förväntade värden sammanfaller med de sanna värdena för parametrarna:

E β = β, E ⁡ = σ 2. {\ displaystyle \ operatorname {E} = \ beta, \ quad \ operatorname {E} = \ sigma ^ {2}.}

Om den strikta exogeniteten inte håller (som är fallet med många tidsseriemodeller, där exogenitet antas endast med avseende på tidigare chocker men inte de framtida), då kommer dessa estimatorer att vara partiska i ändliga sampel.

Varians-kovariansmatrisen (eller helt enkelt kovariansmatrisen) för β ^ {\ displaystyle \ scriptstyle {\ hat {\ beta}}} är lika med

Var ⁡ = σ 2 (XTX) – 1 = σ 2 Q. {\ displaystyle \ operatorname {Var} = \ sigma ^ {2} (X ^ {T} X) ^ {- 1} = \ sigma ^ {2} Q.}

Speciellt standardfelet för varje koefficient β ^ j {\ displaystyle \ scriptstyle {\ hat {\ beta}} _ {j}} är lika med kvadratroten av det j: e diagonala elementet i denna matris. Uppskattningen av detta standardfel erhålls genom att ersätta den okända kvantiteten σ2 med dess uppskattning s2. Således

s. e. ^ (β ^ j) = s 2 (XTX) jj – 1 {\ displaystyle {\ widehat {\ operatorname {s. \! e.}}} ({\ hat {\ beta}} _ {j}) = { \ sqrt {s ^ {2} (X ^ {T} X) _ {jj} ^ {- 1}}}} Cov ⁡ = 0. {\ displaystyle \ operatorname {Cov} = 0.}

Gauss –Markovs teorem anger att under antagandet av sfäriska fel (det vill säga felen ska vara okorrelerade och homoscedastiska) är uppskattaren β ^ {\ displaystyle \ scriptstyle {\ hat {\ beta}}} effektiv i klassen linjära opartiska uppskattare. Detta kallas för den bästa linjära opartiska estimatorn (BLUE). Effektivitet bör förstås som om vi skulle hitta någon annan uppskattare β ~ {\ displaystyle \ scriptstyle {\ tilde {\ beta}}} som skulle vara linjär i y och opartisk, då

Var ⁡ – Var ⁡ ≥ 0 {\ displaystyle \ operatorname {Var} – \ operatorname {Var} \ geq 0}

i den meningen att detta är en icke-negativt bestämd matris. Denna teorem upprättar endast optimalitet i klassen av linjära opartiska estimatorer, vilket är ganska restriktivt. Beroende på fördelningen av feltermerna ε, kan andra, icke-linjära uppskattare ge bättre resultat än OLS.

Förutsatt att normalitet redigeras

Egenskaperna hittills är giltiga oavsett underliggande fördelningen av felvillkoren. Men om du är villig att anta att normalitetsantagandet gäller (det vill säga att ε ~ N (0, σ2In)), kan ytterligare egenskaper för OLS-uppskattarna anges.

Uppskattaren β ^ {\ displaystyle \ scriptstyle {\ hat {\ beta}}} distribueras normalt, med medelvärde och varians enligt ovan:

β ^ ∼ N (β, σ 2 (XTX) – 1) {\ displaystyle {\ hatt {\ beta}} \ \ sim \ {\ mathcal {N}} {\ big (} \ beta, \ \ sigma ^ {2} (X ^ {\ mathrm {T}} X) ^ {- 1} { \ big)}}

där Q är kofaktormatrisen. Denna uppskattare når Cramér – Rao-gränsen för modellen och är därmed optimal i klassen för alla opartiska uppskattare. Observera att i motsats till Gauss – Markov-teorem, etablerar detta resultat optimalitet bland både linjära och icke-linjära uppskattare, men endast i fallet med normalt distribuerade feltermer.

Uppskattaren s2 kommer att vara proportionell mot chi- kvadratisk fördelning:

s 2 ∼ σ 2 n – p ⋅ χ n – p 2 {\ displaystyle s ^ {2} \ \ sim \ {\ frac {\ sigma ^ {2}} {np}} \ cdot \ chi _ {np} ^ {2}}

Variansen för denna uppskattare är lika med 2σ4 / (n – p), vilket inte uppnår Cramér – Rao-gränsen för 2σ4 / n. Det visades emellertid att det inte finns några opartiska uppskattare av σ2 med mindre avvikelse än för uppskattaren s2. Om vi är villiga att tillåta förspända uppskattare och överväga klassen av uppskattare som är proportionell mot summan av kvadratrester (SSR) i modellen, kommer den bästa (i betydelsen av det genomsnittliga kvadratfelet) uppskattaren i denna klass att vara ~ σ2 = SSR / (n – p + 2), som till och med slår Cramér – Rao-bunden om det bara finns en regressor (p = 1).

Inflytelserika observationer Redigera

Huvudartikel: Inflytelserik observation
Se även: Hävstång (statistik)

Som nämnts tidigare är uppskattaren β ^ {\ displaystyle {\ hat {\ beta}}} linjär i y, vilket betyder att den representerar en linjär kombination av de beroende variablerna yi. Vikterna i denna linjära kombination är regressorernas X funktioner och är i allmänhet olika. Observationerna med höga vikter kallas inflytelserika eftersom de har en mer uttalad effekt på uppskattarens värde.

För att analysera vilka observationer som är inflytelserika tar vi bort en specifik j-tionde observation och överväger hur mycket de uppskattade kvantiteterna kommer att förändras (på samma sätt som knivmetoden). Det kan visas att förändringen i OLS-estimatorn för β kommer att vara lika med

β ^ (j) – β ^ = – 1 1 – hj (XTX) – 1 xj T ε ^ j, {\ displaystyle { \ hat {\ beta}} ^ {(j)} – {\ hat {\ beta}} = – {\ frac {1} {1-h_ {j}}} (X ^ {\ mathrm {T}} X ) ^ {- 1} x_ {j} ^ {\ mathrm {T}} {\ hat {\ varepsilon}} _ {j} \ ,,}

där hj = xjT (XTX) −1xj är j- det diagonala elementet i hattmatrisen P, och xj är vektorn för regressorer som motsvarar den j: e observationen. På samma sätt kommer förändringen i det förutspådda värdet för j: e observation som härrör från att utelämna observationen från datasetet vara lika med

y ^ j (j) – y ^ j = xj T β ^ (j) – xj T β ^ = – hj 1 – hj ε ^ j {\ displaystyle {\ hat {y}} _ {j} ^ {(j)} – {\ hat {y}} _ {j} = x_ {j} ^ { \ mathrm {T}} {\ hat {\ beta}} ^ {(j)} – x_ {j} ^ {T} {\ hat {\ beta}} = – {\ frac {h_ {j}} {1 -h_ {j}}} \, {\ hat {\ varepsilon}} _ {j}}

Från hatmatrisens egenskaper, 0 ≤ hj ≤ 1, och de summeras till p, så att i genomsnitt hj ≈ p / n. Dessa kvantiteter hj kallas hävstångseffekter och observationer med hög hj kallas hävstångspunkter. Observationerna med hög hävstång bör vanligtvis granskas mer noggrant, om de är felaktiga eller avvikande eller på annat sätt atypiska för resten av datasetet.

Partitionerad regressionEdit

Ibland kan variablerna och motsvarande parametrar i regressionen logiskt delas in i två grupper, så att regressionen tar form

y = X 1 β 1 + X 2 β 2 + ε, {\ displaystyle y = X_ {1 } \ beta _ {1} + X_ {2} \ beta _ {2} + \ varepsilon,}

där X1 och X2 har dimensioner n × p1, n × p2 och β1, β2 är p1 × 1 och p2 × 1 vektorer, med p1 + p2 = p.

M 1 y = M 1 X 2 β 2 + η, {\ displaystyle M_ {1} y = M_ {1} X_ {2} \ beta _ {2 } + \ eta \ ,,}

där M1 är utrotningsmatrisen för regressorer X1.

Satsen kan användas för att fastställa ett antal teoretiska resultat. Till exempel, att ha en regression med en konstant och en annan regressor motsvarar att subtrahera medel från den beroende variabeln och regressorn och sedan köra regressionen för de avsedda variablerna men utan den konstanta termen.

Begränsad estimationEdit

Huvudartikel: Ridge regression

Antag att det är känt att koefficienterna i regressionen uppfyller ett system av linjära ekvationer

A: QT β = c, {\ displaystyle En \ kolon \ quad Q ^ {T} \ beta = c, \,}

där Q är ap × q matris med full rang, och c är aq × 1 vektor av kända konstanter, där q < s. I detta fall är den minsta kvadratuppskattningen ekvivalent med att minimera summan av kvadratrester av modellen som är föremål för begränsningen A. Den begränsade minsta kvadraten (CLS) uppskattaren kan ges med en uttrycklig formel:

β ^ c = β ^ – (XTX) – 1 Q (QT (XTX) – 1 Q) – 1 (QT β ^ – c). {\ displaystyle {\ hat {\ beta}} ^ {c} = {\ hat {\ beta}} – (X ^ {T} X) ^ {- 1} Q {\ Big (} Q ^ {T} ( X ^ {T} X) ^ {- 1} Q {\ Big)} ^ {- 1} (Q ^ {T} {\ hat {\ beta}} – c).}

Detta uttryck för de begränsade estimator är giltig så länge matrisen XTX är inverterbar. Det antogs från början av denna artikel att denna matris är av full rang, och det noterades att när rangvillkoret misslyckas kommer β inte att identifieras. Det kan dock hända att addering av begränsningen A gör β identifierbar, i vilket fall man vill hitta formeln för uppskattaren. Uppskattaren är lika med

β ^ c = R (RTXTXR) – 1 RTXT y + (I p – R (RTXTXR) – 1 RTXTX) Q (QTQ) – 1 c, {\ displaystyle {\ hat {\ beta}} ^ {c} = R (R ^ {T} X ^ {T} XR) ^ {- 1} R ^ {T} X ^ {T} y + {\ Big (} I_ {p} -R ( R ^ {T} X ^ {T} XR) ^ {- 1} R ^ {T} X ^ {T} X {\ Big)} Q (Q ^ {T} Q) ^ {- 1} c,}

där R är ap × (p – q) matris så att matrisen är icke-singular, och RTQ = 0. En sådan matris kan alltid hittas, även om den i allmänhet inte är unik. Den andra formeln sammanfaller med den första om XTX är inverterbar.

Stora provegenskaper Redigera

De minsta kvadraterna uppskattningar är punktuppskattningar av de linjära regressionsmodellparametrarna β. Men i allmänhet vill vi också veta hur nära dessa uppskattningar kan vara till de sanna värdena på parametrar. Med andra ord vill vi konstruera intervalluppskattningarna.

Eftersom vi inte har gjort något antagande om fördelningen av felterm εi är det omöjligt att sluta fördelningen av beräknarna β ^ {\ displaystyle {\ hat {\ beta}}} och σ ^ 2 {\ displaystyle {\ hat {\ sigma}} ^ {2}}. Ändå kan vi tillämpa den centrala gränssatsen för att härleda deras asymptotiska egenskaper när provstorlek n går till Medan provstorleken nödvändigtvis är ändlig är det vanligt att anta att n är ”tillräckligt stor” så att den verkliga fördelningen av OLS-uppskattaren ligger nära dess asymptotiska gräns.

(β ^ – β) → d N (0, σ 2 Q xx – 1), {\ displaystyle ({\ hat {\ beta}} – \ beta) \ {\ xrightarrow {d}} \ { \ mathcal {N}} {\ big (} 0, \; \ sigma ^ {2} Q_ {xx} ^ {- 1} {\ big)},}

där Q xx = XTX. {\ displaystyle Q_ {xx} = X ^ {T} X.}

IntervalsEdit

Huvudartiklar: Konfidensintervall och förutsägelsesintervall

Använda denna asymptotiska fördelning , ungefärliga dubbelsidiga konfidensintervall för den j: e komponenten i vektorn β ^ {\ displaystyle {\ hat {\ beta}}} kan konstrueras som

β j ∈ jj] {\ displaystyle \ beta _ { j} \ i {\ bigg _ {jj}}} \ {\ bigg]}} vid konfidensnivån 1 – α,

där q betecknar kvantilfunktionen för standardnormalfördelning och jj är den j: e diagonalen element i en matris.

På samma sätt är den minsta kvadratuppskattaren för σ2 också konsekvent och asymptotiskt normal (förutsatt att det fjärde ögonblicket av εi existerar) med begränsande fördelning

(σ ^ 2 – σ 2 ) → d N (0, E ⁡ – σ 4). {\ displaystyle ({\ hat {\ sigma}} ^ {2} – \ sigma ^ {2}) \ {\ xrightarrow {d}} \ {\ mathcal {N}} \ left (0, \; \ operatorname { E} \ left- \ sigma ^ {4} \ right).} (Y ^ 0 – y 0) → d N (0, σ 2 x 0 TQ xx – 1 x 0), {\ displaystyle \ left ({\ hatt {y}} _ {0} -y_ {0} \ höger) \ {\ xrightarrow {d}} \ {\ mathcal {N}} \ left (0, \; \ sigma ^ {2} x_ {0} ^ {\ mathrm {T}} Q_ {xx} ^ {- 1} x_ {0} \ right),}

vilket gör det möjligt att konstruera konfidensintervall för medelsvar y 0 {\ displaystyle y_ {0}} :

y 0 ∈ {\ displaystyle y_ {0} \ in \ left} på konfidensnivån 1 – α.

Hypotes testingEdit

Huvudartikel: Hypotes testing

Detta avsnitt behöver utvidgas. Du kan hjälpa till genom att lägga till den. (Februari 2017)

Två hypotesprov används särskilt ofta. Först vill man veta om den uppskattade regressionsekvationen är bättre än att helt enkelt förutsäga att alla värden för svarsvariabeln är lika med dess samplingsmedelvärde (om inte, sägs den inte ha någon förklarande kraft). Nollhypotesen om inget förklarande värde för den uppskattade regressionen testas med hjälp av ett F-test. Om det beräknade F-värdet visar sig vara tillräckligt stort för att överstiga dess kritiska värde för den förutbestämda signifikansnivån, avvisas nollhypotesen och den alternativa hypotesen, att regressionen har förklarande kraft, accepteras. Annars accepteras nollhypotesen om ingen förklarande kraft.

För det andra vill man för varje förklarande variabel av intresse veta om dess uppskattade koefficient skiljer sig avsevärt från noll – det vill säga om denna specifika förklarande variabel i faktum har förklarande kraft när det gäller att förutsäga svarsvariabeln. Här är nollhypotesen att den verkliga koefficienten är noll. Denna hypotes testas genom att beräkna koefficienten t-statistik, eftersom förhållandet mellan koefficientuppskattningen och dess standardfel. Om t-statistiken är större än ett förutbestämt värde avvisas nollhypotesen och variabeln visar sig ha förklarande kraft, med dess koefficient som skiljer sig väsentligt från noll. Annars accepteras nollhypotesen om ett nollvärde för den sanna koefficienten.

Dessutom används Chow-testet för att testa om två delprover båda har samma underliggande verkliga koefficientvärden. Summan av kvadratrester av regressioner på var och en av delmängderna och på den kombinerade datamängden jämförs genom att beräkna en F-statistik; om detta överstiger ett kritiskt värde, är nollhypotesen att ingen skillnad mellan de två delmängderna avvisas, annars accepteras det.

Lämna ett svar

Din e-postadress kommer inte publiceras. Obligatoriska fält är märkta *