Gewone kleinste kwadraten

Veronderstellingen Bewerken

Zie ook: Lineaire regressie § Veronderstellingen

Er zijn verschillende raamwerken waarin het lineaire regressiemodel kan worden gegoten om de OLS-techniek toepasbaar te maken. Elk van deze instellingen levert dezelfde formules en dezelfde resultaten op. Het enige verschil is de interpretatie en de aannames die moeten worden opgelegd om de methode zinvolle resultaten te geven. De keuze van het toepasselijke raamwerk hangt grotendeels af van de aard van de beschikbare gegevens en van de gevolgtrekkingstaak die moet worden uitgevoerd.

Een van de verschillen in interpretatie is of de regressoren als willekeurig moeten worden behandeld. variabelen, of als vooraf gedefinieerde constanten. In het eerste geval (random design) worden de regressoren xi willekeurig en bemonsterd samen met de yi s van een populatie, zoals in een observationeel onderzoek. Deze benadering maakt een meer natuurlijke studie mogelijk van de asymptotische eigenschappen van de schatters. In de andere interpretatie (vast ontwerp), de regressoren X worden behandeld als bekende constanten die zijn ingesteld door een ontwerp, en y wordt voorwaardelijk bemonsterd op de waarden van X zoals in een experiment. Voor praktische doeleinden is dit onderscheid vaak onbelangrijk, aangezien schatting en gevolgtrekking wordt uitgevoerd terwijl conditionering op X. Alle resultaten vermeld in dit artikel vallen binnen het random design framework.

Klassiek lineair regressiemodel Bewerken

Het klassieke model richt zich op de “eindige steekproef” schatting en gevolgtrekking, wat betekent dat het aantal waarnemingen n vast ligt. Dit staat in contrast met de andere benaderingen, die het asymptotische gedrag van OLS bestuderen, en waarin het aantal waarnemingen tot oneindig mag groeien.

De onmiddellijke consequentie De essentie van de aanname van exogeniteit is dat de fouten een gemiddelde nul hebben: E = 0, en dat de regressors niet gecorreleerd zijn met de fouten: E = 0. De aanname van exogeniteit is cruciaal voor de OLS-theorie. Als het zo is, worden de regressievariabelen exogeen genoemd. Als dit niet het geval is, worden die regressoren die zijn gecorreleerd met de foutterm endogeen genoemd, en worden de OLS-schattingen ongeldig. In dat geval kan de methode van instrumentele variabelen worden gebruikt om inferenties uit te voeren. Meestal wordt er ook van uitgegaan dat de regressoren eindige momenten hebben tot tenminste het tweede moment. Dan is de matrix Qxx = E eindig en positief semi-definitief. Wanneer deze aanname wordt geschonden, worden de regressoren lineair afhankelijk of perfect multicollineair genoemd. In dat geval wordt de waarde van de regressiecoëfficiënt β kan niet worden geleerd, hoewel voorspelling van y-waarden nog steeds mogelijk is voor nieuwe waarden van de regressoren die in dezelfde lineair afhankelijke deelruimte liggen.

  • Sferische fouten: Var ⁡ = σ 2 I n, {\ displaystyle \ operatornaam {Var} = \ sigma ^ {2} I_ {n},}

waarbij In de identiteitsmatrix is in dimensie n, en σ2 een parameter is die de variantie van elke waarneming bepaalt. Dit σ2 wordt in het model beschouwd als een hinderlijke parameter ough meestal wordt het ook geschat. Als deze aanname wordt geschonden, zijn de OLS-schattingen nog steeds geldig, maar niet langer efficiënt. Het is gebruikelijk om deze aanname in twee delen op te splitsen:

  • Homoscedasticiteit: E = σ2, wat betekent dat de foutterm dezelfde variantie σ2 heeft in elke waarneming. Wanneer dit vereiste wordt geschonden, wordt dit heteroscedasticiteit genoemd, in dat geval zou een efficiëntere schatter de kleinste kwadraten zijn. Als de fouten een oneindige variantie hebben, zullen de OLS-schattingen ook een oneindige variantie hebben (hoewel ze volgens de wet van grote getallen niettemin naar de werkelijke waarden zullen neigen, zolang de fouten een gemiddelde waarde van nul hebben). In dit geval worden robuuste schattingstechnieken aanbevolen.
  • Geen autocorrelatie: de fouten zijn niet gecorreleerd tussen waarnemingen: E = 0 voor i ≠ j. Deze aanname kan worden geschonden in de context van tijdreeksgegevens, paneldata, clustermonsters, hiërarchische gegevens, gegevens van herhaalde metingen, longitudinale gegevens en andere gegevens met afhankelijkheden. In dergelijke gevallen biedt gegeneraliseerde kleinste kwadraten een beter alternatief dan de OLS. Een andere uitdrukking voor autocorrelatie is seriële correlatie.

Deze aanname is niet nodig voor de validiteit van de OLS-methode, hoewel bepaalde aanvullende eigenschappen van eindige steekproeven kunnen worden vastgesteld in het geval dat dit het geval is (vooral op het gebied van hypotheses testen). Ook wanneer de fouten normaal zijn, is de OLS-schatter gelijk aan de maximale waarschijnlijkheidsschatter (MLE), en daarom asymptotisch efficiënt in de klasse van alle reguliere schatters. Belangrijk is dat de aanname van normaliteit alleen van toepassing is op de fouttermen; In tegenstelling tot een veel voorkomende misvatting, hoeft de responsvariabele (afhankelijke) niet normaal verdeeld te zijn.

Onafhankelijk en identiek verdeeld (iid) Bewerken

In sommige toepassingen, vooral met cross-sectionele data, wordt een extra aanname opgelegd – dat alle waarnemingen onafhankelijk en identiek verdeeld zijn.Dit betekent dat alle waarnemingen uit een willekeurige steekproef worden gehaald, waardoor alle eerder genoemde aannames eenvoudiger en gemakkelijker te interpreteren zijn. Dit raamwerk maakt het ook mogelijk om asymptotische resultaten te vermelden (zoals de steekproefomvang n → ∞), die worden opgevat als een theoretische mogelijkheid om nieuwe onafhankelijke waarnemingen uit het gegevensgeneratieproces te halen. De lijst met aannames in dit geval is:

Tijdreeksmodel Bewerken

Eindige steekproefeigenschappen Bewerken

Allereerst onder de strikte exogeniteitsveronderstelling, de OLS-schatters β ^ {\ displaystyle \ scriptstyle {\ hat {\ beta}}} en s2 zijn onbevooroordeeld, wat betekent dat hun verwachte waarden samenvallen met de werkelijke waarden van de parameters:

E ⁡ = β, E ⁡ = σ 2. {\ displaystyle \ operatorname {E} = \ beta, \ quad \ operatorname {E} = \ sigma ^ {2}.}

Als de strikte exogeniteit niet geldt (zoals het geval is bij veel tijdreeksmodellen, waarbij exogeniteit wordt alleen aangenomen met betrekking tot de schokken uit het verleden maar niet de toekomstige), dan zullen deze schatters vertekend zijn in eindige steekproeven.

De variantie-covariantiematrix (of simpelweg covariantiematrix) van β ^ {\ displaystyle \ scriptstyle {\ hat {\ beta}}} is gelijk aan

Var ⁡ = σ 2 (XTX) – 1 = σ 2 Q. {\ displaystyle \ operatorname {Var} = \ sigma ^ {2} (X ^ {T} X) ^ {- 1} = \ sigma ^ {2} Q.}

Met name de standaardfout van elke coëfficiënt β ^ j {\ displaystyle \ scriptstyle {\ hat {\ beta}} _ {j}} is gelijk aan de vierkantswortel van het j-de diagonale element van deze matrix. De schatting van deze standaardfout wordt verkregen door de onbekende grootheid σ2 te vervangen door zijn schatting s2. Dus,

s. e. ^ (β ^ j) = s 2 (XTX) jj – 1 {\ displaystyle {\ widehat {\ operatorname {s. \! e.}}} ({\ hat {\ beta}} _ {j}) = { \ sqrt {s ^ {2} (X ^ {T} X) _ {jj} ^ {- 1}}}} Cov ⁡ = 0. {\ displaystyle \ operatornaam {Cov} = 0.}

De Gauss De stelling van Markov stelt dat onder de aanname van sferische fouten (dat wil zeggen dat de fouten niet-gecorreleerd en homoscedastisch moeten zijn) de schatter β ^ {\ displaystyle \ scriptstyle {\ hat {\ beta}}} efficiënt is in de klasse van lineaire zuivere schatters. Dit wordt de beste lineaire zuivere schatter (BLAUW) genoemd. Efficiëntie moet worden opgevat alsof we een andere schatter β ~ {\ displaystyle \ scriptstyle {\ tilde {\ beta}}} zouden vinden die lineair zou zijn in y en onbevooroordeeld, en dan

Var ⁡ – Var ⁡ ≥ 0 {\ displaystyle \ operatorname {Var} – \ operatorname {Var} \ geq 0}

in die zin dat dit een niet-negatieve definitieve matrix is. Deze stelling stelt alleen optimaliteit vast in de klasse van lineaire zuivere schatters, die vrij restrictief is. Afhankelijk van de verdeling van de fouttermen ε, kunnen andere, niet-lineaire schatters betere resultaten opleveren dan OLS.

Uitgaande van normaliteit Bewerken

De tot dusver vermelde eigenschappen zijn allemaal geldig, ongeacht de onderliggende verdeling van de fouttermen. Als u echter bereid bent aan te nemen dat de normaliteitsaanname geldt (dat wil zeggen dat ε ~ N (0, σ2In)), dan kunnen aanvullende eigenschappen van de OLS-schatters worden vermeld.

De schatter β ^ {\ displaystyle \ scriptstyle {\ hat {\ beta}}} is normaal verdeeld, met gemiddelde en variantie zoals eerder gegeven:

β ^ ∼ N (β, σ 2 (XTX) – 1) {\ displaystyle {\ hat {\ beta}} \ \ sim \ {\ mathcal {N}} {\ big (} \ beta, \ \ sigma ^ {2} (X ^ {\ mathrm {T}} X) ^ {- 1} { \ big)}}

waarbij Q de cofactormatrix is. Deze schatter bereikt de Cramér-Rao die voor het model is bepaald, en is dus optimaal in de klasse van alle zuivere schatters. Merk op dat, in tegenstelling tot de stelling van Gauss-Markov, dit resultaat optimaliteit bewerkstelligt onder zowel lineaire als niet-lineaire schatters, maar alleen in het geval van normaal verdeelde fouttermen.

De schatter s2 zal evenredig zijn met het chi- kwadraatverdeling:

s 2 ∼ σ 2 n – p ⋅ χ n – p 2 {\ displaystyle s ^ {2} \ \ sim \ {\ frac {\ sigma ^ {2}} {np}} \ cdot \ chi _ {np} ^ {2}}

De variantie van deze schatter is gelijk aan 2σ4 / (n – p), die de grens van Cramér – Rao van 2σ4 / n niet bereikt. Er werd echter aangetoond dat er geen zuivere schatters zijn van σ2 met een kleinere variantie dan die van de schatter s2. Als we bereid zijn om vertekende schatters toe te staan, en rekening houden met de klasse van schatters die evenredig is met de som van de kwadratische residuen (SSR) van het model, dan is de beste (in de zin van de gemiddelde kwadratische fout) schatter in deze klasse ~ σ2 = SSR / (n – p + 2), die zelfs de Cramér-Rao-grens verslaat in het geval dat er maar één regressor is (p = 1).

Invloedrijke observatiesEdit

Hoofdartikel: Invloedrijke observatie
Zie ook: Hefboomwerking (statistieken)

Zoals eerder vermeld, is de schatter β ^ {\ displaystyle {\ hat {\ beta}}} lineair in y, wat betekent dat het een lineaire combinatie van de afhankelijke variabelen yi vertegenwoordigt. De gewichten in deze lineaire combinatie zijn functies van de regressors X, en zijn over het algemeen ongelijk. De waarnemingen met hoge gewichten worden invloedrijk genoemd omdat ze een meer uitgesproken effect hebben op de waarde van de schatter.

Om te analyseren welke waarnemingen invloedrijk zijn, verwijderen we een specifieke j-de waarneming en bekijken we hoeveel de geschatte hoeveelheden zullen veranderen (vergelijkbaar met de jackknife-methode). Aangetoond kan worden dat de verandering in de OLS-schatter voor β gelijk zal zijn aan

β ^ (j) – β ^ = – 1 1 – hj (XTX) – 1 xj T ε ^ j, {\ displaystyle { \ hat {\ beta}} ^ {(j)} – {\ hat {\ beta}} = – {\ frac {1} {1-h_ {j}}} (X ^ {\ mathrm {T}} X ) ^ {- 1} x_ {j} ^ {\ mathrm {T}} {\ hat {\ varepsilon}} _ {j} \ ,,}

waarbij hj = xjT (XTX) −1xj de j- het diagonale element van de hoedmatrix P, en xj is de vector van regressoren die overeenkomen met de j-de waarneming. Evenzo zal de verandering in de voorspelde waarde voor j-de waarneming als gevolg van het weglaten van die waarneming uit de dataset gelijk zijn aan

y ^ j (j) – y ^ j = xj T β ^ (j) – xj T β ^ = – hj 1 – hj ε ^ j {\ displaystyle {\ hat {y}} _ {j} ^ {(j)} – {\ hat {y}} _ {j} = x_ {j} ^ { \ mathrm {T}} {\ hat {\ beta}} ^ {(j)} – x_ {j} ^ {T} {\ hat {\ beta}} = – {\ frac {h_ {j}} {1 -h_ {j}}} \, {\ hat {\ varepsilon}} _ {j}}

Uit de eigenschappen van de hatmatrix, 0 ≤ hj ≤ 1, en ze zijn opgeteld tot p, zodat gemiddeld hj ≈ p / n. Deze hoeveelheden hj worden de hefbomen genoemd, en waarnemingen met hoge hj worden hefboompunten genoemd. Gewoonlijk zouden de waarnemingen met een hoge hefboomwerking zorgvuldiger moeten worden onderzocht, voor het geval ze fout zijn, of uitschieters, of op een andere manier atypisch zijn voor de rest van de dataset.

Gepartitioneerde regressie Bewerken

Soms kunnen de variabelen en bijbehorende parameters in de regressie logisch in twee groepen worden opgesplitst, zodat de regressie vorm krijgt

y = X 1 β 1 + X 2 β 2 + ε, {\ displaystyle y = X_ {1 } \ beta _ {1} + X_ {2} \ beta _ {2} + \ varepsilon,}

waarbij X1 en X2 afmetingen hebben n × p1, n × p2, en β1, β2 zijn p1 × 1 en p2 × 1 vectoren, met p1 + p2 = p.

M 1 y = M 1 X 2 β 2 + η, {\ displaystyle M_ {1} y = M_ {1} X_ {2} \ beta _ {2 } + \ eta \ ,,}

waarbij M1 de annihilator-matrix is voor regressoren X1.

De stelling kan worden gebruikt om een aantal theoretische resultaten vast te stellen. Het hebben van een regressie met een constante en een andere regressor is bijvoorbeeld gelijk aan het aftrekken van de gemiddelden van de afhankelijke variabele en de regressor en vervolgens het uitvoeren van de regressie voor de gedemiddelde variabelen, maar zonder de constante term.

Beperkt schattingEdit

Hoofdartikel: Ridge-regressie

Stel dat het bekend is dat de coëfficiënten in de regressie voldoen aan een stelsel van lineaire vergelijkingen

A: QT β = c, {\ displaystyle A \ colon \ quad Q ^ {T} \ beta = c, \,}

waarbij Q ap × q matrix van volledige rang is, en c aq × 1 vector van bekende constanten, waarbij q < blz. In dit geval is de schatting van de kleinste kwadraten equivalent aan het minimaliseren van de som van de kwadraten van het model onder voorbehoud van de beperking A. De schatter voor de beperkte kwadraten (CLS) kan worden gegeven door een expliciete formule:

β ^ c = β ^ – (XTX) – 1 Q (QT (XTX) – 1 Q) – 1 (QT β ^ – c). {\ displaystyle {\ hat {\ beta}} ^ {c} = {\ hat {\ beta}} – (X ^ {T} X) ^ {- 1} Q {\ Big (} Q ^ {T} ( X ^ {T} X) ^ {- 1} Q {\ Big)} ^ {- 1} (Q ^ {T} {\ hat {\ beta}} – c).}

Deze uitdrukking voor de beperkte schatter is geldig zolang de matrix XTX inverteerbaar is. Vanaf het begin van dit artikel werd aangenomen dat deze matrix de volledige rangorde heeft, en er werd opgemerkt dat β niet identificeerbaar zal zijn als de voorwaarde voor rangorde mislukt. Het kan echter gebeuren dat het toevoegen van de restrictie A β identificeerbaar maakt, in dat geval zou men de formule voor de schatter willen vinden. De schatter is gelijk aan

β ^ c = R (RTXTXR) – 1 RTXT y + (I p – R (RTXTXR) – 1 RTXTX) Q (QTQ) – 1 c, {\ displaystyle {\ hat {\ beta}} ^ {c} = R (R ^ {T} X ^ {T} XR) ^ {- 1} R ^ {T} X ^ {T} y + {\ Big (} I_ {p} -R ( R ^ {T} X ^ {T} XR) ^ {- 1} R ^ {T} X ^ {T} X {\ Big)} Q (Q ^ {T} Q) ^ {- 1} c,}

waarbij R ap × (p – q) matrix is, zodat de matrix niet singulier is, en RTQ = 0. Zon matrix is altijd te vinden, hoewel deze over het algemeen niet uniek is. De tweede formule valt samen met de eerste in het geval dat XTX inverteerbaar is.

Eigenschappen van grote steekproeven Bewerken

De kleinste-kwadratenschatters zijn puntschattingen van de lineaire regressiemodelparameters β. Over het algemeen willen we echter ook weten hoe dicht die schattingen kunnen liggen bij de werkelijke waarden van parameters. Met andere woorden, we willen de intervalschattingen construeren.

Aangezien we “geen aannames hebben gedaan over de verdeling van foutterm εi, is het onmogelijk om de verdeling van de schatters β ^ {\ displaystyle {\ hat {\ beta}}} en σ ^ 2 {\ displaystyle {\ hat {\ sigma}} ^ {2}}. Desalniettemin kunnen we de centrale limietstelling toepassen om hun asymptotische eigenschappen af te leiden, aangezien de steekproefomvang n naar oneindig Hoewel de steekproefomvang noodzakelijkerwijs eindig is, is het gebruikelijk om aan te nemen dat n “groot genoeg” is, zodat de werkelijke verdeling van de OLS-schatter dicht bij zijn asymptotische limiet ligt.

(β ^ – β) → d N (0, σ 2 Q xx – 1), {\ displaystyle ({\ hat {\ beta}} – \ beta) \ {\ xrightarrow {d}} \ { \ mathcal {N}} {\ big (} 0, \; \ sigma ^ {2} Q_ {xx} ^ {- 1} {\ big)},}

waarbij Q xx = XTX. {\ displaystyle Q_ {xx} = X ^ {T} X.}

IntervalsEdit

Hoofdartikelen: betrouwbaarheidsinterval en voorspellingsinterval

Deze asymptotische verdeling gebruiken , benaderde tweezijdige betrouwbaarheidsintervallen voor de j-de component van de vector β ^ {\ displaystyle {\ hat {\ beta}}} kunnen worden geconstrueerd als

β j ∈ jj] {\ displaystyle \ beta _ { j} \ in {\ bigg _ {jj}}} \ {\ bigg]}} op het 1 – α betrouwbaarheidsniveau,

waarbij q de kwantielfunctie van de standaard normale verdeling aangeeft, en jj de j-de diagonaal is element van een matrix.

Evenzo is de kleinste-kwadraten-schatter voor σ2 ook consistent en asymptotisch normaal (op voorwaarde dat het vierde moment van εi bestaat) met een beperkende verdeling

(σ ^ 2 – σ 2 ) → d N (0, E ⁡ – σ 4). {\ displaystyle ({\ hat {\ sigma}} ^ {2} – \ sigma ^ {2}) \ {\ xrightarrow {d}} \ {\ mathcal {N}} \ left (0, \; \ operatorname { E} \ left- \ sigma ^ {4} \ right).} (Y ^ 0 – y 0) → d N (0, σ 2 x 0 TQ xx – 1 x 0), {\ displaystyle \ left ({\ hoed {y}} _ {0} -y_ {0} \ right) \ {\ xrightarrow {d}} \ {\ mathcal {N}} \ left (0, \; \ sigma ^ {2} x_ {0} ^ {\ mathrm {T}} Q_ {xx} ^ {- 1} x_ {0} \ right),}

waarmee betrouwbaarheidsintervallen kunnen worden geconstrueerd voor de gemiddelde respons y 0 {\ displaystyle y_ {0}} :

y 0 ∈ {\ displaystyle y_ {0} \ in \ left} op het betrouwbaarheidsniveau 1 – α.

HypothesetestenEdit

Hoofdartikel: Hypothesetesten

Deze sectie moet worden uitgebreid. U kunt helpen door er iets aan toe te voegen. (Februari 2017)

Twee hypothesetests worden bijzonder veel gebruikt. Ten eerste wil men weten of de geschatte regressievergelijking beter is dan simpelweg te voorspellen dat alle waarden van de responsvariabele gelijk zijn aan het steekproefgemiddelde (zo niet, dan zou deze geen verklarende kracht hebben). De nulhypothese van geen verklarende waarde van de geschatte regressie wordt getest met een F-test. Als de berekende F-waarde groot genoeg blijkt te zijn om de kritische waarde voor het vooraf gekozen significantieniveau te overschrijden, wordt de nulhypothese verworpen en wordt de alternatieve hypothese, dat de regressie verklarende kracht heeft, geaccepteerd. Anders wordt de nulhypothese van geen verklarende kracht geaccepteerd.

Ten tweede wil men voor elke verklarende variabele die van belang is, weten of de geschatte coëfficiënt significant verschilt van nul, dat wil zeggen of deze specifieke verklarende variabele in feit heeft verklarende kracht bij het voorspellen van de responsvariabele. Hier is de nulhypothese dat de ware coëfficiënt nul is. Deze hypothese wordt getest door de coëfficiënt s t-statistiek te berekenen, als de verhouding tussen de coëfficiëntschatting en de standaardfout. Als de t-statistiek groter is dan een vooraf bepaalde waarde, wordt de nulhypothese verworpen en blijkt dat de variabele verklarende kracht, waarbij de coëfficiënt significant verschilt van nul. Anders wordt de nulhypothese van een nulwaarde van de werkelijke coëfficiënt geaccepteerd.

Daarnaast wordt de Chow-test gebruikt om te testen of twee submonsters beide de dezelfde onderliggende werkelijke coëfficiëntwaarden. De som van de kwadratische residuen van regressies op elk van de subsets en op de gecombineerde dataset worden vergeleken door een F-statistiek te berekenen. Als deze een kritische waarde overschrijdt, wordt de nulhypothese van geen verschil tussen de twee subsets wordt afgewezen; anders wordt het geaccepteerd.

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *