Vanlige minste kvadrater

november 13, 2020

Vanlige minste kvadrater

Antagelser Rediger

Se også: Lineær regresjon § Antakelser

Det er flere forskjellige rammer der den lineære regresjonsmodellen kan kastes inn for å gjøre OLS-teknikken anvendelig. Hver av disse innstillingene gir de samme formlene og de samme resultatene. Den eneste forskjellen er tolkningen og forutsetningene som må pålegges for at metoden skal gi meningsfylte resultater. Valget av det gjeldende rammeverket avhenger hovedsakelig av innholdet av data som er i hånden, og av den slutningsoppgaven som må utføres.

En av skillelinjene i tolkningen er om regressorene skal behandles som tilfeldige variabler, eller som forhåndsdefinerte konstanter. I det første tilfellet (tilfeldig design) er regressorene xi tilfeldige og samplet sammen med yiene fra noen populasjoner, som i en observasjonsstudie. Denne tilnærmingen gir mulighet for mer naturlig studie av estimaternes asymptotiske egenskaper. I den andre tolkningen (fast design), blir regressorene X behandlet som kjente konstanter satt av et design, og y samples betinget av verdiene til X som i et eksperiment. For praktiske formål er dette skillet ofte uviktig, siden estimering og slutning utføres mens kondisjonering på X. Alle resultatene som er oppgitt i denne artikkelen, er innenfor rammene for tilfeldig design.

Klassisk lineær regresjonsmodellEdit

Den klassiske modellen fokuserer på estimatet og slutningen av «endelig prøve», som betyr at antall observasjoner n er fast. Dette står i kontrast til de andre tilnærmingene, som studerer den asymptotiske oppførselen til OLS, og hvor antall observasjoner får vokse til uendelig.

Den umiddelbare konseque nce av antagelsen om eksogenitet er at feilene har middel null: E = 0, og at regressorene ikke er korrelert med feilene: E = 0. Eksogenitetsantakelsen er kritisk for OLS-teorien. Hvis det holder, kalles regressorvariablene eksogent. Hvis det ikke gjør det, kalles de regressorene som er korrelert med feiluttrykket endogene, og deretter blir OLS-estimatene ugyldige. I slike tilfeller kan metoden for instrumentale variabler brukes til å utføre slutning. Vanligvis antas det også at regressorene har endelige øyeblikk opp til minst andre øyeblikk. Da er matrisen Qxx = E endelig og positiv semidefinit. Når denne antagelsen brytes, kalles regressorene lineært avhengig eller perfekt multikollinær. I et slikt tilfelle verdien av regresjonskoeffisient β kan ikke læres, selv om prediksjon av y-verdier fremdeles er mulig for nye verdier av regressorene som ligger i samme lineært avhengige underområde.

Sfæriske feil: Var ⁡ = σ 2 I n, {\ displaystyle \ operatorname {Var} = \ sigma ^ {2} I_ {n},}

der In er identitetsmatrisen i dimensjon n, og σ2 er en parameter som bestemmer variansen til hver observasjon. σ2 betraktes som en generende parameter i modellen, alth burde det også anslås. Hvis denne antagelsen brytes, er OLS-estimatene fortsatt gyldige, men ikke lenger effektive. Det er vanlig å dele denne antagelsen i to deler:

Homoscedasticity: E = σ2, noe som betyr at feiluttrykket har samme varians σ2 i hver observasjon. Når dette kravet blir brutt, kalles dette heteroscedasticity, i et slikt tilfelle vil en mer effektiv estimator vektes minste kvadrat. Hvis feilene har uendelig variasjon, vil OLS-estimatene også ha uendelig variasjon (selv om de i følge tallene ikke desto mindre vil ha en tendens til de sanne verdiene så lenge feilene har null gjennomsnitt). I dette tilfellet anbefales robuste estimeringsteknikker.
Ingen autokorrelasjon: feilene er ikke korrelert mellom observasjoner: E = 0 for i ≠ j. Denne antagelsen kan brytes i sammenheng med tidsseriedata, paneldata, klyngeprøver, hierarkiske data, gjentatte måledata, langsgående data og andre data med avhengighet. I slike tilfeller gir generaliserte minste kvadrater et bedre alternativ enn OLS. Et annet uttrykk for autokorrelasjon er seriell korrelasjon.

Denne antagelsen er ikke nødvendig for gyldigheten av OLS-metoden, selv om visse ytterligere endelige prøveegenskaper kan etableres i tilfelle når det gjør det (spesielt i området hypotesetesting). Også når feilene er normale, tilsvarer OLS-estimatoren maksimal sannsynlighetsestimator (MLE), og derfor er den asymptotisk effektiv i klassen til alle vanlige estimatorer. Det er viktig at normalforutsetningen bare gjelder feilbetingelsene; i motsetning til en populær misforståelse, kreves ikke svarvariabelen (normal).

Uavhengig og identisk distribuert (iid) Rediger

I noen applikasjoner, spesielt med tverrsnittsdata, pålegges en ekstra antagelse – at alle observasjoner er uavhengige og identisk distribuerte.Dette betyr at alle observasjoner er hentet fra et tilfeldig utvalg som gjør alle antatte antagelser enklere og lettere å tolke. Også dette rammeverket tillater en å oppgi asymptotiske resultater (som prøvestørrelsen n → ∞), som forstås som en teoretisk mulighet for å hente nye uavhengige observasjoner fra data genereringsprosessen. Listen over antakelser i dette tilfellet er:

Tidsseriemodell Rediger

Endelige prøveegenskaper Rediger

Først og fremst under OL-estimatene β ^ under den strenge antagelsen {\ displaystyle \ scriptstyle {\ hat {\ beta}}} og s2 er upartiske, noe som betyr at deres forventede verdier sammenfaller med de sanne verdiene til parameterne:

E ⁡ = β, E ⁡ = σ 2. {\ displaystyle \ operatorname {E} = \ beta, \ quad \ operatorname {E} = \ sigma ^ {2}.}

Hvis den strenge eksogeniteten ikke holder (som tilfellet er med mange tidsseriemodeller, hvor eksogenitet antas bare med hensyn til tidligere sjokk, men ikke de fremtidige), så vil disse estimatorene være forutinntatt i endelige prøver.

Varians-kovariansmatrisen (eller bare kovariansmatrisen) til β ^ {\ displaystyle \ scriptstyle {\ hat {\ beta}}} er lik

Var ⁡ = σ 2 (XTX) – 1 = σ 2 Q. {\ displaystyle \ operatorname {Var} = \ sigma ^ {2} (X ^ {T} X) ^ {- 1} = \ sigma ^ {2} Q.}

Spesielt standardfeilen til hver koeffisient β ^ j {\ displaystyle \ scriptstyle {\ hat {\ beta}} _ {j}} er lik kvadratroten til det j-th diagonale elementet i denne matrisen. Estimatet for denne standardfeilen oppnås ved å erstatte den ukjente størrelsen σ2 med estimatet s2. Dermed

s. e. ^ (β ^ j) = s 2 (XTX) jj – 1 {\ displaystyle {\ widehat {\ operatorname {s. \! e.}}} ({\ hat {\ beta}} _ {j}) = { \ sqrt {s ^ {2} (X ^ {T} X) _ {jj} ^ {- 1}}}} Cov ⁡ = 0. {\ displaystyle \ operatorname {Cov} = 0.}

Gauss –Markov-teorem sier at under antagelsen om sfæriske feil (det vil si at feilene skal være ukorrelerte og homoscedastiske) er estimatoren β ^ {\ displaystyle \ scriptstyle {\ hat {\ beta}}} effektiv i klassen av lineære objektive estimatorer. Dette kalles den beste lineære objektive estimatoren (BLUE). Effektivitet skal forstås som om vi skulle finne en annen estimator β ~ {\ displaystyle \ scriptstyle {\ tilde {\ beta}}} som ville være lineær i y og upartisk, da

Var ⁡ – Var ⁡ ≥ 0 {\ displaystyle \ operatorname {Var} – \ operatorname {Var} \ geq 0}

i den forstand at dette er en ikke-negativ-bestemt matrise. Denne teoremet etablerer optimalitet bare i klassen av lineære upartiske estimatorer, noe som er ganske begrensende. Avhengig av fordelingen av feiluttrykkene ε, kan andre, ikke-lineære estimatorer gi bedre resultater enn OLS.

Forutsatt normalitet Rediger

Egenskapene som er oppført så langt er alle gyldige uavhengig av underliggende fordeling av feilbetingelsene. Men hvis du er villig til å anta at normalitetsforutsetningen holder (det vil si at ε ~ N (0, σ2In)), kan ytterligere egenskaper for OLS-estimatorene oppgis.

Estimatoren β ^ {\ displaystyle \ scriptstyle {\ hat {\ beta}}} er normalt fordelt, med gjennomsnitt og varians som gitt tidligere:

β ^ ∼ N (β, σ 2 (XTX) – 1) {\ displaystyle {\ hatt {\ beta}} \ \ sim \ {\ mathcal {N}} {\ big (} \ beta, \ \ sigma ^ {2} (X ^ {\ mathrm {T}} X) ^ {- 1} { \ big)}}

der Q er kofaktormatrisen. Denne estimatoren når Cramér – Rao bundet for modellen, og er dermed optimal i klassen for alle objektive estimatorer. Legg merke til at i motsetning til Gauss-Markov-teoremet, etablerer dette resultatet optimalitet blant både lineære og ikke-lineære estimatorer, men bare når det gjelder normalt distribuerte feiltermer.

Estimatoren s2 vil være proporsjonal med chi- kvadratisk fordeling:

s 2 ∼ σ 2 n – p ⋅ χ n – p 2 {\ displaystyle s ^ {2} \ \ sim \ {\ frac {\ sigma ^ {2}} {np}} \ cdot \ chi _ {np} ^ {2}}

Variansen til denne estimatoren er lik 2σ4 / (n – p), som ikke oppnår Cramér – Rao-grensen til 2σ4 / n. Imidlertid ble det vist at det ikke er objektive estimatorer for σ2 med varians mindre enn estimatoren s2. Hvis vi er villige til å tillate partiske estimatorer, og vurderer klassen av estimatorer som er proporsjonal med summen av kvadratiske rester (SSR) av modellen, vil den beste (i betydningen av den gjennomsnittlige kvadratiske feilen) estimatoren i denne klassen være ~ σ2 = SSR / (n – p + 2), som til og med slår Cramér – Rao-bundet i tilfelle når det bare er én regressor (p = 1).

Innflytelsesrike observasjoner Rediger

Hovedartikkel: Innflytelsesrik observasjon

Se også: Utnyttelse (statistikk)

Som nevnt tidligere er estimatoren β ^ {\ displaystyle {\ hat {\ beta}}} lineær i y, noe som betyr at den representerer en lineær kombinasjon av de avhengige variablene yi. Vektene i denne lineære kombinasjonen er funksjoner til regressorene X, og er generelt ulik. Observasjonene med høy vekt kalles innflytelsesrike fordi de har en mer uttalt effekt på estimatorens verdi.

For å analysere hvilke observasjoner som er innflytelsesrike, fjerner vi en spesifikk j-th observasjon og vurderer hvor mye de estimerte mengdene kommer til å endre seg (på samme måte som jackknife-metoden). Det kan vises at endringen i OLS-estimatoren for β vil være lik

β ^ (j) – β ^ = – 1 1 – hj (XTX) – 1 xj T ε ^ j, {\ displaystyle { \ hat {\ beta}} ^ {(j)} – {\ hat {\ beta}} = – {\ frac {1} {1-h_ {j}}} (X ^ {\ mathrm {T}} X ) ^ {- 1} x_ {j} ^ {\ mathrm {T}} {\ hat {\ varepsilon}} _ {j} \ ,,}

der hj = xjT (XTX) −1xj er j- det diagonale elementet i hatmatrisen P, og xj er vektoren til regressorer som tilsvarer den jte observasjonen. Tilsvarende vil endringen i den forutsagte verdien for j-th observasjon som følge av å utelate at observasjon fra datasettet være lik

y ^ j (j) – y ^ j = xj T β ^ (j) – xj T β ^ = – hj 1 – hj ε ^ j {\ displaystyle {\ hat {y}} _ {j} ^ {(j)} – {\ hat {y}} _ {j} = x_ {j} ^ { \ mathrm {T}} {\ hat {\ beta}} ^ {(j)} – x_ {j} ^ {T} {\ hat {\ beta}} = – {\ frac {h_ {j}} {1 -h_ {j}}} \, {\ hat {\ varepsilon}} _ {j}}

Fra egenskapene til hatmatrisen, 0 ≤ hj ≤ 1, og de oppsummeres til p, slik at i gjennomsnitt hj ≈ p / n. Disse størrelsene hj kalles gearing, og observasjoner med høy hj kalles gearing points. Vanligvis bør observasjonene med høy innflytelse undersøkes nøyere, i tilfelle de er feilaktige, eller avvikende, eller på en annen måte atypiske for resten av datasettet.

Partisjonert regresjonEdit

Noen ganger kan variablene og tilhørende parametere i regresjonen deles logisk i to grupper, slik at regresjonen tar form

y = X 1 β 1 + X 2 β 2 + ε, {\ displaystyle y = X_ {1 } \ beta _ {1} + X_ {2} \ beta _ {2} + \ varepsilon,}

der X1 og X2 har dimensjoner n × p1, n × p2, og β1, β2 er p1 × 1 og p2 × 1 vektorer, med p1 + p2 = p.

M 1 y = M 1 X 2 β 2 + η, {\ displaystyle M_ {1} y = M_ {1} X_ {2} \ beta _ {2 } + \ eta \ ,,}

der M1 er utslettingsmatrisen for regressorer X1.

Teoremet kan brukes til å etablere en rekke teoretiske resultater. For eksempel, å ha en regresjon med en konstant og en annen regressor tilsvarer å trekke midlene fra den avhengige variabelen og regressoren og deretter kjøre regresjonen for de betydde variablene, men uten den konstante betegnelsen. estimationEdit

Hovedartikkel: Ridge regression

Anta at det er kjent at koeffisientene i regresjonen tilfredsstiller et system med lineære ligninger

A: QT β = c, {\ displaystyle A \ kolon \ quad Q ^ {T} \ beta = c, \,}

der Q er ap × q matrise av full rang, og c er aq × 1 vektor av kjente konstanter, hvor q < s. I dette tilfellet er beregning av minste kvadrater ekvivalent med å minimere summen av kvadratiske rester av modellen som er underlagt begrensningen A. Den begrensede minste kvadratene (CLS) estimatoren kan gis med en eksplisitt formel: – (XTX) – 1 Q (QT (XTX) – 1 Q) – 1 (QT β ^ – c). {\ displaystyle {\ hat {\ beta}} ^ {c} = {\ hat {\ beta}} – (X ^ {T} X) ^ {- 1} Q {\ Big (} Q ^ {T} ( X ^ {T} X) ^ {- 1} Q {\ Big)} ^ {- 1} (Q ^ {T} {\ hat {\ beta}} – c).}

Dette uttrykket for den begrensede estimator er gyldig så lenge matrisen XTX er inverterbar. Det ble antatt fra begynnelsen av denne artikkelen at denne matrisen er av full rang, og det ble bemerket at når rangtilstanden mislykkes, vil β ikke kunne identifiseres. Det kan imidlertid hende at tilsetning av begrensning A gjør β identifiserbar, i så fall vil man finne formelen for estimatoren. Estimatoren er lik

β ^ c = R (RTXTXR) – 1 RTXT y + (I p – R (RTXTXR) – 1 RTXTX) Q (QTQ) – 1 c, {\ displaystyle {\ hat {\ beta}} ^ {c} = R (R ^ {T} X ^ {T} XR) ^ {- 1} R ^ {T} X ^ {T} y + {\ Big (} I_ {p} -R ( R ^ {T} X ^ {T} XR) ^ {- 1} R ^ {T} X ^ {T} X {\ Big)} Q (Q ^ {T} Q) ^ {- 1} c,}

hvor R er ap × (p – q) matrise slik at matrisen er ikke-entall, og RTQ = 0. En slik matrise kan alltid bli funnet, selv om den generelt ikke er unik. Den andre formelen sammenfaller med den første i tilfelle når XTX er inverterbar.

Store prøveegenskaper Rediger

De minste kvadraters estimatorer er punktestimater for de lineære regresjonsmodellparametrene β. Imidlertid vil vi generelt også vite hvor nær disse estimatene kan være de sanne verdiene til parametere. Med andre ord, vi ønsker å konstruere intervallestimatene.

Siden vi ikke har antatt noen fordeling av fordelingen av feiluttrykket εi, er det umulig å utlede fordelingen av estimatorene β ^ {\ displaystyle {\ hat {\ beta}}} og σ ^ 2 {\ displaystyle {\ hat {\ sigma}} ^ {2}}. Likevel kan vi bruke den sentrale grense-setningen for å utlede deres asymptotiske egenskaper når prøvestørrelse n går til uendelig. Selv om prøvestørrelsen nødvendigvis er endelig, er det vanlig å anta at n er «stor nok» slik at den sanne fordelingen av OLS-estimatoren er nær den asymptotiske grensen.

(β ^ – β) → d N (0, σ 2 Q xx – 1), {\ displaystyle ({\ hat {\ beta}} – \ beta) \ {\ xrightarrow {d}} \ { \ mathcal {N}} {\ big (} 0, \; \ sigma ^ {2} Q_ {xx} ^ {- 1} {\ big)},}

hvor Q xx = XTX. {\ displaystyle Q_ {xx} = X ^ {T} X.}

IntervalsEdit

Hovedartikler: Konfidensintervall og prediksjonsintervall

Bruk av denne asymptotiske fordelingen , omtrentlige tosidige konfidensintervaller for den jte komponenten i vektoren β ^ {\ displaystyle {\ hat {\ beta}}} kan konstrueres som

β j ∈ jj] {\ displaystyle \ beta _ { j} \ i {\ bigg _ {jj}}} \ {\ bigg]}} på 1 – α konfidensnivå,

der q betegner kvantilfunksjonen til standard normalfordeling, og jj er den j-th diagonalen element av en matrise.

Tilsvarende er estimatoren for minste kvadrat for σ2 også konsistent og asymptotisk normal (forutsatt at fjerde øyeblikk av εi eksisterer) med begrensende fordeling

(σ ^ 2 – σ 2 ) → d N (0, E ⁡ – σ 4). {\ displaystyle ({\ hat {\ sigma}} ^ {2} – \ sigma ^ {2}) \ {\ xrightarrow {d}} \ {\ mathcal {N}} \ left (0, \; \ operatorname { E} \ left- \ sigma ^ {4} \ right).} (Y ^ 0 – y 0) → d N (0, σ 2 x 0 TQ xx – 1 x 0), {\ displaystyle \ left ({\ hatt {y}} _ {0} -y_ {0} \ høyre) \ {\ xrightarrow {d}} \ {\ mathcal {N}} \ left (0, \; \ sigma ^ {2} x_ {0} ^ {\ mathrm {T}} Q_ {xx} ^ {- 1} x_ {0} \ right),}

som gjør det mulig å konstruere konfidensintervaller for gjennomsnittlig respons y 0 {\ displaystyle y_ {0}} som skal konstrueres :

y 0 ∈ {\ displaystyle y_ {0} \ in \ left} på konfidensnivået 1 – α.

Hypotesetesting Rediger

Hovedartikkel: Hypotesetesting

Denne delen trenger utvidelse. Du kan hjelpe ved å legge til den. (Februar 2017)

To hypotesetester er spesielt mye brukt. For det første vil man vite om den estimerte regresjonsligningen er bedre enn å bare forutsi at alle verdiene til responsvariabelen er lik dens gjennomsnitt (hvis ikke, sies det at den ikke har noen forklarende kraft). Nullhypotesen om ingen forklaringsverdi for estimert regresjon testes ved hjelp av en F-test. Hvis den beregnede F-verdien blir funnet å være stor nok til å overskride den kritiske verdien for det forhåndsvalgte nivået av betydning, blir nullhypotesen avvist, og den alternative hypotesen, at regresjonen har forklarende kraft, aksepteres. Ellers aksepteres nullhypotesen om ingen forklarende kraft.

For det andre, for hver forklarende variabel av interesse, vil man vite om dens estimerte koeffisient skiller seg betydelig fra null – det vil si om denne spesifikke forklaringsvariabelen i faktum har forklarende kraft i å forutsi responsvariabelen. Her er nullhypotesen at den virkelige koeffisienten er null. Denne hypotesen testes ved å beregne koeffisienten «s t-statistikk, som forholdet mellom koeffisientestimatet og standardfeilen. Hvis t-statistikken er større enn en forhåndsbestemt verdi, blir nullhypotesen avvist og variabelen er funnet å ha forklaringskraft, med koeffisienten vesentlig forskjellig fra null. Ellers aksepteres nullhypotesen om en nullverdi av den sanne koeffisienten.

I tillegg brukes Chow-testen til å teste om to delprøver begge har samme underliggende sanne koeffisientverdier. Summen av kvadratiske rester av regresjoner på hvert av delmengdene og på det kombinerte datasettet sammenlignes ved å beregne en F-statistikk; hvis dette overstiger en kritisk verdi, blir nullhypotesen om ingen forskjell mellom de to delmengden avvises; ellers aksepteres det.

admin