Almindelige mindste kvadrater
AssumptionsEdit
Der er flere forskellige rammer, hvor den lineære regressionsmodel kan kastes ind for at gøre OLS-teknikken anvendelig. Hver af disse indstillinger giver de samme formler og samme resultater. Den eneste forskel er fortolkningen og de antagelser, der skal pålægges for at metoden kan give meningsfulde resultater. Valget af den gældende ramme afhænger hovedsageligt af arten af de data, der er i hånden, og af den slutningsopgave, der skal udføres.
En af forskellene i fortolkningen er, om regressorerne skal behandles som tilfældige variabler eller som foruddefinerede konstanter. I det første tilfælde (tilfældigt design) regressorerne xi er tilfældige og samplet sammen med yierne fra en vis population, som i en observationsundersøgelse. Denne tilgang giver mulighed for en mere naturlig undersøgelse af estimatorernes asymptotiske egenskaber. I den anden fortolkning (fast design) behandles regressorerne X som kendte konstanter indstillet af et design, og y samples betinget af værdierne af X som i et eksperiment. For praktiske formål er denne sondring ofte uvigtig, da estimering og slutning udføres mens konditionering på X. Alle resultater anført i denne artikel er inden for den tilfældige designramme.
Klassisk lineær regressionsmodelRediger
Den klassiske model fokuserer på estimatet og slutningen af “finite sample”, hvilket betyder, at antallet af observationer n er fast. Dette står i kontrast til de andre tilgange, der studerer den asymptotiske opførsel af OLS, og hvor antallet af observationer får lov til at vokse til uendelig.
Den umiddelbare konseque nce af antagelsen om eksogenitet er, at fejlene har gennemsnitligt nul: E = 0, og at regressorerne ikke er korreleret med fejlene: E = 0. Antagelsen om eksogenitet er kritisk for OLS-teorien. Hvis det holder, kaldes regressorvariablerne eksogene. Hvis det ikke er tilfældet, kaldes de regressorer, der er korreleret med fejludtrykket, endogene, og så bliver OLS-estimater ugyldige. I så fald kan metoden med instrumentale variabler bruges til at udføre slutning. Normalt antages det også at regressorerne har endelige øjeblikke op til mindst det andet øjeblik. Derefter kaldes matrixen Qxx = E endelig og positiv semidefinit. Når denne antagelse overtrædes, kaldes regressorerne lineært afhængig eller perfekt multikollinær. I et sådant tilfælde er værdien af regressionskoefficient β kan ikke læres, skønt forudsigelse af y-værdier stadig er mulig for nye værdier for regressorerne, der ligger i det samme lineært afhængige underrum.
- Sfæriske fejl: Var = σ 2 I n, {\ displaystyle \ operatorname {Var} = \ sigma ^ {2} I_ {n},}
hvor In er identitetsmatricen i dimension n, og σ2 er en parameter, der bestemmer variansen for hver observation. σ2 betragtes som en generende parameter i modellen, alth burde det normalt også estimeres. Hvis denne antagelse overtrædes, er OLS-estimaterne stadig gyldige, men ikke længere effektive. Det er almindeligt at opdele denne antagelse i to dele:
- Homoscedasticitet: E = σ2, hvilket betyder, at fejludtrykket har den samme varians σ2 i hver observation. Når dette krav overtrædes, kaldes dette heteroscedasticitet. I et sådant tilfælde vil en mere effektiv estimator blive vejet mindst kvadrater. Hvis fejlene har uendelig variation, vil OLS-estimaterne også have uendelig variation (selvom de ifølge loven om store tal ikke desto mindre vil have tendens til de sande værdier, så længe fejlene har nul gennemsnit). I dette tilfælde anbefales robuste estimeringsteknikker.
- Ingen autokorrelation: fejlene er ikke korreleret mellem observationer: E = 0 for i ≠ j. Denne antagelse kan overtrædes i sammenhæng med tidsseriedata, paneldata, klyngeprøver, hierarkiske data, gentagne måledata, længdedata og andre data med afhængighed. I sådanne tilfælde giver generaliserede mindste kvadrater et bedre alternativ end OLS. Et andet udtryk for autokorrelation er seriel korrelation.
Denne antagelse er ikke nødvendig for gyldigheden af OLS-metoden, skønt visse yderligere finite-prøveegenskaber kan etableres, hvis det gør det (især inden for området hypotesetest). Også når fejlene er normale, svarer OLS-estimatoren til den maksimale sandsynlighedsestimator (MLE), og derfor er den asymptotisk effektiv i klassen for alle almindelige estimatorer. Vigtigere er, at antagelsen om normalitet kun gælder for fejlbetingelserne; i modsætning til en populær misforståelse kræves det, at responsvariablen (afhængig) ikke distribueres normalt.
Uafhængig og identisk fordelt (iid) Rediger
I nogle applikationer, især med tværsnitsdata, pålægges en yderligere antagelse – at alle observationer er uafhængige og identisk distribuerede.Dette betyder, at alle observationer er taget fra en tilfældig stikprøve, der gør alle antagne antagelser enklere og lettere at fortolke. Også denne ramme giver en mulighed for at angive asymptotiske resultater (som stikprøvestørrelse n → ∞), som forstås som en teoretisk mulighed for at hente nye uafhængige observationer fra data genereringsprocessen. Listen over antagelser i dette tilfælde er:
Tidsseriemodel Rediger
Endelige prøveegenskaber Rediger
Først og fremmest under den strenge eksogenitetsantagelse OLS estimatorer β ^ {\ displaystyle \ scriptstyle {\ hat {\ beta}}} og s2 er upartiske, hvilket betyder, at deres forventede værdier falder sammen med parametrernes sande værdier:
E = β, E = σ 2. {\ displaystyle \ operatorname {E} = \ beta, \ quad \ operatorname {E} = \ sigma ^ {2}.}
Hvis den strenge eksogenitet ikke holder (som det er tilfældet med mange tidsseriemodeller, hvor exogenitet antages kun med hensyn til tidligere chok, men ikke de fremtidige), så disse estimatorer vil være forudindtaget i endelige prøver.
Varians-kovariansmatrix (eller simpelthen kovariansmatrix) af β ^ {\ displaystyle \ scriptstyle {\ hat {\ beta}}} er lig med
Var = σ 2 (XTX) – 1 = σ 2 Q. {\ displaystyle \ operatorname {Var} = \ sigma ^ {2} (X ^ {T} X) ^ {- 1} = \ sigma ^ {2} Q.}
Især standardfejlen for hver koefficient β ^ j {\ displaystyle \ scriptstyle {\ hat {\ beta}} _ {j}} er lig med kvadratroden af det j-th diagonale element i denne matrix. Estimatet for denne standardfejl opnås ved at erstatte den ukendte størrelse σ2 med dens estimat s2. Således
s. e. ^ (β ^ j) = s 2 (XTX) jj – 1 {\ displaystyle {\ widehat {\ operatorname {s. \! e.}}} ({\ hat {\ beta}} _ {j}) = { \ sqrt {s ^ {2} (X ^ {T} X) _ {jj} ^ {- 1}}}} Cov = 0. {\ displaystyle \ operatorname {Cov} = 0.}
Gauss –Markov-sætning siger, at forudsætningen for sfæriske fejl (dvs. fejlene skal være ikke-korreleret og homoscedastisk) er estimatoren β ^ {\ displaystyle \ scriptstyle {\ hat {\ beta}}} effektiv i klassen af lineære upartiske estimatorer. Dette kaldes den bedste lineære upartiske estimator (BLUE). Effektivitet skal forstås som om vi skulle finde en anden estimator β ~ {\ displaystyle \ scriptstyle {\ tilde {\ beta}}} som ville være lineær i y og upartisk, så
Var – Var ≥ 0 {\ displaystyle \ operatorname {Var} – \ operatorname {Var} \ geq 0}
i den forstand, at dette er en ikke-negativt bestemt matrix. Denne sætning etablerer kun optimalitet i klassen af lineære upartiske estimatorer, hvilket er ret restriktivt. Afhængig af fordelingen af fejltermerne ε kan andre ikke-lineære estimatorer give bedre resultater end OLS.
Under forudsætning af normalitetsredigering
De hidtil angivne egenskaber er alle gyldige uanset underliggende fordeling af fejlbetingelserne. Men hvis du er villig til at antage, at normalforudsætningen holder (det vil sige, at ε ~ N (0, σ2In)), kan yderligere egenskaber for OLS-estimatorerne angives.
Estimatoren β ^ {\ displaystyle \ scriptstyle {\ hat {\ beta}}} er normalt fordelt med gennemsnit og varians som angivet før:
β ^ ∼ N (β, σ 2 (XTX) – 1) {\ displaystyle {\ hat {\ beta}} \ \ sim \ {\ mathcal {N}} {\ big (} \ beta, \ \ sigma ^ {2} (X ^ {\ mathrm {T}} X) ^ {- 1} { \ big)}}
hvor Q er kofaktormatrixen. Denne estimator når Cramér – Rao bundet til modellen og er således optimal i klassen for alle upartiske estimatorer. Bemærk, at i modsætning til Gauss-Markov-sætningen etablerer dette resultat optimalitet blandt både lineære og ikke-lineære estimatorer, men kun i tilfælde af normalt distribuerede fejltermer.
Estimatoren s2 vil være proportional med chi- kvadratfordeling:
s 2 ∼ σ 2 n – p ⋅ χ n – p 2 {\ displaystyle s ^ {2} \ \ sim \ {\ frac {\ sigma ^ {2}} {np}} \ cdot \ chi _ {np} ^ {2}}
Variansen for denne estimator er lig med 2σ4 / (n – p), som ikke når Cramér – Rao-grænsen på 2σ4 / n. Imidlertid blev det vist, at der ikke er nogen upartiske estimatorer for σ2 med en varians, der er mindre end estimatoren s2. Hvis vi er villige til at tillade partiske estimatorer og overvejer klassen af estimatorer, der er proportional med summen af kvadratiske rester (SSR) af modellen, så er den bedste (i betydningen af den gennemsnitlige kvadratiske fejl) estimator i denne klasse ~ σ2 = SSR / (n – p + 2), som endda slår Cramér – Rao bundet i tilfælde af, at der kun er en regressor (p = 1).
Indflydelsesrige observationer Rediger
Som tidligere nævnt er estimatoren β ^ {\ displaystyle {\ hat {\ beta}}} lineær i y, hvilket betyder at det repræsenterer en lineær kombination af de afhængige variabler yi. Vægtene i denne lineære kombination er funktioner i regressorerne X og er generelt ulige. Observationer med høje vægte kaldes indflydelsesrige, fordi de har en mere udtalt effekt på estimatorens værdi.
For at analysere hvilke observationer, der har indflydelse, fjerner vi en specifik j-th observation og overvejer, hvor meget de estimerede mængder vil ændre sig (på samme måde som jackknife-metoden). Det kan vises, at ændringen i OLS-estimatoren for β vil være lig med
β ^ (j) – β ^ = – 1 1 – hj (XTX) – 1 xj T ε ^ j, {\ displaystyle { \ hat {\ beta}} ^ {(j)} – {\ hat {\ beta}} = – {\ frac {1} {1-h_ {j}}} (X ^ {\ mathrm {T}} X ) ^ {- 1} x_ {j} ^ {\ mathrm {T}} {\ hat {\ varepsilon}} _ {j} \ ,,}
hvor hj = xjT (XTX) −1xj er j- det diagonale element i hatmatricen P, og xj er vektoren af regressorer svarende til den j-th observation. På samme måde vil ændringen i den forudsagte værdi for j-th observation som følge af udeladelse af denne observation fra datasættet være lig med
y ^ j (j) – y ^ j = xj T β ^ (j) – xj T β ^ = – hj 1 – hj ε ^ j {\ displaystyle {\ hat {y}} _ {j} ^ {(j)} – {\ hat {y}} _ {j} = x_ {j} ^ { \ mathrm {T}} {\ hat {\ beta}} ^ {(j)} – x_ {j} ^ {T} {\ hat {\ beta}} = – {\ frac {h_ {j}} {1 -h_ {j}}} \, {\ hat {\ varepsilon}} _ {j}}
Fra hatmatrixens egenskaber 0 ≤ hj ≤ 1, og de opsummeres til p, så i gennemsnit hj ≈ p / n. Disse størrelser hj kaldes gearing, og observationer med høj hj kaldes gearingspunkter. Normalt bør observationer med høj gearing undersøges mere omhyggeligt, hvis de er fejlagtige eller afvigende eller på en anden måde atypiske for resten af datasættet.
Partitioneret regressionEdit
Nogle gange kan variablerne og de tilsvarende parametre i regressionen logisk opdeles i to grupper, så regressionen får form
y = X 1 β 1 + X 2 β 2 + ε, {\ displaystyle y = X_ {1 } \ beta _ {1} + X_ {2} \ beta _ {2} + \ varepsilon,}
hvor X1 og X2 har dimensioner n × p1, n × p2, og β1, β2 er p1 × 1 og p2 × 1 vektorer, med p1 + p2 = p.
M 1 y = M 1 X 2 β 2 + η, {\ displaystyle M_ {1} y = M_ {1} X_ {2} \ beta _ {2 } + \ eta \ ,,}
hvor M1 er tilintetgørelsesmatrixen for regressorer X1.
Teoremet kan bruges til at etablere et antal teoretiske resultater. For eksempel er det at have en regression med en konstant og en anden regressor svarende til at trække middelene fra den afhængige variabel og regressoren og derefter køre regressionen for de betydede variabler, men uden det konstante udtryk.
Begrænset estimationEdit
Antag at det er kendt, at koefficienterne i regressionen tilfredsstiller et system med lineære ligninger
A: QT β = c, {\ displaystyle A \ colon \ quad Q ^ {T} \ beta = c, \,}
hvor Q er ap × q matrix med fuld rang, og c er aq × 1 vektor af kendte konstanter, hvor q < s. I dette tilfælde svarer mindst kvadratisk estimering til at minimere summen af kvadratiske rester af modellen underlagt begrænsningen A. Den begrænsede mindst kvadraters (CLS) estimator kan gives ved en eksplicit formel:
β ^ c = β ^ – (XTX) – 1 Q (QT (XTX) – 1 Q) – 1 (QT β ^ – c). {\ displaystyle {\ hat {\ beta}} ^ {c} = {\ hat {\ beta}} – (X ^ {T} X) ^ {- 1} Q {\ Big (} Q ^ {T} ( X ^ {T} X) ^ {- 1} Q {\ Big)} ^ {- 1} (Q ^ {T} {\ hat {\ beta}} – c).}
Dette udtryk for den begrænsede estimator er gyldig, så længe matrixen XTX er inverterbar. Det blev antaget fra begyndelsen af denne artikel, at denne matrix er af fuld rang, og det blev bemærket, at β ikke kan identificeres, når rangbetingelsen mislykkes. Det kan dog ske, at tilføjelse af begrænsningen A gør β identificerbar, i hvilket tilfælde man gerne vil finde formlen til estimatoren. Estimatoren er lig med
β ^ c = R (RTXTXR) – 1 RTXT y + (I p – R (RTXTXR) – 1 RTXTX) Q (QTQ) – 1 c, {\ displaystyle {\ hat {\ beta}} ^ {c} = R (R ^ {T} X ^ {T} XR) ^ {- 1} R ^ {T} X ^ {T} y + {\ Big (} I_ {p} -R ( R ^ {T} X ^ {T} XR) ^ {- 1} R ^ {T} X ^ {T} X {\ Big)} Q (Q ^ {T} Q) ^ {- 1} c,}
hvor R er ap × (p – q) matrix, således at matrixen ikke er ental, og RTQ = 0. En sådan matrix kan altid findes, selvom den generelt ikke er unik. Den anden formel falder sammen med den første, hvis XTX er inverterbar.
Store prøveegenskaber Rediger
De mindst kvadratiske estimatorer er punktestimater for de lineære regressionsmodelparametre β. Men generelt vil vi også vide, hvor tæt disse estimater kan være på de sande værdier af parametre. Med andre ord ønsker vi at konstruere intervalestimaterne.
Da vi ikke har antaget nogen fordeling om fordelingen af fejludtrykket εi, er det umuligt at udlede fordelingen af estimatorerne β ^ {\ displaystyle {\ hat {\ beta}}} og σ ^ 2 {\ displaystyle {\ hat {\ sigma}} ^ {2}}. Ikke desto mindre kan vi anvende den centrale grænsesætning til at udlede deres asymptotiske egenskaber, når prøvestørrelse n går til Uden uendelighed. Selvom stikprøvestørrelsen nødvendigvis er endelig, er det sædvanligt at antage, at n er “stor nok”, så den sande fordeling af OLS-estimatoren er tæt på dens asymptotiske grænse.
(β ^ – β) → d N (0, σ 2 Q xx – 1), {\ displaystyle ({\ hat {\ beta}} – \ beta) \ {\ xrightarrow {d}} \ { \ mathcal {N}} {\ big (} 0, \; \ sigma ^ {2} Q_ {xx} ^ {- 1} {\ big)},}
hvor Q xx = XTX. {\ displaystyle Q_ {xx} = X ^ {T} X.}
IntervalsEdit
Brug af denne asymptotiske fordeling , omtrentlige tosidede konfidensintervaller for den j-th komponent af vektoren β ^ {\ displaystyle {\ hat {\ beta}}} kan konstrueres som
β j ∈ jj] {\ displaystyle \ beta _ { j} \ i {\ bigg _ {jj}}} \ {\ bigg]}} på 1 – α konfidensniveau,
hvor q betegner kvantilfunktionen for standard normalfordeling, og jj er den j-th diagonal element af en matrix.
Tilsvarende er estimatoren for mindste kvadrat for σ2 også konsistent og asymptotisk normal (forudsat at det fjerde øjeblik af εi eksisterer) med begrænsende fordeling
(σ ^ 2 – σ 2 ) → d N (0, E – σ 4). {\ displaystyle ({\ hat {\ sigma}} ^ {2} – \ sigma ^ {2}) \ {\ xrightarrow {d}} \ {\ mathcal {N}} \ left (0, \; \ operatorname { E} \ left- \ sigma ^ {4} \ right).} (Y ^ 0 – y 0) → d N (0, σ 2 x 0 TQ xx – 1 x 0), {\ displaystyle \ left ({\ hat {y}} _ {0} -y_ {0} \ right) \ {\ xrightarrow {d}} \ {\ mathcal {N}} \ left (0, \; \ sigma ^ {2} x_ {0} ^ {\ mathrm {T}} Q_ {xx} ^ {- 1} x_ {0} \ right),}
som gør det muligt at konstruere konfidensintervaller for middelrespons y 0 {\ displaystyle y_ {0}} :
y 0 ∈ {\ displaystyle y_ {0} \ in \ left} på konfidensniveauet 1 – α.
HypotesetestEdit
To hypotesetests er særlig udbredt. For det første ønsker man at vide, om den estimerede regressionsligning er bedre end blot at forudsige, at alle værdierne for responsvariablen er lig med dens middelværdi (hvis ikke, siges det at den ikke har nogen forklarende effekt). Nulhypotesen om ingen forklarende værdi af den estimerede regression testes ved hjælp af en F-test. Hvis den beregnede F-værdi viser sig at være stor nok til at overstige dens kritiske værdi for det forud valgte niveau af betydning, afvises nulhypotesen, og den alternative hypotese, at regressionen har forklarende kraft, accepteres. Ellers accepteres nulhypotesen om ingen forklarende styrke.
For det andet vil man for hver forklarende variabel af interesse vide, om dens estimerede koefficient adskiller sig markant fra nul – det vil sige, om denne særlige forklarende variabel i faktum har forklarende kraft til at forudsige svarvariablen. Her er nulhypotesen, at den sande koefficient er nul. Denne hypotese testes ved at beregne koefficienten “s t-statistik, som forholdet mellem koefficientestimatet og dets standardfejl. Hvis t-statistikken er større end en forudbestemt værdi, afvises nulhypotesen, og variablen viser sig at have forklaringskraft med dens koefficient markant forskellig fra nul. Ellers accepteres nulhypotesen om en nulværdi af den sande koefficient.
Derudover bruges Chow-testen til at teste, om to delprøver begge har samme underliggende sande koefficientværdier. Summen af kvadratiske rester af regressioner på hver af undergrupperne og på det kombinerede datasæt sammenlignes ved at beregne en F-statistik; hvis dette overstiger en kritisk værdi, er nulhypotesen om ingen forskel mellem de to undergrupper afvises; ellers accepteres det.