Cele mai mici pătrate obișnuite

AssumptionsEdit

Vezi și: Regresie liniară § Presupuneri

Există mai multe cadre diferite în care modelul de regresie liniară poate fi turnat în pentru a face tehnica OLS aplicabilă. Fiecare dintre aceste setări produce aceleași formule și aceleași rezultate. Singura diferență este interpretarea și ipotezele care trebuie impuse pentru ca metoda să dea rezultate semnificative. Alegerea cadrului aplicabil depinde în principal de natura datelor în mână și de sarcina de inferență care trebuie efectuată.

Una dintre liniile de diferență în interpretare este dacă tratarea regresorilor este aleatorie variabile sau ca constante predefinite. În primul caz (design aleatoriu), regresorii xi sunt aleatori și eșantionați împreună cu yi „s de la o anumită populație, ca într-un studiu observațional. Această abordare permite un studiu mai natural al proprietăților asimptotice ale estimatorilor. În cealaltă interpretare (proiectare fixă), regresorii X sunt tratați ca constante cunoscute stabilite de un proiect, iar y este eșantionat condiționat de valorile lui X ca într-un experiment. În scopuri practice, această distincție este adesea neimportantă, deoarece estimarea și inferența se efectuează în timp ce condiționează X. Toate rezultatele enunțate în acest articol se încadrează în cadrul de proiectare aleatorie.

Modelul de regresie liniară clasică Editați

Modelul clasic se concentrează pe estimarea și deducerea „eșantionului finit”, ceea ce înseamnă că numărul de observații n este fix. Acest lucru contrastează cu celelalte abordări, care studiază comportamentul asimptotic al OLS și în care numărul de observații este permis să crească până la infinit.

nce ipoteza exogenității este că erorile au media zero: E = 0 și că regresorii sunt necorelați cu erorile: E = 0. Ipoteza exogenității este critică pentru teoria OLS. Dacă se menține, atunci variabilele regresorului se numesc exogene. Dacă nu este, atunci acei regresori care sunt corelați cu termenul de eroare sunt numiți endogeni, iar apoi estimările OLS devin invalide. În acest caz, metoda variabilelor instrumentale poate fi utilizată pentru a efectua inferența. De obicei, se presupune, de asemenea, că regresorii au momente finite până cel puțin al doilea moment. Atunci matricea Qxx = E este finită și semidefinită pozitivă. Când se încalcă această presupunere, regresorii sunt numiți liniar dependenți sau perfect multicolini. În acest caz, valoarea coeficientul de regresie β nu poate fi învățat, deși predicția valorilor y este încă posibilă pentru noile valori ale regresorilor care se află în același sub spațiu liniar dependent.

  • Erori sferice: Var ⁡ = σ 2 I n, {\ displaystyle \ operatorname {Var} = \ sigma ^ {2} I_ {n},}

unde In este matricea de identitate în dimensiunea n, iar σ2 este un parametru care determină varianța fiecărei observații. σ2 este considerat un parametru deranjant în model, altul de obicei, de asemenea, se estimează. Dacă această ipoteză este încălcată, estimările OLS sunt încă valabile, dar nu mai sunt eficiente. Este obișnuit să împărțim această ipoteză în două părți:

  • Homoscedasticitate: E = σ2, ceea ce înseamnă că termenul de eroare are aceeași varianță σ2 în fiecare observație. Atunci când această cerință este încălcată, aceasta se numește heteroscedasticitate, într-un astfel de caz un estimator mai eficient ar fi ponderat cu cele mai mici pătrate. Dacă erorile au varianță infinită, atunci estimările OLS vor avea, de asemenea, varianță infinită (deși, conform legii numărului mare, acestea vor tinde totuși spre valorile adevărate, atâta timp cât erorile au o medie zero). În acest caz, se recomandă tehnici de estimare robuste.
  • Fără autocorelare: erorile sunt necorelate între observații: E = 0 pentru i ≠ j. Această ipoteză poate fi încălcată în contextul datelor din seriile de timp, datele panoului, eșantioanele de cluster, datele ierarhice, datele măsurilor repetate, datele longitudinale și alte date cu dependențe. În astfel de cazuri, cele mai mici pătrate generalizate oferă o alternativă mai bună decât OLS. O altă expresie pentru autocorelație este corelația serială.

Această presupunere nu este necesară pentru validitatea metodei OLS, deși anumite proprietăți suplimentare ale eșantionului finit pot fi stabilite în cazul în care se întâmplă (în special în zona testarea ipotezelor). De asemenea, atunci când erorile sunt normale, estimatorul OLS este echivalent cu estimatorul de maximă probabilitate (MLE) și, prin urmare, este asimptotic eficient în clasa tuturor estimatorilor obișnuiți. Important, presupunerea de normalitate se aplică numai termenilor de eroare; spre deosebire de o concepție greșită populară, variabila de răspuns (dependentă) nu trebuie să fie distribuită în mod normal.

Editare independentă și distribuită identic (iid)

În unele aplicații, în special cu date transversale, se impune o presupunere suplimentară – că toate observațiile sunt independente și distribuite identic.Aceasta înseamnă că toate observațiile sunt luate dintr-un eșantion aleatoriu, ceea ce face ca toate ipotezele enumerate anterior să fie mai simple și mai ușor de interpretat. De asemenea, acest cadru permite afirmarea rezultatelor asimptotice (ca dimensiunea eșantionului n → ∞), care sunt înțelese ca o posibilitate teoretică de a obține noi observații independente din procesul de generare a datelor. Lista ipotezelor în acest caz este:

Modelul serialului ModelEdit

Proprietățile eșantionului finitEdit

În primul rând, sub ipoteza strictă a exogenității, estimatorii OLS β ^ {\ displaystyle \ scriptstyle {\ hat {\ beta}}} și s2 sunt imparțiale, ceea ce înseamnă că valorile lor așteptate coincid cu valorile adevărate ale parametrilor:

E ⁡ = β, E ⁡ = σ 2. {\ displaystyle \ operatorname {E} = \ beta, \ quad \ operatorname {E} = \ sigma ^ {2}.}

Dacă exogenitatea strictă nu se menține (cum este cazul multor modele de serii temporale, unde exogenitatea se presupune numai în ceea ce privește șocurile trecute, dar nu și cele viitoare), atunci acești estimatori vor fi influențați în eșantioane finite.

Matricea varianță-covarianță (sau pur și simplu matricea de covarianță) a β ^ {\ displaystyle \ scriptstyle {\ hat {\ beta}}} este egal cu

Var ⁡ = σ 2 (XTX) – 1 = σ 2 Q. {\ displaystyle \ operatorname {Var} = \ sigma ^ {2} (X ^ {T} X) ^ {- 1} = \ sigma ^ {2} Q.}

În special, eroarea standard a fiecărui coeficient β ^ j {\ displaystyle \ scriptstyle {\ hat {\ beta}} _ {j}} este egal cu rădăcina pătrată a elementului j-al diagonal al acestei matrice. Estimarea acestei erori standard este obținută prin înlocuirea cantității necunoscute σ2 cu estimarea sa s2. Astfel,

s. e. ^ (β ^ j) = s 2 (XTX) jj – 1 {\ displaystyle {\ widehat {\ operatorname {s. \! e.}}} ({\ hat {\ beta}} _ {j}) = { \ sqrt {s ^ {2} (X ^ {T} X) _ {jj} ^ {- 1}}}} Cov ⁡ = 0. {\ displaystyle \ operatorname {Cov} = 0.}

The Gauss –Teorema Markov afirmă că, în ipoteza erorilor sferice (adică erorile ar trebui să fie necorelate și homoscedastice), estimatorul β ^ {\ displaystyle \ scriptstyle {\ hat {\ beta}}} este eficient în clasa estimatorilor liniari imparțiali. Acesta este numit cel mai bun estimator liniar imparțial (ALBASTRU). Eficiența ar trebui înțeleasă ca și cum ar fi să găsim un alt estimator β ~ {\ displaystyle \ scriptstyle {\ tilde {\ beta}}} care ar fi liniar în y și imparțial, atunci

Var ⁡ – Var ⁡ ≥ 0 {\ displaystyle \ operatorname {Var} – \ operatorname {Var} \ geq 0}

în sensul că aceasta este o matrice definită negativ. Această teoremă stabilește optimitatea numai în clasa estimatorilor liniari imparțiali, ceea ce este destul de restrictiv. În funcție de distribuția termenilor de eroare ε, alți estimatori neliniari pot oferi rezultate mai bune decât OLS.

Presupunând normalitateaEdit

Proprietățile enumerate până acum sunt valabile, indiferent de distribuția subiacentă a termenilor de eroare. Cu toate acestea, dacă sunteți dispus să presupuneți că presupunerea normalității este valabilă (adică ε ~ N (0, σ2In)), atunci pot fi declarate proprietăți suplimentare ale estimatorilor OLS.

Estimatorul β ^ {\ displaystyle \ scriptstyle {\ hat {\ beta}}} este distribuit în mod normal, cu medie și varianță așa cum s-a dat mai înainte:

β ^ ∼ N (β, σ 2 (XTX) – 1) {\ displaystyle {\ hat {\ beta}} \ \ sim \ {\ mathcal {N}} {\ big (} \ beta, \ \ sigma ^ {2} (X ^ {\ mathrm {T}} X) ^ {- 1} { \ big)}}

unde Q este matricea cofactorului. Acest estimator atinge Cramér-Rao legat de model și, prin urmare, este optim în clasa tuturor estimatorilor imparțiali. Rețineți că, spre deosebire de teorema Gauss-Markov, acest rezultat stabilește optimitatea atât între estimatorii liniari, cât și neliniari, dar numai în cazul termenilor de eroare distribuiți în mod normal.

Estimatorul s2 va fi proporțional cu chi- distribuție pătrată:

s 2 ∼ σ 2 n – p ⋅ χ n – p 2 {\ displaystyle s ^ {2} \ \ sim \ {\ frac {\ sigma ^ {2}} {np}} \ cdot \ chi _ {np} ^ {2}}

Varianța acestui estimator este egală cu 2σ4 / (n – p), care nu atinge limita Cramér-Rao a 2σ4 / n. Cu toate acestea s-a arătat că nu există estimatori imparțiali ai lui σ2 cu varianță mai mică decât cea a estimatorului s2. Dacă suntem dispuși să permitem estimatori părtinitori și luăm în considerare clasa estimatorilor care sunt proporționali cu suma reziduurilor pătrate (SSR) ale modelului, atunci cel mai bun estimator (în sensul erorii pătrate medii) din această clasă va fi ~ σ2 = SSR / (n – p + 2), care bate chiar legătura Cramér-Rao în cazul în care există un singur regresor (p = 1).

Observații influențiale Editați

Articol principal: Observare influențială
A se vedea, de asemenea: Pârghie (statistici)

După cum sa menționat anterior, estimatorul β ^ {\ displaystyle {\ hat {\ beta}}} este liniar în y, ceea ce înseamnă că reprezintă o combinație liniară a variabilelor dependente yi. Ponderile din această combinație liniară sunt funcții ale regresorilor X și, în general, sunt inegale. Observațiile cu greutăți mari sunt numite influente deoarece au un efect mai pronunțat asupra valorii estimatorului.

Pentru a analiza ce observații sunt influente, eliminăm o j-a observație specifică și luăm în considerare cât de mult se vor schimba cantitățile estimate (în mod similar cu metoda jackknife). Se poate arăta că modificarea estimatorului OLS pentru β va fi egală cu

β ^ (j) – β ^ = – 1 1 – hj (XTX) – 1 xj T ε ^ j, {\ displaystyle { \ hat {\ beta}} ^ {(j)} – {\ hat {\ beta}} = – {\ frac {1} {1-h_ {j}}} (X ^ {\ mathrm {T}} X ) ^ {- 1} x_ {j} ^ {\ mathrm {T}} {\ hat {\ varepsilon}} _ {j} \ ,,}

unde hj = xjT (XTX) −1xj este j- al treilea element diagonal al matricei pălăriei P, iar xj este vectorul regresorilor corespunzător observației j-th. În mod similar, modificarea valorii prezise pentru observarea j-a rezultată din omiterea observației din setul de date va fi egală cu

y ^ j (j) – y ^ j = xj T β ^ (j) – xj T β ^ = – hj 1 – hj ε ^ j {\ displaystyle {\ hat {y}} _ {j} ^ {(j)} – {\ hat {y}} _ {j} = x_ {j} ^ { \ mathrm {T}} {\ hat {\ beta}} ^ {(j)} – x_ {j} ^ {T} {\ hat {\ beta}} = – {\ frac {h_ {j}} {1 -h_ {j}}} \, {\ hat {\ varepsilon}} _ {j}}

Din proprietățile matricei pălăriilor, 0 ≤ hj ≤ 1 și se rezumă la p, astfel încât în medie hj ≈ p / n. Aceste cantități hj se numesc pârghii, iar observațiile cu hj mare se numesc puncte de pârghie. De obicei, observațiile cu pârghie ridicată ar trebui să fie examinate mai atent, în cazul în care sunt eronate, sau anormale, sau într-un alt mod atipic față de restul setului de date.

Regresie partiționată > Uneori, variabilele și parametrii corespunzători din regresie pot fi împărțiți logic în două grupuri, astfel încât regresia să ia formă y = X 1 β 1 + X 2 β 2 + ε, {\ displaystyle y = X_ {1 } \ beta _ {1} + X_ {2} \ beta _ {2} + \ varepsilon,}

unde X1 și X2 au dimensiuni n × p1, n × p2 și β1, β2 sunt p1 × 1 și p2 × 1 vectori, cu p1 + p2 = p.

M 1 y = M 1 X 2 β 2 + η, {\ displaystyle M_ {1} y = M_ {1} X_ {2} \ beta _ {2 } + \ eta \ ,,}

unde M1 este matricea anihilator pentru regresorii X1.

Teorema poate fi utilizată pentru a stabili un număr de rezultate teoretice. De exemplu, a avea o regresie cu o constantă și cu un alt regresor este echivalent cu scăderea mediilor din variabila dependentă și regresor și apoi rularea regresiei pentru variabilele fără medie, dar fără termenul constant.

estimationEdit

Articol principal: Regresie Ridge

Să presupunem că se știe că coeficienții din regresie satisfac un sistem de ecuații liniare

A: QT β = c, {\ displaystyle Un \ colon \ quad Q ^ {T} \ beta = c, \,}

unde Q este ap × q matrice de rang complet și c este aq × 1 vector de constante cunoscute, unde q < p. În acest caz, estimarea celor mai mici pătrate este echivalentă cu minimizarea sumei reziduurilor pătrate ale modelului supus constrângerii A. Estimatorul celor mai mici pătrate constrânse (CLS) poate fi dat printr-o formulă explicită: – (XTX) – 1 Q (QT (XTX) – 1 Q) – 1 (QT β ^ – c). {\ displaystyle {\ hat {\ beta}} ^ {c} = {\ hat {\ beta}} – (X ^ {T} X) ^ {- 1} Q {\ Big (} Q ^ {T} ( X ^ {T} X) ^ {- 1} Q {\ Big)} ^ {- 1} (Q ^ {T} {\ hat {\ beta}} – c).}

Această expresie pentru restricționarea estimatorul este valabil atâta timp cât matricea XTX este inversabilă. S-a presupus de la începutul acestui articol că această matrice este de rang complet și s-a observat că atunci când condiția de rang eșuează, β nu va fi identificabilă. Cu toate acestea, se poate întâmpla ca adăugarea restricției A să o facă β identificabilă, caz în care s-ar dori să se găsească formula pentru estimator. Estimatorul este egal cu

β ^ c = R (RTXTXR) – 1 RTXT y + (I p – R (RTXTXR) – 1 RTXTX) Q (QTQ) – 1 c, {\ displaystyle {\ hat {\ beta}} ^ {c} = R (R ^ {T} X ^ {T} XR) ^ {- 1} R ^ {T} X ^ {T} y + {\ Big (} I_ {p} -R ( R ^ {T} X ^ {T} XR) ^ {- 1} R ^ {T} X ^ {T} X {\ Big)} Q (Q ^ {T} Q) ^ {- 1} c,}

unde R este matrică ap × (p – q) astfel încât matricea nu este singulară și RTQ = 0. O astfel de matrice poate fi întotdeauna găsită, deși, în general, nu este unică. A doua formulă coincide cu prima în cazul în care XTX este inversabilă.

Proprietăți mari ale eșantionului Edit

Estimatorii celor mai mici pătrate sunt estimări punctuale ale parametrilor modelului de regresie liniară β. Cu toate acestea, în general, dorim să știm cât de apropiate ar putea fi aceste estimări de valorile reale ale parametrilor. Cu alte cuvinte, vrem să construim estimările intervalului.

Deoarece nu am făcut nicio presupunere cu privire la distribuția termenului de eroare εi, este imposibil să deducem distribuția estimatorilor β ^ {\ displaystyle {\ hat {\ beta}}} și σ ^ 2 {\ displaystyle {\ hat {\ sigma}} ^ {2}}. Cu toate acestea, putem aplica teorema limitei centrale pentru a obține proprietățile lor asimptotice pe măsură ce mărimea e Deși dimensiunea eșantionului este în mod necesar finită, este obișnuit să presupunem că n este „suficient de mare”, astfel încât distribuția adevărată a estimatorului OLS să fie aproape de limita sa asimptotică.

(β ^ – β) → d N (0, σ 2 Q xx – 1), {\ displaystyle ({\ hat {\ beta}} – \ beta) \ {\ xrightarrow {d}} \ { \ mathcal {N}} {\ big (} 0, \; \ sigma ^ {2} Q_ {xx} ^ {- 1} {\ big)},}

unde Q xx = XTX. {\ displaystyle Q_ {xx} = X ^ {T} X.}

IntervalsEdit

Articole principale: Interval de încredere și Interval de predicție

Utilizarea acestei distribuții asimptotice , intervalele aproximative de încredere față-verso pentru componenta j-a vectorului β ^ {\ displaystyle {\ hat {\ beta}}} pot fi construite ca

β j ∈ jj] {\ displaystyle \ beta _ { j} \ in {\ bigg _ {jj}}} \ {\ bigg]}} la nivelul de încredere 1 – α,

unde q denotă funcția cuantilă a distribuției normale standard, iar jj este j-a diagonală element al unei matrice.

În mod similar, cel mai mic pătrat estimator pentru σ2 este, de asemenea, consistent și asimptotic normal (cu condiția să existe al patrulea moment al lui εi) cu distribuție limitativă

(σ ^ 2 – σ 2 ) → d N (0, E ⁡ – σ 4). {\ displaystyle ({\ hat {\ sigma}} ^ {2} – \ sigma ^ {2}) \ {\ xrightarrow {d}} \ {\ mathcal {N}} \ left (0, \; \ operatorname { E} \ left- \ sigma ^ {4} \ right).} (Y ^ 0 – y 0) → d N (0, σ 2 x 0 TQ xx – 1 x 0), {\ displaystyle \ left ({\ pălărie {y}} _ {0} -y_ {0} \ right) \ {\ xrightarrow {d}} \ {\ mathcal {N}} \ left (0, \; \ sigma ^ {2} x_ {0} ^ {\ mathrm {T}} Q_ {xx} ^ {- 1} x_ {0} \ right),}

care permite construirea intervalelor de încredere pentru răspunsul mediu y 0 {\ displaystyle y_ {0}} :

y 0 ∈ {\ displaystyle y_ {0} \ in \ left} la nivelul de încredere 1 – α.

Testarea ipotezeiEdit

Articolul principal: Testarea ipotezei

Această secțiune necesită extindere. Puteți ajuta adăugând la acesta. (Februarie 2017)

Sunt utilizate în mod deosebit două teste de ipoteză. În primul rând, se dorește să știm dacă ecuația de regresie estimată este mai bună decât simpla prezicere a faptului că toate valorile variabilei de răspuns sunt egale cu media eșantionului său (dacă nu, se spune că nu are putere explicativă). Ipoteza nulă a nicio valoare explicativă a regresiei estimate este testată folosind un test F. Dacă valoarea F calculată este suficient de mare pentru a depăși valoarea sa critică pentru nivelul de semnificație preselectat, ipoteza nulă este respinsă și se acceptă ipoteza alternativă, că regresia are putere explicativă. În caz contrar, se acceptă ipoteza nulă a nicio putere explicativă.

În al doilea rând, pentru fiecare variabilă explicativă de interes, se dorește să se știe dacă coeficientul său estimat diferă semnificativ de zero – adică dacă această variabilă explicativă particulară în faptul are putere explicativă în prezicerea variabilei de răspuns. Aici ipoteza nulă este că adevăratul coeficient este zero. Această ipoteză este testată prin calcularea coeficientului „statistica t, ca raportul dintre coeficientul estimat și eroarea sa standard. Dacă statistica t este mai mare decât o valoare predeterminată, ipoteza nulă este respinsă și se constată că variabila are putere explicativă, cu coeficientul său semnificativ diferit de zero. În caz contrar, se acceptă ipoteza nulă a unei valori zero a coeficientului adevărat.

În plus, testul Chow este utilizat pentru a testa dacă două subprobe au ambele aceleași valori ale coeficientului adevărat. Suma reziduurilor pătrate de regresii pe fiecare dintre subseturi și pe setul de date combinate sunt comparate calculând o statistică F; dacă aceasta depășește o valoare critică, ipoteza nulă a nicio diferență între cele două subseturi este respins; în caz contrar, este acceptat.

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *