Rendes legkisebb négyzetek
AssumptionsEdit
A lineáris regressziós modell többféle keretrendszerben is bevethető az OLS technika alkalmazhatósága érdekében. Ezen beállítások mindegyike ugyanazt a képletet és eredményt adja. Az egyetlen különbség az értelmezés és a feltételezések, amelyeket fel kell állítani ahhoz, hogy a módszer érdemi eredményeket adjon. Az alkalmazandó keretrendszer kiválasztása leginkább a kezelt adatok jellegétől és az elvégzendő következtetési feladattól függ.
Az értelmezési különbségek egyik vonala az, hogy a regresszorokat véletlenszerűen kezeljük-e. változók, vagy előre definiált konstansok. Az első esetben (véletlenszerű tervezés) az xi regresszorok véletlenszerűek, és a populációból származó yi-kkel együtt mintavételre kerülnek, mint egy megfigyelési tanulmányban. Ez a megközelítés lehetővé teszi a becslők aszimptotikus tulajdonságainak természetesebb vizsgálatát. (fix kialakítás), az X regresszorokat ismert tervek által beállított konstansokként kezeljük, és y-ből feltételesen mintákat veszünk az X értékeire, mint egy kísérlet során. Gyakorlati célokból ez a megkülönböztetés gyakran nem fontos, mivel becslést és következtetést hajtanak végre miközben az X-et kondicionálják. A cikkben megfogalmazott összes eredmény a véletlenszerű tervezési keretek között van.
Klasszikus lineáris regressziós modellEdit
A klasszikus modell a „véges minta” becslésére és következtetésére összpontosít, ez azt jelenti, hogy az n megfigyelés száma rögzített. Ez ellentétben áll a többi megközelítéssel, amelyek az OLS aszimptotikus viselkedését tanulmányozzák, és amelyekben a megfigyelések számát hagyják a végtelenségig növekedni. Az exogenitás feltételezésének hátterében az áll, hogy a hibák átlagos értéke nulla: E = 0, és hogy a regresszorok nincsenek korrelálva a hibákkal: E = 0. Az exogenitás feltételezése kritikus az OLS elmélet szempontjából. Ha ez érvényes, akkor a regresszor változókat exogénnek nevezzük. Ha nem “t”, akkor azokat a regresszorokat, amelyek korrelálnak a hibataggal, endogénnek nevezzük, majd az OLS becslések érvénytelenné válnak. Ebben az esetben a következtetések végrehajtására az instrumentális változók módszere használható. Általában azt is feltételezzük, hogy hogy a regresszoroknak véges pillanataik vannak legalább a második pillanatig. Ekkor a Qxx = E mátrix véges és pozitív félhatározott. Ha ezt a feltételezést megsértik, a regresszorokat lineárisan függőnek vagy tökéletesen multikollinárisnak nevezzük. Ebben az esetben a A β regressziós együtthatót nem lehet megtanulni, bár az y értékek előrejelzése továbbra is lehetséges az ugyanazon lineárisan függő altérben elhelyezkedő regresszorok új értékeire.
- Gömbhibák: Var = σ 2 I n, {\ displaystyle \ operátornév {Var} = \ sigma ^ {2} I_ {n},}
ahol In az n dimenzió identitási mátrixa, σ2 pedig egy paraméter, amely meghatározza az egyes megfigyelések szórását. A σ2 kellemetlen paraméternek számít a modellben, alth általában általában becsülik is. Ha ezt a feltételezést megsértik, az OLS becslések továbbra is érvényesek, de már nem hatékonyak. Szokás ezt a feltételezést két részre osztani:
- Homoscedaszticitás: E = σ2, ami azt jelenti, hogy a hiba kifejezésnek minden megfigyelésnél ugyanaz a σ2 szórása. Ha ezt a követelményt megsértik, ezt heteroszkedaszticitásnak nevezzük, ebben az esetben egy hatékonyabb becslőt a legkisebb négyzetekkel súlyozunk. Ha a hibáknak végtelen szórása van, akkor az OLS becsléseknek is végtelen szórása lesz (bár nagy számok törvénye szerint mindazonáltal a valódi értékek felé hajlamosak mindaddig, amíg a hibák értéke nulla). Ebben az esetben robusztus becslési technikák ajánlottak.
- Nincs autokorreláció: a hibák nincsenek korrelálva a megfigyelések között: E = 0 i ≠ j esetén. Ez a feltételezés megsérülhet idősoradatok, paneladatok, klaszterminták, hierarchikus adatok, ismételt mérési adatok, longitudinális adatok és más, függőségekkel rendelkező adatok összefüggésében. Ilyen esetekben az általánosított legkisebb négyzetek jobb alternatívát nyújtanak, mint az OLS. Az autokorreláció másik kifejezése a soros korreláció.
Erre a feltevésre nincs szükség az OLS módszer érvényességéhez, bár bizonyos további véges-minta tulajdonságok megadhatók abban az esetben, ha mégis (főleg a hipotézisek tesztelése). Szintén, ha a hibák normálisak, az OLS becslő egyenértékű a maximális valószínűség becslővel (MLE), és ezért aszimptotikusan hatékony az összes reguláris becslő osztályában. Fontos, hogy a normalitás feltételezése csak a hibakifejezésekre vonatkozik; a közkedvelt tévhitektől eltérően a válasz (függő) változót nem kell normálisan elosztani.
Független és azonos eloszlású (iid) szerkesztés
Bizonyos alkalmazásokban, különösen keresztmetszeti adatokkal, további feltételezést vetnek fel – hogy minden megfigyelés független és azonos eloszlású.Ez azt jelenti, hogy az összes megfigyelést véletlenszerű mintából veszik, amely az összes korábban felsorolt feltételezést egyszerűbbé és könnyebben értelmezhetővé teszi. Ez a keretrendszer lehetővé teszi aszimptotikus eredmények megállapítását (mint az n → ∞ mintaméret), amelyek elméleti lehetőségként értendők új független megfigyelések lehívásához az adatgeneráló folyamatból. A feltételezések listája ebben az esetben a következő:
Idősor modelEdit
Véges minta tulajdonságaiEdit
Először is, a szigorú exogenitás feltételezés mellett az OLS becslők β ^ A {\ displaystyle \ scriptstyle {\ hat {\ beta}}} és az s2 elfogulatlan, vagyis várható értékük egybeesik a paraméterek valódi értékeivel:
E = β, E = σ 2. {\ displaystyle \ operátornév {E} = \ beta, \ quad \ operátornév {E} = \ sigma ^ {2}.}
Ha a szigorú exogenitás nem áll fenn (mint sok idősoros modell esetében, ahol az exogenitást csak a múltbeli sokkokra vonatkozóan feltételezzük, a jövőre nézve nem), akkor ezek a becslők véges mintákban elfogultak lesznek.
A β ^ {\ variancia-kovariancia mátrix (vagy egyszerűen csak kovariancia mátrix). displaystyle \ scriptstyle {\ hat {\ beta}}} egyenlő:
Var = σ 2 (XTX) – 1 = σ 2 Q. {\ displaystyle \ operátornév {Var} = \ sigma ^ {2} (X ^ {T} X) ^ {- 1} = \ sigma ^ {2} Q.}
Különösen az egyes együtthatók szokásos hibája A β ^ j {\ displaystyle \ scriptstyle {\ hat {\ beta}} _ {j}} egyenlő a mátrix j-edik átlós elemének négyzetgyökével. Ennek a standard hibának a becslését úgy kapjuk meg, hogy az ismeretlen σ2 mennyiséget az s2 becsléssel helyettesítjük. Így
s. e. ^ (β ^ j) = s 2 (XTX) jj – 1 {\ displaystyle {\ widehat {\ operátornév {s. \! e.}}} ({\ hat {\ beta}} _ {j}) = { \ sqrt {s ^ {2} (X ^ {T} X) _ {jj} ^ {- 1}}}} Cov = 0. {\ displaystyle \ operátornév {Cov} = 0.}
A Gausok –Markov-tétel kimondja, hogy a gömbhibák feltételezése (vagyis a hibáknak korrelálatlannak és homoszkedasztikusnak kell lenniük) a β ^ {\ displaystyle \ scriptstyle {\ hat {\ beta}}} becslő hatékony a lineáris elfogulatlan becslők osztályában. Ezt hívják a legjobb lineáris elfogulatlan becslőnek (KÉK). A hatékonyságot úgy kell érteni, mintha valami más becslőt találnánk β ~ {\ displaystyle \ scriptstyle {\ tilde {\ beta}}}, amely y-ban lineáris lenne és elfogulatlan, akkor
Var – Var ≥ 0 {\ displaystyle \ operátornév {Var} – \ operatorname {Var} \ geq 0}
abban az értelemben, hogy ez nem negatív-definitív mátrix. Ez a tétel csak a lineáris, elfogulatlan becslők osztályában állapítja meg az optimalitást, ami meglehetősen korlátozó. Az ε hibakódok eloszlásától függően más, nem lineáris becslők jobb eredményeket érhetnek el, mint az OLS.
Feltételezve a normalalityEdit
Az eddig felsorolt tulajdonságok mind érvényesek, a a hiba kifejezések mögöttes eloszlása. Ha azonban hajlandó feltételezni, hogy a normalitásfeltevés fennáll (vagyis hogy ε ~ N (0, σ2In)), akkor az OLS-becslők további tulajdonságai is megadhatók.
A β ^ becslő A {\ displaystyle \ scriptstyle {\ hat {\ beta}}} rendszerint eloszlik, az előzőkben megadott átlaggal és szórással:
β ^ ∼ N (β, σ 2 (XTX) – 1) {\ displaystyle {\ hat {\ beta}} \ \ sim \ {\ mathcal {N}} {\ big (} \ beta, \ \ sigma ^ {2} (X ^ {\ mathrm {T}} X) ^ {- 1} { \ big)}}
ahol Q a kofaktor mátrix. Ez a becslő eléri a modellhez kötött Cramér – Rao-t, és így optimális az összes elfogulatlan becslő osztályában. Ne feledje, hogy a Gauss – Markov-tételtől eltérően ez az eredmény megteremti az optimálist mind a lineáris, mind a nem-lineáris becslők között, de csak normálisan elosztott hibatagok esetén. négyzetes eloszlás:
s 2 ∼ σ 2 n – p ⋅ χ n – p 2 {\ displaystyle s ^ {2} \ \ sim \ {\ frac {\ sigma ^ {2}} {np}} \ cdot \ chi _ {np} ^ {2}}
Ennek a becslésnek a szórása megegyezik 2σ4 / (n – p) értékkel, ami nem éri el a 2σ4 / n Cramér – Rao határértékét. Kimutatták azonban, hogy nincsenek elfogulatlan σ2 becslők, amelyek szórása kisebb, mint az s2 becslőé. Ha hajlandóak vagyunk elfogult becsléseket engedélyezni, és figyelembe vesszük a becslők osztályát, amely arányos a modell négyzet maradványainak (SSR) összegével, akkor ebben az osztályban a legjobb (az átlagos négyzethiba értelmében) becslő lesz ~ σ2 = SSR / (n – p + 2), amely még a Cramér – Rao kötést is megveri abban az esetben, ha csak egy regresszor van (p = 1).
Hatásos megfigyelésekEdit
Mint korábban említettük, a becslő β ^ {\ displaystyle {\ hat {\ beta}}} lineáris y-ben, ami azt jelenti, hogy a függő yi változók lineáris kombinációját képviseli. A súlyok ebben a lineáris kombinációban az X regresszorok függvényei, és általában egyenlőtlenek. A nagy súlyú megfigyeléseket azért nevezzük befolyásolónak, mert ezek kifejezettebb hatást gyakorolnak a becslő értékére.
Annak elemzéséhez, hogy mely megfigyelések befolyásolják, eltávolítunk egy konkrét j-edik megfigyelést, és megvizsgáljuk, hogy a becsült mennyiségek mennyire változnak (hasonlóan a jackknife módszerhez). Megmutatható, hogy az OLS-becslő változása a β esetén egyenlő lesz:
β ^ (j) – β ^ = – 1 1 – hj (XTX) – 1 xj T ε ^ j, {\ displaystyle { \ hat {\ beta}} ^ {(j)} – {\ hat {\ beta}} = – {\ frac {1} {1-h_ {j}}} (X ^ {\ mathrm {T}} X ) ^ {- 1} x_ {j} ^ {\ mathrm {T}} {\ hat {\ varepsilon}} _ {j} \ ,,}
ahol hj = xjT (XTX) −1xj a j- A kalapmátrix P átlós eleme, és xj a j-edik megfigyelésnek megfelelő regresszorok vektora. Hasonlóképpen, a j-edik megfigyelés előrejelzett értékének változása, amely abból ered, hogy ezt a megfigyelést kihagyták az adatkészletből, egyenlő lesz:
y ^ j (j) – y ^ j = xj T β ^ = – hj 1 – hj ε ^ j {\ displaystyle {\ hat {y}} _ {j} ^ {(j)} – {\ hat {y}} _ {j} = x_ {j} ^ { \ mathrm {T}} {\ hat {\ beta}} ^ {(j)} – x_ {j} ^ {T} {\ hat {\ beta}} = – {\ frac {h_ {j}} {1 -h_ {j}}} \, {\ hat {\ varepsilon}} _ {j}}
A kalapmátrix tulajdonságaiból 0 ≤ hj ≤ 1, és összegezik p-t, így átlagosan hj ≈ p / n. Ezeket a hj mennyiségeket tőkeáttételeknek, a magas hj értékű megfigyeléseket tőkeáttételi pontoknak nevezzük. Általában a nagy tőkeáttétellel végzett megfigyeléseket körültekintőbben kell megvizsgálni, ha hibásak vagy szélsőségesebbek, vagy más módon atipikusak az adathalmaz többi részével szemben.
Particionált regressziós szerkesztés
Néha a regresszióban szereplő változókat és a megfelelő paramétereket logikailag két csoportra oszthatjuk, így a regresszió formát ölthet
y = X 1 β 1 + X 2 β 2 + ε, {\ displaystyle y = X_ {1 } \ beta _ {1} + X_ {2} \ beta _ {2} + \ varepsilon,}
ahol X1 és X2 méretei n × p1, n × p2, β1, β2 pedig p1 × 1 és p2 × 1 vektorok, p1 + p2 = p-vel.
M 1 y = M 1 X 2 β 2 + η, {\ displaystyle M_ {1} y = M_ {1} X_ {2} \ beta _ {2 } + \ eta \ ,,}
ahol M1 az X1 regresszorok megsemmisítő mátrixa.
A tétel felhasználható számos elméleti eredmény megállapítására. Például egy állandóval és egy másik regresszorral történő regresszió egyenértékű azzal, hogy kivonjuk az átlagokat a függő változóból és a regresszorból, majd a regressziót lefuttatjuk a de-mean változókra, de az állandó kifejezés nélkül.
Korlátozott becslésEdit
Tegyük fel, hogy ismert, hogy a regresszióban szereplő együtthatók kielégítik a lineáris egyenletrendszert
A: QT β = c, {\ displaystyle A \ kettes \ quad Q ^ {T} \ beta = c, \,}
ahol Q teljes rangú ap × q mátrix, és c ismert konstansok aq × 1 vektora, ahol q < o. Ebben az esetben a legkisebb négyzetek becslése egyenértékű az A korlátozás alá eső modell négyzetbeli maradványainak összegének minimalizálásával. A korlátozott legkisebb négyzetek (CLS) becslőjét egy explicit képlettel lehet megadni:
β ^ c = β ^ – (XTX) – 1 Q (QT (XTX) – 1 Q) – 1 (QTp ^ – c). {\ displaystyle {\ hat {\ beta}} ^ {c} = {\ hat {\ beta}} – (X ^ {T} X) ^ {- 1} Q {\ Big (} Q ^ {T} ( X ^ {T} X) ^ {- 1} Q {\ Big)} ^ {- 1} (Q ^ {T} {\ hat {\ beta}} – c).}
A korlátozott kifejezés a becslő addig érvényes, amíg az XTX mátrix invertálható. A cikk elejétől azt feltételezték, hogy ez a mátrix teljes rangú, és megjegyezték, hogy amikor a rangfeltétel kudarcot vall, a β nem lesz azonosítható. Előfordulhat azonban, hogy az A korlátozás hozzáadása azonosíthatóvá teszi a β-t, ebben az esetben meg szeretné találni a becslés képletét. A becslő egyenlő:
β ^ c = R (RTXTXR) – 1 RTXT y + (I p – R (RTXTXR) – 1 RTXTX) Q (QTQ) – 1 c, {\ displaystyle {\ hat {\ beta}} ^ {c} = R (R ^ {T} X ^ {T} XR) ^ {- 1} R ^ {T} X ^ {T} y + {\ Big (} I_ {p} -R ( R ^ {T} X ^ {T} XR) ^ {- 1} R ^ {T} X ^ {T} X {\ Big)} Q (Q ^ {T} Q) ^ {- 1} c,}
ahol R jelentése ap × (p – q) mátrix úgy, hogy a mátrix nem egyes, és RTQ = 0. Ilyen mátrix mindig megtalálható, bár általában nem egyedi. A második képlet egybeesik az elsővel abban az esetben, ha az XTX invertálható.
Nagy mintatulajdonságokEdit
A legkisebb négyzetbecslők a β lineáris regressziós modell paramétereinek pontbecslései. Általában azonban azt is szeretnénk tudni, hogy ezek a becslések milyen közel lehetnek a paraméterek valódi értékeihez. Más szavakkal, meg akarjuk konstruálni az intervallumbecsléseket.
Mivel még nem feltételeztük az εi hibatag eloszlását, lehetetlen következtetni a becslők β ^ {\ displaystyle eloszlására {\ hat {\ beta}}} és σ ^ 2 {\ displaystyle {\ hat {\ sigma}} ^ {2}}. Mindazonáltal alkalmazhatjuk a központi határtételt aszimptotikus tulajdonságaik levezetésére, amint az n mintaméret Míg a minta mérete szükségszerűen véges, szokás azt feltételezni, hogy n “elég nagy” ahhoz, hogy az OLS becslő valódi eloszlása közel legyen aszimptotikus határához.
(β ^ – β) → d N (0, σ 2 Q xx – 1), {\ displaystyle ({\ hat {\ beta}} – \ beta) \ {\ xrightarrow {d}} \ { \ mathcal {N}} {\ big (} 0, \; \ sigma ^ {2} Q_ {xx} ^ {- 1} {\ big)},}
ahol Q xx = XTX. {\ displaystyle Q_ {xx} = X ^ {T} X.}
IntervalsEdit
Ennek az aszimptotikus eloszlásnak a használata , a β ^ {\ displaystyle {\ hat {\ beta}}} vektor j-edik komponensének hozzávetőleges kétoldalas konfidenciaintervallumai úgy szerkeszthetők, hogy
β j ∈ jj] {\ displaystyle \ beta _ { j} \ in {\ bigg _ {jj}}} \ {\ bigg]}} 1 – α konfidencia szinten,
ahol q a normál normális eloszlás kvantilfüggvényét jelöli, és jj a j-edik átló mátrix eleme.
Hasonlóképpen, a σ2 legkisebb négyzetbecslője szintén következetes és aszimptotikusan normális (feltéve, hogy az εi negyedik momentuma létezik) korlátozó eloszlással
(σ ^ 2 – σ 2 ) → d N (0, E – σ 4). {\ displaystyle ({\ hat {\ sigma}} ^ {2} – \ sigma ^ {2}) \ {\ xrightarrow {d}} \ {\ mathcal {N}} \ left (0, \; \ operatorname { E} \ bal- \ sigma ^ {4} \ jobb).} (Y ^ 0 – y 0) → d N (0, σ 2 x 0 TQ xx – 1 x 0), {\ displaystyle \ bal ({\ kalap {y}} _ {0} -y_ {0} \ right) \ {\ xrightarrow {d}} \ {\ mathcal {N}} \ left (0, \; \ sigma ^ {2} x_ {0} ^ {\ mathrm {T}} Q_ {xx} ^ {- 1} x_ {0} \ right),}
amely lehetővé teszi a konfidencia intervallumok konstruálását az y 0 átlagos válaszhoz {\ displaystyle y_ {0}} :
y 0 ∈ {\ displaystyle y_ {0} \ in \ left} 1 – α konfidencia szinten.
HipotézistesztelésEdit
Két hipotézis tesztet alkalmaznak különösen széles körben. Először is azt akarjuk tudni, hogy a becsült regressziós egyenlet jobb-e, mint egyszerűen annak előrejelzése, hogy a válaszváltozó összes értéke megegyezik a minta átlagával (ha nem, akkor állítólag nincs magyarázó ereje). A becsült regresszió magyarázatlan értékének nullhipotézisét F-teszttel teszteljük. Ha a számított F-értéket elég nagynak találják ahhoz, hogy meghaladja az előre kiválasztott szignifikanciaszint kritikus értékét, akkor a nullhipotézist elvetik, és elfogadják azt az alternatív hipotézist, miszerint a regressziónak magyarázó ereje van. Ellenkező esetben a nullhipotézis, miszerint nincs magyarázóerő, elfogadható.
Másodszor, minden érdeklődésre számot tartó magyarázó változónál tudni akarjuk, hogy becsült együtthatója különbözik-e jelentősen a nullától – vagyis hogy az adott magyarázó változó a ténynek magyarázó ereje van a válaszváltozó előrejelzésében. Itt a nullhipotézis az, hogy a valódi együttható nulla. Ezt a hipotézist az együttható s-statisztikájának kiszámításával tesztelik, az együttható-becslés és a standard hiba arányában. Ha a t-statisztika nagyobb, mint egy előre meghatározott érték, akkor a nullhipotézist elvetjük, és a változónak megvan magyarázóerő, amelynek együtthatója jelentősen különbözik a nullától. Ellenkező esetben a valódi együttható nulla értékének nullhipotézise elfogadható.
Ezenkívül a Chow-tesztet használják annak tesztelésére, hogy két alminta rendelkezik-e a Az egyes részhalmazok és az egyesített adatsorok regresszióinak négyzet maradványainak összegét F-statisztika kiszámításával hasonlítjuk össze; ha ez meghaladja a kritikus értéket, akkor a két részhalmaz közötti különbség nullhipotézise elutasításra kerül, különben elfogadják.