Obyčejné nejmenší čtverce
AssumptionsEdit
Existuje několik různých rámců, do kterých lze model lineární regrese vložit aby bylo možné použít techniku OLS. Každé z těchto nastavení vytváří stejné vzorce a stejné výsledky. Jediným rozdílem je interpretace a předpoklady, které musí být stanoveny, aby metoda poskytla smysluplné výsledky. Volba použitelného rámce závisí hlavně na povaze dat, která jsou k dispozici, a na odvozovacím úkolu, který je třeba provést.
Jednou z odlišných interpretačních linií je, zda se má s regresory zacházet jako s náhodnými proměnné nebo jako předdefinované konstanty. V prvním případě (náhodný design) jsou regresory xi náhodné a jsou vzorkovány společně s yi z některé populace, jako v observační studii. Tento přístup umožňuje přirozenější studium asymptotických vlastností odhadů. (pevný design), regresory X jsou považovány za známé konstanty stanovené designem a y je podmíněně vzorkováno na hodnotách X jako v experimentu. Z praktických důvodů je tento rozdíl často nedůležitý, protože se provádí odhad a odvození při kondicionování na X. Všechny výsledky uvedené v tomto článku jsou v rámci náhodného návrhu.
Klasický lineární regresní modelEdit
Klasický model se zaměřuje na odhad a odvození „konečného vzorku“, což znamená, že počet pozorování n je neměnný. To kontrastuje s ostatními přístupy, které studují asymptotické chování OLS a ve kterých je počet pozorování umožněn růst do nekonečna.
Okamžitý důsledek Předpoklad exogenity spočívá v tom, že chyby mají průměrnou nulu: E = 0 a že regresory nesouvisí s chybami: E = 0. Předpoklad exogenity je pro teorii OLS zásadní. Pokud platí, pak se regresní proměnné nazývají exogenní. Pokud tomu tak není, pak ty regresory, které jsou korelovány s chybovým termínem, se nazývají endogenní a potom se odhady OLS stávají neplatnými. V takovém případě lze k provedení závěru použít metodu instrumentálních proměnných. Obvykle se také předpokládá že regresory mají konečné momenty až do alespoň druhého okamžiku. Pak je matice Qxx = E konečná a pozitivní semitečná. Když je tento předpoklad porušen, regresory se nazývají lineárně závislé nebo dokonale multicollineární. V takovém případě je hodnota regresní koeficient β nelze naučit, i když pro nové hodnoty regresorů, které leží ve stejném lineárně závislém podprostoru, je stále možné predikovat hodnoty y.
- Sférické chyby: Var = σ 2 I n, {\ displaystyle \ operatorname {Var} = \ sigma ^ {2} I_ {n},}
kde In je matice identity v dimenzi n a σ2 je parametr, který určuje rozptyl každého pozorování. σ2 je v modelu považován za obtěžující parametr, alth ough, obvykle se to také odhaduje. Pokud je tento předpoklad porušen, pak jsou odhady OLS stále platné, ale již neúčinné. Je obvyklé tento předpoklad rozdělit na dvě části:
- Homoscedasticity: E = σ2, což znamená, že chybný člen má v každém pozorování stejnou odchylku σ2. Když je tento požadavek porušen, říká se tomu heteroscedasticita, v takovém případě by byl účinnější odhadce vážen nejmenšími čtverci. Pokud chyby mají nekonečnou rozptyl, pak budou mít odhady OLS také nekonečnou rozptyl (i když podle zákona velkého počtu budou přesto inklinovat ke skutečným hodnotám, pokud budou mít chyby nulovou střední hodnotu). V tomto případě se doporučují robustní techniky odhadu.
- Žádná autokorelace: chyby mezi pozorováními nekorelují: E = 0 pro i ≠ j. Tento předpoklad může být porušen v kontextu dat časových řad, dat panelů, vzorků klastrů, hierarchických dat, dat opakovaných měření, longitudinálních dat a dalších dat se závislostmi. V takových případech poskytuje zobecněné nejmenší čtverce lepší alternativu než OLS. Dalším výrazem pro autokorelaci je sériová korelace.
Tento předpoklad není pro platnost metody OLS nutný, i když v případě, že ano, lze určit určité další vlastnosti konečných vzorků (zejména v oblasti testování hypotéz). Když jsou chyby normální, odhad OLS je ekvivalentní odhadu maximální pravděpodobnosti (MLE), a proto je asymptoticky efektivní ve třídě všech běžných odhadů. Důležité je, že předpoklad normality se vztahuje pouze na chybové podmínky; na rozdíl od populární mylné představy se nevyžaduje, aby proměnná odezvy (závislá) byla normálně distribuována.
Nezávislé a identicky distribuované (iid) Upravit
V některých aplikacích, zejména u průřezových dat, je stanoven další předpoklad – že všechna pozorování jsou nezávislá a identicky distribuovaná.To znamená, že všechna pozorování jsou převzata z náhodného vzorku, což zjednodušuje a usnadňuje interpretaci všech dříve uvedených předpokladů. Také tento rámec umožňuje určit asymptotické výsledky (jako velikost vzorku n → ∞), které jsou chápány jako teoretická možnost získání nových nezávislých pozorování z procesu generování dat. Seznam předpokladů v tomto případě je:
Časová řada modelEdit
Konečné vlastnosti vzorkuEdit
Nejprve za přísného předpokladu exogenity předpokládají odhady OLS β ^ {\ displaystyle \ scriptstyle {\ hat {\ beta}}} a s2 jsou nezaujaté, což znamená, že jejich očekávané hodnoty se shodují se skutečnými hodnotami parametrů:
E = β, E = σ 2. {\ displaystyle \ operatorname {E} = \ beta, \ quad \ operatorname {E} = \ sigma ^ {2}.}
Pokud přísná exogenita neplatí (jako je tomu u mnoha modelů časových řad, kde exogenita se předpokládá pouze s ohledem na minulé šoky, nikoli však na budoucí), pak budou tyto odhady zkreslené v konečných vzorcích.
Variačně-kovarianční matice (nebo jednoduše kovarianční matice) β ^ {\ displaystyle \ scriptstyle {\ hat {\ beta}}} se rovná
Var = σ 2 (XTX) – 1 = σ 2 Q. {\ displaystyle \ operatorname {Var} = \ sigma ^ {2} (X ^ {T} X) ^ {- 1} = \ sigma ^ {2} Q.}
Zejména standardní chyba každého koeficientu β ^ j {\ displaystyle \ scriptstyle {\ hat {\ beta}} _ {j}} se rovná druhé odmocnině j-tého diagonálního prvku této matice. Odhad této standardní chyby se získá nahrazením neznámé veličiny σ2 jejím odhadem s2. Tedy
s. e. ^ (β ^ j) = s 2 (XTX) jj – 1 {\ displaystyle {\ widehat {\ operatorname {s. \! e.}}} ({\ hat {\ beta}} _ {j}) = { \ sqrt {s ^ {2} (X ^ {T} X) _ {jj} ^ {- 1}}}} Cov = 0. {\ displaystyle \ operatorname {Cov} = 0.}
Gauss –Markovova věta uvádí, že za předpokladu sférických chyb (tj. Chyby by neměly být korelované a homoscedastické) je odhadovač β ^ {\ displaystyle \ scriptstyle {\ hat {\ beta}}} účinný ve třídě lineárních objektivních odhadů. Tomu se říká nejlepší lineární nezaujatý odhad (MODRÝ). Efektivitu je třeba chápat tak, jako kdybychom našli nějaký jiný odhad β ~ {\ displaystyle \ scriptstyle {\ tilde {\ beta}}}, který by byl lineární v y a nezaujatý, pak
Var – Var ≥ 0 {\ displaystyle \ operatorname {Var} – \ operatorname {Var} \ geq 0}
v tom smyslu, že se jedná o nezáporně definitivní matici. Tato věta stanoví optimálnost pouze ve třídě lineárních nezaujatých odhadů, což je docela omezující. V závislosti na rozdělení chybových výrazů ε mohou jiné nelineární odhady poskytovat lepší výsledky než OLS.
Za předpokladu normalityEdit
Dosud uvedené vlastnosti jsou platné bez ohledu na základní rozdělení chybových podmínek. Pokud jste však ochotni předpokládat, že platí předpoklad normality (tj. Ε ~ N (0, σ2In)), pak lze uvést další vlastnosti odhadů OLS.
Odhadce β ^ {\ displaystyle \ scriptstyle {\ hat {\ beta}}} je normálně distribuován s průměrem a rozptylem, jak bylo uvedeno výše:
β ^ ∼ N (β, σ 2 (XTX) – 1) {\ displaystyle {\ klobouk {\ beta}} \ \ sim \ {\ mathcal {N}} {\ big (} \ beta, \ \ sigma ^ {2} (X ^ {\ mathrm {T}} X) ^ {- 1} { \ big)}}
kde Q je matice kofaktoru. Tento odhad dosahuje Cramér – Rao vázaného na model, a je tedy optimální ve třídě všech nezaujatých odhadů. Všimněte si, že na rozdíl od Gauss-Markovovy věty tento výsledek stanoví optimálnost lineárních i nelineárních odhadů, ale pouze v případě normálně distribuovaných chybových podmínek.
Odhad s2 bude úměrný ch čtvercová distribuce:
s 2 ∼ σ 2 n – p ⋅ χ n – p 2 {\ displaystyle s ^ {2} \ \ sim \ {\ frac {\ sigma ^ {2}} {np}} \ cdot \ chi _ {np} ^ {2}}
Rozptyl tohoto odhadu se rovná 2σ4 / (n – p), což nedosahuje hranice Cramér – Rao 2σ4 / n. Ukázalo se však, že neexistují žádné nezaujaté odhady σ2 s rozptylem menším než u odhadu s2. Pokud jsme ochotni povolit zkreslené odhady a vezmeme v úvahu třídu odhadů, která je úměrná součtu čtverců reziduí (SSR) modelu, bude nejlepší (ve smyslu střední kvadratické chyby) odhad v této třídě ~ σ2 = SSR / (n – p + 2), který dokonce překoná hranici Cramér – Rao v případě, že existuje pouze jeden regresor (p = 1).
Vlivná pozorováníUpravit
Jak již bylo zmíněno dříve, odhadce β ^ {\ displaystyle {\ hat {\ beta}}} je lineární v y, což znamená, že představuje lineární kombinaci závislých proměnných yi. Váhy v této lineární kombinaci jsou funkcemi regresorů X a jsou obecně nerovné. Pozorování s vysokými váhami se nazývají vlivná, protože mají výraznější vliv na hodnotu odhadce.
Abychom mohli analyzovat, která pozorování mají vliv, odstraníme konkrétní j-té pozorování a zvážíme, do jaké míry se odhadované množství změní (podobně jako u metody jackknife). Je možné ukázat, že změna v odhadu OLS pro β bude rovná
β ^ (j) – β ^ = – 1 1 – hj (XTX) – 1 xj T ε ^ j, {\ displaystyle { \ hat {\ beta}} ^ {(j)} – {\ hat {\ beta}} = – {\ frac {1} {1-h_ {j}}} (X ^ {\ mathrm {T}} X ) ^ {- 1} x_ {j} ^ {\ mathrm {T}} {\ hat {\ varepsilon}} _ {j} \ ,,}
kde hj = xjT (XTX) −1xj je j- th diagonální prvek kloboukové matice P a xj je vektor regresorů odpovídající j-tém pozorování. Podobně se změna predikované hodnoty pro j-té pozorování vyplývající z vynechání tohoto pozorování z datové sady bude rovnat
y ^ j (j) – y ^ j = xj T β ^ (j) – xj T β ^ = – hj 1 – hj ε ^ j {\ displaystyle {\ hat {y}} _ {j} ^ {(j)} – {\ hat {y}} _ {j} = x_ {j} ^ { \ mathrm {T}} {\ hat {\ beta}} ^ {(j)} – x_ {j} ^ {T} {\ hat {\ beta}} = – {\ frac {h_ {j}} {1 -h_ {j}}} \, {\ hat {\ varepsilon}} _ {j}}
Z vlastností kloboukové matice je 0 ≤ hj ≤ 1 a jejich součet je až p, takže v průměru hj ≈ p / n. Tyto veličiny hj se nazývají páky a pozorování s vysokou hj se nazývají pákové body. Pozorování s vysokou pákou by měla být obvykle pečlivě zkoumána, v případě, že jsou chybná nebo odlehlá, nebo jiným způsobem netypická pro zbytek datové sady.
Partitioned regressionEdit
Někdy lze proměnné a odpovídající parametry v regresi logicky rozdělit do dvou skupin, takže regrese má formu.
y = X 1 β 1 + X 2 β 2 + ε, {\ displaystyle y = X_ {1 } \ beta _ {1} + X_ {2} \ beta _ {2} + \ varepsilon,}
kde X1 a X2 mají rozměry n × p1, n × p2 a β1, β2 jsou p1 × 1 a p2 × 1 vektory, s p1 + p2 = p.
M 1 y = M 1 X 2 β 2 + η, {\ displaystyle M_ {1} y = M_ {1} X_ {2} \ beta _ {2 } + \ eta \ ,,}
kde M1 je annihilační matice pro regresory X1.
Věta může být použita k vytvoření řady teoretických výsledků. Například mít regresi s konstantou a jiným regresorem je ekvivalentní odečtení průměrů od závislé proměnné a regresoru a následnému spuštění regrese pro de-meaned proměnné, ale bez konstantního členu.
Omezené estimationEdit
Předpokládejme, že je známo, že koeficienty v regresi splňují systém lineárních rovnic.
A: QT β = c, {\ displaystyle A \ colon \ quad Q ^ {T} \ beta = c, \,}
kde Q je ap × q matice plné pozice, a c je aq × 1 vektor známých konstant, kde q < s. V tomto případě je odhad nejmenších čtverců ekvivalentní minimalizaci součtu čtverců reziduí modelu, na který se vztahuje omezení A. Odhad omezených nejmenších čtverců (CLS) může být dán explicitním vzorcem:
β ^ c = β ^ – (XTX) – 1 Q (QT (XTX) – 1 Q) – 1 (QT β ^ – c). {\ displaystyle {\ hat {\ beta}} ^ {c} = {\ hat {\ beta}} – (X ^ {T} X) ^ {- 1} Q {\ Big (} Q ^ {T} ( X ^ {T} X) ^ {- 1} Q {\ Big)} ^ {- 1} (Q ^ {T} {\ hat {\ beta}} – c).}
Tento výraz pro omezené odhad je platný, dokud je matice XTX invertibilní. Od začátku tohoto článku se předpokládalo, že tato matice má úplnou hodnost, a bylo poznamenáno, že když selže podmínka hodnosti, β nebude identifikovatelná. Může se však stát, že přidání omezení A způsobí, že β bude identifikovatelný, v takovém případě bychom chtěli najít vzorec pro odhad. Odhad je roven
β ^ c = R (RTXTXR) – 1 RTXT y + (I p – R (RTXTXR) – 1 RTXTX) Q (QTQ) – 1 c, {\ displaystyle {\ hat {\ beta}} ^ {c} = R (R ^ {T} X ^ {T} XR) ^ {- 1} R ^ {T} X ^ {T} y + {\ Big (} I_ {p} -R ( R ^ {T} X ^ {T} XR) ^ {- 1} R ^ {T} X ^ {T} X {\ Big)} Q (Q ^ {T} Q) ^ {- 1} c,}
kde R je matice ap × (p – q), takže matice není singulární, a RTQ = 0. Takovou matici lze vždy najít, i když obecně není jedinečná. Druhý vzorec se shoduje s prvním v případě, že je XTX invertibilní.
Velké vlastnosti vzorkuUpravit
Odhady nejmenších čtverců jsou bodové odhady parametrů modelu lineární regrese β. Obecně však také chceme vědět, jak blízko mohou být tyto odhady ke skutečným hodnotám parametrů. Jinými slovy, chceme sestavit intervalové odhady.
Protože jsme nevytvořili žádný předpoklad o distribuci chybového členu εi, není možné odvodit distribuci odhadů. Β ^ {\ displaystyle {\ hat {\ beta}}} a σ ^ 2 {\ displaystyle {\ hat {\ sigma}} ^ {2}}. Přesto můžeme použít centrální limitní větu k odvození jejich asymptotických vlastností, protože velikost vzorku n jde nekonečnost. I když je velikost vzorku nutně konečná, je obvyklé předpokládat, že n je „dostatečně velký“, takže skutečné rozdělení odhadu OLS se blíží jeho asymptotickému limitu.
(β ^ – β) → d N (0, σ 2 Q xx – 1), {\ displaystyle ({\ hat {\ beta}} – \ beta) \ {\ xrightarrow {d}} \ { \ mathcal {N}} {\ big (} 0, \; \ sigma ^ {2} Q_ {xx} ^ {- 1} {\ big)},}
kde Q xx = XTX. {\ displaystyle Q_ {xx} = X ^ {T} X.}
IntervalsEdit
Použití této asymptotické distribuce , přibližné dvoustranné intervaly spolehlivosti pro j-té složku vektoru lze sestavit jako
β j ∈ jj] {\ displaystyle \ beta _ {β ^ {\ displaystyle {\ hat {\ beta}}} j} \ in {\ bigg _ {jj}}} \ {\ bigg]}} na úrovni spolehlivosti 1 – α,
kde q označuje kvantilovou funkci standardního normálního rozdělení a jj je j-ta úhlopříčka prvek matice.
Podobně je odhadce nejmenších čtverců pro σ2 také konzistentní a asymptoticky normální (za předpokladu, že existuje čtvrtý okamžik εi) s omezujícím rozdělením
(σ ^ 2 – σ 2 ) → d N (0, E – σ 4). {\ displaystyle ({\ hat {\ sigma}} ^ {2} – \ sigma ^ {2}) \ {\ xrightarrow {d}} \ {\ mathcal {N}} \ left (0, \; \ operatorname { E} \ left- \ sigma ^ {4} \ right).} (Y ^ 0 – y 0) → d N (0, σ 2 x 0 TQ xx – 1 x 0), {\ displaystyle \ left ({\ hat {y}} _ {0} -y_ {0} \ right) \ {\ xrightarrow {d}} \ {\ mathcal {N}} \ left (0, \; \ sigma ^ {2} x_ {0} ^ {\ mathrm {T}} Q_ {xx} ^ {- 1} x_ {0} \ right),}
což umožňuje konstruovat intervaly spolehlivosti pro střední odezvu y 0 {\ displaystyle y_ {0}} :
y 0 ∈ {\ displaystyle y_ {0} \ in \ left} na úrovni spolehlivosti 1 – α.
Testování hypotézUpravit
Obzvláště široce se používají dva testy hypotéz. Nejprve je třeba vědět, zda je odhadovaná regresní rovnice lepší než jednoduše předpovídat, že všechny hodnoty proměnné odezvy se rovnají jejímu průměrnému vzorku (pokud ne, říká se, že nemá žádnou vysvětlující sílu). Nulová hypotéza bez vysvětlující hodnoty odhadované regrese je testována pomocí F-testu. Pokud se zjistí, že vypočítaná hodnota F je dostatečně velká, aby překročila kritickou hodnotu pro předem zvolenou hladinu významnosti, je nulová hypotéza odmítnuta a je přijata alternativní hypotéza, že regrese má vysvětlující schopnost. Jinak je přijata nulová hypotéza, že neexistuje žádná vysvětlující síla.
Zadruhé, pro každou sledovanou vysvětlující proměnnou je třeba vědět, zda se její odhadovaný koeficient významně liší od nuly – tj. Zda tato konkrétní vysvětlující proměnná v fakt má vysvětlující sílu v predikci proměnné odezvy. Zde je nulová hypotéza, že skutečný koeficient je nula. Tato hypotéza je testována výpočtem t-statistiky koeficientu jako poměru odhadu koeficientu k jeho standardní chybě. Pokud je t-statistika větší než předem stanovená hodnota, nulová hypotéza je odmítnuta a je zjištěno, že proměnná má vysvětlující síla, jejíž koeficient se výrazně liší od nuly. Jinak je přijata nulová hypotéza nulové hodnoty skutečného koeficientu.
Kromě toho se Chowův test používá k testování, zda oba podvzorky mají stejné základní hodnoty skutečných koeficientů. Součet čtverců zbytků regresí u každé z podmnožin a na kombinovaném souboru dat se porovná výpočtem F-statistiky; pokud toto přesáhne kritickou hodnotu, nulová hypotéza o rozdílu mezi těmito dvěma podmnožinami je zamítnuto; v opačném případě je přijato.