Zwykłe metody najmniejszych kwadratów

ZałożeniaEdit

Zobacz także: Regresja liniowa § Założenia

Istnieje kilka różnych ram, w których można rzutować model regresji liniowej aby zastosować technikę OLS. Każde z tych ustawień daje te same formuły i te same wyniki. Jedyną różnicą jest interpretacja i założenia, które należy narzucić, aby metoda dała miarodajne wyniki. Wybór odpowiedniej struktury zależy głównie od charakteru danych w ręku i zadania wnioskowania, które należy wykonać.

Jedną z linii różnic w interpretacji jest to, czy regresory należy traktować jako przypadkowe zmienne lub jako predefiniowane stałe. W pierwszym przypadku (projekt losowy) regresory xi są losowe i próbkowane razem z yi „s z pewnej populacji, jak w badaniu obserwacyjnym. Takie podejście pozwala na bardziej naturalne badanie asymptotycznych właściwości estymatorów. W drugiej interpretacji (projekt stały) regresory X są traktowane jako znane stałe ustalone przez projekt, a y jest próbkowane warunkowo na wartościach X, tak jak w eksperymencie. Ze względów praktycznych to rozróżnienie jest często nieważne, ponieważ przeprowadza się estymację i wnioskowanie podczas warunkowania na X. Wszystkie wyniki przedstawione w tym artykule mieszczą się w ramach projektowania losowego.

Klasyczny model regresji liniowejEdit

Model klasyczny koncentruje się na estymacji i wnioskowaniu „próby skończonej”, co oznacza, że liczba obserwacji jest stała n. Kontrastuje to z innymi podejściami, które badają asymptotyczne zachowanie OLS i w których pozwala się na zwiększenie liczby obserwacji do nieskończoności.

Bezpośredni skutek Podstawą założenia o egzogeniczności jest to, że błędy mają średnią zero: E = 0, a regresory nie są skorelowane z błędami: E = 0. Założenie o egzogeniczności jest krytyczne dla teorii OLS. Jeśli tak jest, zmienne regresora nazywane są egzogenicznymi. Jeśli tak nie jest, to regresory, które są skorelowane ze składnikiem błędu, nazywane są endogenicznymi, a następnie oszacowania OLS stają się nieważne. W takim przypadku do wnioskowania można zastosować metodę zmiennych instrumentalnych. Zazwyczaj przyjmuje się również, że że regresory mają skończone momenty do co najmniej drugiej chwili. Wtedy macierz Qxx = E jest skończona i dodatnia półznaczna. W przypadku naruszenia tego założenia regresory nazywane są liniowo zależnymi lub doskonale wielokoliniowymi. W takim przypadku wartość Współczynnika regresji β nie można się nauczyć, chociaż przewidywanie wartości y jest nadal możliwe dla nowych wartości regresorów, które znajdują się w tej samej liniowo zależnej podprzestrzeni.

  • Błędy sferyczne: Var ⁡ = σ 2 Ja n, {\ displaystyle \ operatorname {Var} = \ sigma ^ {2} I_ {n},}

, gdzie In jest macierzą tożsamości w wymiarze n, a σ2 jest parametrem określającym wariancję każdej obserwacji. σ2 jest uważane za uciążliwy parametr w modelu, chociaż choć zwykle jest to również szacowane. Jeśli to założenie zostanie naruszone, wówczas szacunki OLS są nadal aktualne, ale nie są już wydajne. Założenie to zwykle dzieli się na dwie części:

  • Homoskedastyczność: E = σ2, co oznacza, że składnik błędu ma tę samą wariancję σ2 w każdej obserwacji. Gdy ten wymóg jest naruszony, nazywa się to heteroskedastycznością, w takim przypadku bardziej efektywny estymator byłby ważony metodą najmniejszych kwadratów. Jeśli błędy mają nieskończoną wariancję, wówczas oszacowania OLS będą również miały nieskończoną wariancję (chociaż zgodnie z prawem dużych liczb będą one jednak dążyły do prawdziwych wartości, o ile błędy będą miały zerową średnią). W tym przypadku zalecane są solidne techniki estymacji.
  • Brak autokorelacji: błędy są nieskorelowane między obserwacjami: E = 0 dla i ≠ j. Założenie to może zostać naruszone w kontekście danych szeregów czasowych, danych panelowych, prób skupień, danych hierarchicznych, danych z powtarzanych pomiarów, danych dotyczących zmian w czasie i innych danych z zależnościami. W takich przypadkach uogólnione metody najmniejszych kwadratów stanowią lepszą alternatywę niż OLS. Innym wyrażeniem dla autokorelacji jest korelacja szeregowa.

To założenie nie jest potrzebne do poprawności metody OLS, chociaż pewne dodatkowe właściwości próbki skończonej można ustalić w przypadku, gdy tak się dzieje (szczególnie w obszarze testowanie hipotez). Również w przypadku normalnych błędów estymator OLS jest równoważny estymatorowi największej wiarygodności (MLE), a zatem jest asymptotycznie skuteczny w klasie wszystkich regularnych estymatorów. Co ważne, założenie o normalności dotyczy tylko składników błędu; wbrew powszechnemu błędnemu przekonaniu, zmienna odpowiedzi (zależna) nie musi mieć rozkładu normalnego.

Niezależna i identycznie rozmieszczona (iid) Edycja

W niektórych aplikacjach, szczególnie w przypadku danych przekrojowych, narzuca się dodatkowe założenie – wszystkie obserwacje są niezależne i identycznie rozłożone.Oznacza to, że wszystkie obserwacje są pobierane z losowej próby, co sprawia, że wszystkie wymienione wcześniej założenia są prostsze i łatwiejsze do interpretacji. Również ten schemat pozwala na określenie wyników asymptotycznych (jako wielkość próby n → ∞), które są rozumiane jako teoretyczna możliwość pobrania nowych niezależnych obserwacji z procesu generowania danych. Lista założeń w tym przypadku to:

Model szeregów czasowychEdit

Właściwości próby skończonejEdytuj

Przede wszystkim przy założeniu ścisłej egzogeniczności estymatory OLS β ^ {\ displaystyle \ scriptstyle {\ hat {\ beta}}} i s2 są bezstronne, co oznacza, że ich oczekiwane wartości pokrywają się z prawdziwymi wartościami parametrów:

E ⁡ = β, E ⁡ = σ 2. {\ displaystyle \ operatorname {E} = \ beta, \ quad \ operatorname {E} = \ sigma ^ {2}.}

Jeśli ścisła egzogeniczność nie zachowuje (jak w przypadku wielu modeli szeregów czasowych, gdzie egzogeniczność jest zakładana tylko w odniesieniu do szoków przeszłych, ale nie przyszłych), wówczas estymatory te będą obciążone w próbkach skończonych.

Macierz wariancji-kowariancji (lub po prostu macierz kowariancji) β ^ {\ displaystyle \ scriptstyle {\ hat {\ beta}}} jest równe

Var ⁡ = σ 2 (XTX) – 1 = σ 2 Q. {\ displaystyle \ operatorname {Var} = \ sigma ^ {2} (X ^ {T} X) ^ {- 1} = \ sigma ^ {2} Q.}

W szczególności błąd standardowy każdego współczynnika β ^ j {\ displaystyle \ scriptstyle {\ hat {\ beta}} _ {j}} jest równa pierwiastkowi kwadratowemu z j-tego elementu przekątnej tej macierzy. Oszacowanie tego błędu standardowego uzyskuje się zastępując nieznaną wielkość σ2 jej oszacowaniem s2. Zatem

s. e. ^ (β ^ j) = s 2 (XTX) jj – 1 {\ Displaystyle {\ widehat {\ operatorname {s. \! e.}}} ({\ kapelusz {\ beta}} _ {j}) = { \ sqrt {s ^ {2} (X ^ {T} X) _ {jj} ^ {- 1}}}} Cov ⁡ = 0 {\ displaystyle \ operatorname {Cov} = 0.}

Gauss -Twierdzenie Markowa stwierdza, że przy założeniu błędów sferycznych (to znaczy błędy powinny być nieskorelowane i homoskedastyczne) estymator β ^ {\ displaystyle \ scriptstyle {\ hat {\ beta}}} jest skuteczny w klasie liniowych nieobciążonych estymatorów. Nazywa się to najlepszym liniowym nieobciążonym estymatorem (NIEBIESKIM). Wydajność należy rozumieć tak, jakbyśmy mieli znaleźć jakiś inny estymator β ~ {\ displaystyle \ scriptstyle {\ tilde {\ beta}}}, który byłby liniowy względem y i nieobciążony, a następnie

Var ⁡ – Var ⁡ ≥ 0 {\ displaystyle \ operatorname {Var} – \ operatorname {Var} \ geq 0}

w tym sensie, że jest to nieujemna-określona macierz. To twierdzenie ustanawia optymalność tylko w klasie liniowych nieobciążonych estymatorów, co jest dość restrykcyjne. W zależności od rozkładu składników błędu ε inne, nieliniowe estymatory mogą dawać lepsze wyniki niż OLS.

Zakładając normalnośćEdit

Wszystkie wymienione dotychczas właściwości są prawidłowe niezależnie od leżący u podstaw rozkład składników błędów. Jeśli jednak chcesz założyć, że założenie normalności jest zachowane (to znaczy, że ε ~ N (0, σ2In)), to można określić dodatkowe właściwości estymatorów OLS.

Estymator β ^ {\ displaystyle \ scriptstyle {\ hat {\ beta}}} ma rozkład normalny, ze średnią i wariancją, jak podano wcześniej:

β ^ ∼ N (β, σ 2 (XTX) – 1) {\ Displaystyle {\ hat {\ beta}} \ \ sim \ {\ mathcal {N}} {\ big (} \ beta, \ \ sigma ^ {2} (X ^ {\ mathrm {T}} X) ^ {- 1} { \ big)}}

gdzie Q jest macierzą kofaktorów. Estymator ten osiąga wyznaczony dla modelu Cramér – Rao, a zatem jest optymalny w klasie wszystkich nieobciążonych estymatorów. Należy zauważyć, że w przeciwieństwie do twierdzenia Gaussa – Markowa, ten wynik ustanawia optymalność zarówno wśród estymatorów liniowych, jak i nieliniowych, ale tylko w przypadku składników błędu o rozkładzie normalnym.

Estymator s2 będzie proporcjonalny do kwadratowy rozkład:

s 2 ∼ σ 2 n – p ⋅ χ n – p 2 {\ displaystyle s ^ {2} \ \ sim \ {\ Frac {\ sigma ^ {2}} {np}} \ cdot \ chi _ {np} ^ {2}}

Wariancja tego estymatora jest równa 2σ4 / (n – p), co nie osiąga granicy Craméra – Rao 2σ4 / n. Jednak wykazano, że nie ma nieobciążonych estymatorów σ2 o wariancji mniejszej niż estymator s2. Jeśli jesteśmy skłonni dopuścić estymatory obciążone i rozważymy klasę estymatorów, które są proporcjonalne do sumy kwadratów reszt (SSR) modelu, wówczas najlepszym (w sensie błędu średniokwadratowego) estymatorem w tej klasie będzie ~ σ2 = SSR / (n – p + 2), co nawet przewyższa ograniczenie Craméra – Rao w przypadku, gdy jest tylko jeden regresor (p = 1).

Wpływowe obserwacjeEdytuj

Główny artykuł: Obserwacja wpływowa
Zobacz także: Dźwignia (statystyki)

Jak wspomniano wcześniej, estymator β ^ {\ displaystyle {\ hat {\ beta}}} jest liniowy in y, co oznacza, że reprezentuje liniową kombinację zmiennych zależnych yi. Wagi w tej liniowej kombinacji są funkcjami regresorów X i na ogół są nierówne. Obserwacje z dużymi wagami nazywane są wpływowymi, ponieważ mają bardziej wyraźny wpływ na wartość estymatora.

Aby przeanalizować, które obserwacje mają wpływ, usuwamy konkretną j-tą obserwację i rozważamy, jak bardzo zmienią się szacowane wielkości (podobnie jak w przypadku metody „jackknife”). Można wykazać, że zmiana w estymatorze OLS dla β będzie równa

β ^ (j) – β ^ = – 1 1 – hj (XTX) – 1 xj T ε ^ j, {\ displaystyle { \ hat {\ beta}} ^ {(j)} – {\ hat {\ beta}} = – {\ frac {1} {1-h_ {j}}} (X ^ {\ mathrm {T}} X ) ^ {- 1} x_ {j} ^ {\ mathrm {T}} {\ hat {\ varepsilon}} _ {j} \ ,,}

gdzie hj = xjT (XTX) −1xj to j- -ty element diagonalny macierzy kapeluszowej P, a xj jest wektorem regresorów odpowiadających j-tej obserwacji. Podobnie zmiana przewidywanej wartości dla j-tej obserwacji wynikająca z pominięcia tej obserwacji ze zbioru danych będzie równa

y ^ j (j) – y ^ j = xj T β ^ (j) – xj T β ^ = – hj 1 – hj ε ^ j {\ Displaystyle {\ kapelusz {r}} _ {j} ^ {(j)} – {\ kapelusz {y}} _ {j} = x_ {j} ^ { \ mathrm {T}} {\ hat {\ beta}} ^ {(j)} – x_ {j} ^ {T} {\ hat {\ beta}} = – {\ frac {h_ {j}} {1 -h_ {j}}} \, {\ hat {\ varepsilon}} _ {j}}

Z właściwości macierzy kapeluszowej, 0 ≤ hj ≤ 1, i sumują się do p, tak że średnio hj ≈ p / n. Te wielkości hj nazywane są dźwigniami, a obserwacje z wysokim hj nazywane są punktami dźwigni. Zwykle obserwacje o dużej dźwigni powinny być analizowane dokładniej, na wypadek, gdyby były błędne lub odstające lub w inny sposób nietypowe w stosunku do reszty zbioru danych.

Regresja partycjonowanaEdytuj

Czasami zmienne i odpowiadające im parametry w regresji można logicznie podzielić na dwie grupy, tak że regresja przyjmuje postać

y = X 1 β 1 + X 2 β 2 + ε, {\ displaystyle y = X_ {1 } \ beta _ {1} + X_ {2} \ beta _ {2} + \ varepsilon,}

gdzie X1 i X2 mają wymiary n × p1, n × p2, a β1, β2 to p1 × 1 i p2 × 1 wektory, gdzie p1 + p2 = p.

M 1 y = M 1 X 2 β 2 + η, {\ Displaystyle M_ {1} y = M_ {1} X_ {2} \ beta _ {2 } + \ eta \ ,,}

gdzie M1 jest macierzą anihilatora dla regresorów X1.

Twierdzenie można wykorzystać do ustalenia szeregu teoretycznych wyników. Na przykład, posiadanie regresji ze stałą i innym regresorem jest równoznaczne z odjęciem średnich od zmiennej zależnej i regresora, a następnie uruchomieniem regresji dla zmiennych pozbawionych średniej, ale bez stałego składnika.

Ograniczony EstymationEdit

Główny artykuł: regresja grzbietu

Załóżmy, że wiadomo, że współczynniki regresji spełniają układ równań liniowych

Odp .: QT β = c, {\ displaystyle A \ colon \ quad Q ^ {T} \ beta = c, \,}

gdzie Q jest macierzą ap × q pełnej rangi, ac jest wektorem aq × 1 znanych stałych, gdzie q < str. W tym przypadku estymacja metodą najmniejszych kwadratów jest równoważna zminimalizowaniu sumy kwadratów reszt modelu podlegającego ograniczeniu A. Estymator z ograniczeniem najmniejszych kwadratów (CLS) można podać za pomocą jawnego wzoru:

β ^ c = β ^ – (XTX) – 1 Q (QT (XTX) – 1 Q) – 1 (QT β ^ – c). {\ Displaystyle {\ kapelusz {\ beta}} ^ {c} = {\ kapelusz {\ beta}} – (X ^ {T} X) ^ {- 1} Q {\ Big (} Q ^ {T} ( X ^ {T} X) ^ {- 1} Q {\ Big)} ^ {- 1} (Q ^ {T} {\ hat {\ beta}} – c).}

To wyrażenie dla ograniczonego estymator jest ważny tak długo, jak długo macierz XTX jest odwracalna. Od początku artykułu założono, że macierz ta ma pełną rangę i zauważono, że gdy warunek rangi zawodzi, β nie będzie identyfikowalny. Może się jednak zdarzyć, że dodanie ograniczenia A spowoduje, że β będzie identyfikowalne, w takim przypadku chciałoby się znaleźć wzór na estymator. Estymator jest równy

β ^ c = R (RTXTXR) – 1 RTXT y + (ja p – R (RTXTXR) – 1 RTXTX) Q (QTQ) – 1 c, {\ displaystyle {\ hat {\ beta}} ^ {c} = R (R ^ {T} X ^ {T} XR) ^ {- 1} R ^ {T} X ^ {T} y + {\ Big (} I_ {p} -R ( R ^ {T} X ^ {T} XR) ^ {- 1} R ^ {T} X ^ {T} X {\ Big)} Q (Q ^ {T} Q) ^ {- 1} c,}

gdzie R jest macierzą ap × (p – q) taką, że macierz nie jest pojedyncza, a RTQ = 0. Taka macierz zawsze można znaleźć, chociaż generalnie nie jest ona unikalna. Drugi wzór pokrywa się z pierwszym w przypadku, gdy XTX jest odwracalny.

Właściwości dużych próbekEdit

Estymatory metodą najmniejszych kwadratów są oszacowaniami punktowymi parametrów modelu regresji liniowej β. Jednak generalnie chcemy również wiedzieć, jak bardzo te szacunki mogą być zbliżone do prawdziwych wartości parametrów. Innymi słowy, chcemy skonstruować oszacowania przedziału.

Ponieważ nie poczyniliśmy żadnych założeń dotyczących rozkładu składnika błędu εi, niemożliwe jest wywnioskowanie rozkładu estymatorów β ^ {\ displaystyle {\ hat {\ beta}}} i σ ^ 2 {\ displaystyle {\ hat {\ sigma}} ^ {2}}. Niemniej jednak możemy zastosować centralne twierdzenie graniczne, aby wyprowadzić ich asymptotyczne właściwości, ponieważ wielkość próbki n idzie do nieskończoność Chociaż wielkość próby jest z konieczności skończona, przyjmuje się zwykle, że n jest „wystarczająco duże”, tak że rzeczywisty rozkład estymatora OLS jest bliski jego asymptotycznej granicy.

(β ^ – β) → d N (0, σ 2 Q xx – 1), {\ Displaystyle ({\ kapelusz {\ beta}} – \ beta) \ {\ xrightarrow {d}} \ { \ mathcal {N}} {\ big (} 0, \; \ sigma ^ {2} Q_ {xx} ^ {- 1} {\ big)},}

gdzie Q xx = XTX. {\ displaystyle Q_ {xx} = X ^ {T} X.}

IntervalsEdit

Główne artykuły: Przedział ufności i przedział prognozy

Korzystanie z tego asymptotycznego rozkładu , przybliżone dwustronne przedziały ufności dla j-tego składnika wektora β ^ {\ Displaystyle {\ kapelusz {\ beta}}} można skonstruować jako

β j ∈ jj] {\ displaystyle \ beta _ { j} \ in {\ bigg _ {jj}}} \ {\ bigg]}} na poziomie ufności 1 – α,

gdzie q oznacza funkcję kwantylową standardowego rozkładu normalnego, a jj jest j-tą przekątną element macierzy.

Podobnie estymator najmniejszych kwadratów dla σ2 jest również spójny i asymptotycznie normalny (pod warunkiem, że istnieje czwarty moment εi) z ograniczającym rozkładem

(σ ^ 2 – σ 2 ) → d N (0, E ⁡ – σ 4). {\ Displaystyle ({\ kapelusz {\ sigma}} ^ {2} – \ sigma ^ {2}) \ {\ xrightarrow {d}} \ {\ mathcal {N}} \ left (0, \; \ operatorname { E} \ lewo- \ sigma ^ {4} \ prawej).} (R ^ 0 – r 0) → d N (0, σ 2 x 0 TQ xx – 1 x 0), {\ Displaystyle \ lewo ({\ hat {y}} _ {0} -y_ {0} \ right) \ {\ xrightarrow {d}} \ {\ mathcal {N}} \ left (0, \; \ sigma ^ {2} x_ {0} ^ {\ mathrm {T}} Q_ {xx} ^ {- 1} x_ {0} \ dobrze),}

co pozwala konstruować przedziały ufności dla średniej odpowiedzi y 0 {\ displaystyle y_ {0}} do skonstruowania :

y 0 ∈ {\ displaystyle y_ {0} \ in \ left} na poziomie ufności 1 – α.

Testowanie hipotezEdytuj

Główny artykuł: Testowanie hipotez

Ta sekcja wymaga rozszerzenia. Możesz pomóc, dodając do niego. (Luty 2017)

Szczególnie szeroko stosowane są dwa testy hipotez. Po pierwsze, chcemy wiedzieć, czy oszacowane równanie regresji jest lepsze niż zwykłe przewidywanie, że wszystkie wartości zmiennej odpowiedzi są równe średniej z próby (jeśli nie, to mówi się, że nie ma mocy wyjaśniającej). Hipoteza zerowa o braku wartości wyjaśniającej oszacowanej regresji jest testowana za pomocą testu F. Jeżeli okaże się, że obliczona wartość F jest wystarczająco duża, aby przekroczyć jej wartość krytyczną dla wcześniej wybranego poziomu istotności, hipoteza zerowa jest odrzucana, a hipoteza alternatywna, że regresja ma moc wyjaśniającą, jest akceptowana. W przeciwnym razie przyjmuje się hipotezę zerową o braku mocy wyjaśniającej.

Po drugie, dla każdej zmiennej objaśniającej będącej przedmiotem zainteresowania, chcemy wiedzieć, czy jej oszacowany współczynnik różni się znacznie od zera – to znaczy, czy ta konkretna zmienna objaśniająca w fakt ma moc wyjaśniającą w przewidywaniu zmiennej odpowiedzi. Tutaj hipoteza zerowa jest taka, że prawdziwy współczynnik wynosi zero. Ta hipoteza jest testowana przez obliczenie statystyki t współczynnika „s, jako stosunku oszacowania współczynnika do jego błędu standardowego. Jeśli statystyka t jest większa niż z góry określona wartość, hipoteza zerowa jest odrzucana, a zmienna okazuje się mieć potęga wyjaśniająca, której współczynnik znacznie różni się od zera. W przeciwnym razie przyjmuje się hipotezę zerową o zerowej wartości prawdziwego współczynnika.

Ponadto test Chowa jest używany do sprawdzenia, czy dwie podpróbki mają te same podstawowe wartości rzeczywistych współczynników. Suma kwadratów reszt regresji na każdym z podzbiorów i na połączonym zestawie danych jest porównywana poprzez obliczenie statystyki F; jeśli przekracza ona wartość krytyczną, hipoteza zerowa braku różnicy między dwoma podzbiorami jest odrzucany; w przeciwnym razie jest akceptowany.

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *