Gewöhnliche kleinste Quadrate

AssumptionsEdit

Siehe auch: Lineare Regression § Annahmen

Es gibt verschiedene Frameworks, in die das lineare Regressionsmodell umgewandelt werden kann um die OLS-Technik anwendbar zu machen. Jede dieser Einstellungen führt zu denselben Formeln und Ergebnissen. Der einzige Unterschied besteht in der Interpretation und den Annahmen, die auferlegt werden müssen, damit die Methode aussagekräftige Ergebnisse liefert. Die Wahl des anwendbaren Rahmens hängt hauptsächlich von der Art der vorliegenden Daten und von der auszuführenden Inferenzaufgabe ab.

Einer der Unterschiede bei der Interpretation besteht darin, ob die Regressoren als zufällig behandelt werden sollen Variablen oder als vordefinierte Konstanten. Im ersten Fall (zufälliges Design) sind die Regressoren xi zufällig und werden zusammen mit den yi aus einer bestimmten Population wie in einer Beobachtungsstudie abgetastet. Dieser Ansatz ermöglicht eine natürlichere Untersuchung der asymptotischen Eigenschaften der Schätzer. In der anderen Interpretation (festes Design) werden die Regressoren X als bekannte Konstanten behandelt, die durch ein Design festgelegt werden, und y wird wie in einem Experiment bedingt von den Werten von X abgetastet. Für praktische Zwecke ist diese Unterscheidung oft unwichtig, da Schätzung und Inferenz durchgeführt werden Alle in diesem Artikel angegebenen Ergebnisse liegen im Rahmen des Zufallsentwurfs.

Klassisches lineares RegressionsmodellEdit

Das klassische Modell konzentriert sich auf die Schätzung und Inferenz der „endlichen Stichprobe“. Dies bedeutet, dass die Anzahl der Beobachtungen n festgelegt ist. Dies steht im Gegensatz zu den anderen Ansätzen, die das asymptotische Verhalten von OLS untersuchen und bei denen die Anzahl der Beobachtungen bis ins Unendliche wachsen darf.

Die unmittelbare Folge Die Annahme der Exogenität ist, dass die Fehler den Mittelwert Null haben: E = 0, und dass die Regressoren nicht mit den Fehlern korreliert sind: E = 0. Die Annahme der Exogenität ist für die OLS-Theorie kritisch. Wenn dies zutrifft, werden die Regressorvariablen als exogen bezeichnet. Wenn dies nicht der Fall ist, werden die Regressoren, die mit dem Fehlerterm korreliert sind, als endogen bezeichnet, und dann werden die OLS-Schätzungen ungültig. In diesem Fall kann die Methode der instrumentellen Variablen verwendet werden, um eine Inferenz durchzuführen. Normalerweise wird dies auch angenommen dass die Regressoren endliche Momente bis mindestens zum zweiten Moment haben. Dann ist die Matrix Qxx = E endlich und positiv semidefinit. Wenn diese Annahme verletzt wird, werden die Regressoren als linear abhängig oder perfekt multikollinear bezeichnet. In diesem Fall ist der Wert von Der Regressionskoeffizient β kann nicht gelernt werden, obwohl die Vorhersage von y-Werten für neue Werte der Regressoren, die im gleichen linear abhängigen Unterraum liegen, immer noch möglich ist.

  • Sphärische Fehler: Var ⁡ = σ 2 I n, {\ displaystyle \ operatorname {Var} = \ sigma ^ {2} I_ {n},}

wobei In die Identitätsmatrix in Dimension n ist und σ2 ein Parameter ist, der die Varianz jeder Beobachtung bestimmt σ2 wird im Modell alth als Störparameter angesehen obwohl normalerweise wird es auch geschätzt. Wenn diese Annahme verletzt wird, sind die OLS-Schätzungen weiterhin gültig, aber nicht mehr effizient. Es ist üblich, diese Annahme in zwei Teile aufzuteilen:

  • Homoskedastizität: E = σ2, was bedeutet, dass der Fehlerterm bei jeder Beobachtung die gleiche Varianz σ2 aufweist. Wenn diese Anforderung verletzt wird, spricht man von Heteroskedastizität. In diesem Fall würde ein effizienterer Schätzer mit den kleinsten Quadraten gewichtet. Wenn die Fehler eine unendliche Varianz haben, haben die OLS-Schätzungen auch eine unendliche Varianz (obwohl sie nach dem Gesetz der großen Zahlen dennoch zu den wahren Werten tendieren, solange die Fehler den Mittelwert Null haben). In diesem Fall werden robuste Schätztechniken empfohlen.
  • Keine Autokorrelation: Die Fehler sind zwischen den Beobachtungen nicht korreliert: E = 0 für i ≠ j. Diese Annahme kann im Zusammenhang mit Zeitreihendaten, Paneldaten, Clusterstichproben, hierarchischen Daten, Daten für wiederholte Messungen, Längsschnittdaten und anderen Daten mit Abhängigkeiten verletzt werden. In solchen Fällen bieten verallgemeinerte kleinste Quadrate eine bessere Alternative als das OLS. Ein weiterer Ausdruck für die Autokorrelation ist die serielle Korrelation.

Diese Annahme wird für die Gültigkeit der OLS-Methode nicht benötigt, obwohl bestimmte zusätzliche Eigenschaften für endliche Stichproben festgelegt werden können, falls dies der Fall ist (insbesondere im Bereich von Testen von Hypothesen). Auch wenn die Fehler normal sind, entspricht der OLS-Schätzer dem Maximum-Likelihood-Schätzer (MLE) und ist daher in der Klasse aller regulären Schätzer asymptotisch effizient. Wichtig ist, dass die Normalitätsannahme nur für die Fehlerbedingungen gilt. Im Gegensatz zu einem weit verbreiteten Missverständnis muss die Antwortvariable (abhängig) nicht normal verteilt sein.

Unabhängige und identisch verteilte (iid) Bearbeitung

In einigen Anwendungen, insbesondere bei Querschnittsdaten, wird zusätzlich davon ausgegangen, dass alle Beobachtungen unabhängig und identisch verteilt sind.Dies bedeutet, dass alle Beobachtungen einer Zufallsstichprobe entnommen werden, wodurch alle zuvor aufgeführten Annahmen einfacher und leichter zu interpretieren sind. Dieses Framework ermöglicht es auch, asymptotische Ergebnisse (als Stichprobengröße n → ∞) anzugeben, die als theoretische Möglichkeit verstanden werden, neue unabhängige Beobachtungen aus dem Datenerzeugungsprozess abzurufen. Die Liste der Annahmen in diesem Fall lautet:

ZeitreihenmodellEdit

Eigenschaften endlicher StichprobenEdit

Zunächst werden unter der strengen Exogenitätsannahme die OLS-Schätzer β ^ {\ displaystyle \ scriptstyle {\ hat {\ beta}}} und s2 sind unvoreingenommen, was bedeutet, dass ihre erwarteten Werte mit den wahren Werten der Parameter übereinstimmen:

E ⁡ = β, E ⁡ = σ 2. {\ displaystyle \ operatorname {E} = \ beta, \ quad \ operatorname {E} = \ sigma ^ {2}.}

Wenn die strikte Exogenität nicht gilt (wie dies bei vielen Zeitreihenmodellen der Fall ist, wo Exogenität wird nur in Bezug auf die vergangenen Schocks angenommen, nicht jedoch in Bezug auf die zukünftigen. Dann werden diese Schätzer in endlichen Stichproben verzerrt.

Die Varianz-Kovarianz-Matrix (oder einfach Kovarianz-Matrix) von β ^ {\ displaystyle \ scriptstyle {\ hat {\ beta}}} ist gleich

Var ⁡ = σ 2 (XTX) – 1 = σ 2 Q. {\ displaystyle \ operatorname {Var} = \ sigma ^ {2} (X ^ {T} X) ^ {- 1} = \ sigma ^ {2} Q.}

Insbesondere der Standardfehler jedes Koeffizienten β ^ j {\ displaystyle \ scriptstyle {\ hat {\ beta}} _ {j}} ist gleich der Quadratwurzel des j-ten diagonalen Elements dieser Matrix. Die Schätzung dieses Standardfehlers wird erhalten, indem die unbekannte Größe σ2 durch ihre Schätzung s2 ersetzt wird. Somit ist

s. e. ^ (β ^ j) = s 2 (XTX) jj – 1 {\ displaystyle {\ widehat {\ operatorname {s. \! e.}}} ({\ hat {\ beta}} _ {j}) = { \ sqrt {s ^ {2} (X ^ {T} X) _ {jj} ^ {- 1}}} Cov ⁡ = 0. {\ displaystyle \ operatorname {Cov} = 0.}

Die Gauß –Markov-Theorem besagt, dass unter der Annahme von sphärischen Fehlern (dh die Fehler sollten unkorreliert und homoskedastisch sein) der Schätzer β ^ {\ displaystyle \ scriptstyle {\ hat {\ beta}}} in der Klasse der linearen unverzerrten Schätzer effizient ist. Dies wird als bester linearer unverzerrter Schätzer (BLAU) bezeichnet. Effizienz sollte so verstanden werden, als ob wir einen anderen Schätzer β ~ {\ displaystyle \ scriptstyle {\ tilde {\ beta}}} finden würden, der in y linear und unvoreingenommen wäre, dann

Var ⁡ – Var ⁡ ≥ 0 {\ displaystyle \ operatorname {Var} – \ operatorname {Var} \ geq 0}

in dem Sinne, dass dies eine nicht negativ definierte Matrix ist. Dieser Satz legt die Optimalität nur in der Klasse der linearen unverzerrten Schätzer fest, was ziemlich restriktiv ist. Abhängig von der Verteilung der Fehlerterme ε liefern andere, nichtlineare Schätzer möglicherweise bessere Ergebnisse als OLS.

Angenommen, NormalitätEdit

Die bisher aufgeführten Eigenschaften sind alle gültig, unabhängig von zugrunde liegende Verteilung der Fehlerterme. Wenn Sie jedoch bereit sind anzunehmen, dass die Normalitätsannahme gilt (d. H. ε ~ N (0, σ2In)), können zusätzliche Eigenschaften der OLS-Schätzer angegeben werden.

Der Schätzer β ^ {\ displaystyle \ scriptstyle {\ hat {\ beta}}} ist normal verteilt, mit Mittelwert und Varianz wie zuvor angegeben:

β ^ ∼ N (β, σ 2 (XTX) – 1) {\ displaystyle {\ hat {\ beta}} \ \ sim \ {\ mathcal {N}} {\ big (} \ beta, \ \ sigma ^ {2} (X ^ {\ mathrm {T}} X) ^ {- 1} { \ big)}}

wobei Q die Cofaktormatrix ist. Dieser Schätzer erreicht die für das Modell gebundene Cramér-Rao und ist daher in der Klasse aller unverzerrten Schätzer optimal. Beachten Sie, dass dieses Ergebnis im Gegensatz zum Gauß-Markov-Theorem sowohl unter linearen als auch unter nichtlinearen Schätzern eine Optimalität herstellt, jedoch nur bei normalverteilten Fehlertermen.

Der Schätzer s2 ist proportional zum Chi Quadratische Verteilung:

s 2 ∼ σ 2 n – p ⋅ n – p 2 {\ displaystyle s ^ {2} \ \ sim \ {\ frac {\ sigma ^ {2}} {np}} \ cdot \ chi _ {np} ^ {2}}

Die Varianz dieses Schätzers ist gleich 2σ4 / (n – p), wodurch die Cramér-Rao-Grenze von 2σ4 / n nicht erreicht wird. Es wurde jedoch gezeigt, dass es keine unverzerrten Schätzer von σ2 mit einer Varianz gibt, die kleiner als die des Schätzers s2 ist. Wenn wir bereit sind, voreingenommene Schätzer zuzulassen und die Klasse von Schätzern zu berücksichtigen, die proportional zur Summe der quadratischen Residuen (SSR) des Modells sind, ist dies der beste Schätzer (im Sinne des mittleren quadratischen Fehlers) in dieser Klasse ~ σ2 = SSR / (n – p + 2), was sogar die Cramér-Rao-Grenze übertrifft, wenn es nur einen Regressor gibt (p = 1).

Einflussreiche BeobachtungenEdit

Hauptartikel: Einflussreiche Beobachtung
Siehe auch: Hebel (Statistik)

Wie bereits erwähnt, ist der Schätzer β ^ {\ displaystyle {\ hat {\ beta}}} linear in y bedeutet, dass es eine lineare Kombination der abhängigen Variablen yi darstellt. Die Gewichte in dieser linearen Kombination sind Funktionen der Regressoren X und im Allgemeinen ungleich. Die Beobachtungen mit hohen Gewichten werden als einflussreich bezeichnet, da sie einen stärkeren Einfluss auf den Wert des Schätzers haben.

Um zu analysieren, welche Beobachtungen Einfluss haben, entfernen wir eine bestimmte j-te Beobachtung und überlegen, um wie viel sich die geschätzten Mengen ändern werden (ähnlich wie bei der Jackknife-Methode). Es kann gezeigt werden, dass die Änderung im OLS-Schätzer für β gleich

β ^ (j) – β ^ = – 1 1 – hj (XTX) – 1 xj T ε ^ j, {\ displaystyle {ist \ hat {\ beta}} ^ {(j)} – {\ hat {\ beta}} = – {\ frac {1} {1-h_ {j}}} (X ^ {\ mathrm {T}} X. ) ^ {- 1} x_ {j} ^ {\ mathrm {T}} {\ hat {\ varepsilon}} _ {j} \ ,,}

wobei hj = xjT (XTX) −1xj das j- ist Das diagonale Element der Hutmatrix P und xj ist der Vektor der Regressoren, der der j-ten Beobachtung entspricht. In ähnlicher Weise ist die Änderung des vorhergesagten Wertes für die j-te Beobachtung, die sich aus dem Weglassen dieser Beobachtung aus dem Datensatz ergibt, gleich

y ^ j (j) – y ^ j = xjTβ ^ (j) – xjT β ^ = – hj 1 – hj ε ^ j {\ displaystyle {\ hat {y}} _ {j} ^ {(j)} – {\ hat {y}} _ {j} = x_ {j} ^ { \ mathrm {T}} {\ hat {\ beta}} ^ {(j)} – x_ {j} ^ {T} {\ hat {\ beta}} = – {\ frac {h_ {j}} {1 -h_ {j}}} \, {\ hat {\ varepsilon}} _ {j}}

Aus den Eigenschaften der Hutmatrix ergibt sich 0 ≤ hj ≤ 1, und sie summieren sich zu p, so dass im Durchschnitt hj ≈ p / n. Diese Größen hj werden als Hebel bezeichnet, und Beobachtungen mit hohem hj werden als Hebelpunkte bezeichnet. Normalerweise sollten die Beobachtungen mit hoher Hebelwirkung genauer untersucht werden, falls sie fehlerhaft oder ausreißend sind oder auf andere Weise für den Rest des Datensatzes untypisch sind.

Partitionierte RegressionEdit

Manchmal können die Variablen und entsprechenden Parameter in der Regression logisch in zwei Gruppen aufgeteilt werden, so dass die Regression die Form

y = X 1 β 1 + X 2 β 2 + ε, {\ displaystyle y = X_ {1 } \ beta _ {1} + X_ {2} \ beta _ {2} + \ varepsilon,}

wobei X1 und X2 die Dimensionen n × p1, n × p2 und β1 haben, β2 p1 × 1 und p2 sind × 1 Vektoren mit p1 + p2 = p.

M 1 y = M 1 X 2 β 2 + η, {\ Anzeigestil M_ {1} y = M_ {1} X_ {2} \ beta _ {2 } + \ eta \ ,,}

wobei M1 die Vernichtermatrix für die Regressoren X1 ist.

Der Satz kann verwendet werden, um eine Reihe theoretischer Ergebnisse zu ermitteln. Eine Regression mit einer Konstanten und einem anderen Regressor entspricht beispielsweise dem Subtrahieren der Mittelwerte von der abhängigen Variablen und dem Regressor und dem anschließenden Ausführen der Regression für die de-meaned-Variablen, jedoch ohne den konstanten Term.

Eingeschränkt EstimationEdit

Hauptartikel: Ridge-Regression

Angenommen, es ist bekannt, dass die Koeffizienten in der Regression ein System linearer Gleichungen erfüllen.

A: QT β = c, {\ displaystyle A \ Doppelpunkt \ Quad Q ^ {T} \ beta = c, \,}

wobei Q eine ap × q-Matrix mit vollem Rang ist und c ein aq × 1-Vektor bekannter Konstanten ist, wobei q < p. In diesem Fall entspricht die Schätzung der kleinsten Quadrate der Minimierung der Summe der quadratischen Residuen des Modells, das der Einschränkung A unterliegt. Der Schätzer für die kleinsten Quadrate (CLS) kann durch eine explizite Formel angegeben werden: β ^ c = β ^ – (XTX) – 1 Q (QT (XTX) – 1 Q) – 1 (QT β ^ – c). {\ displaystyle {\ hat {\ beta}} ^ {c} = {\ hat {\ beta}} – (X ^ {T} X) ^ {- 1} Q {\ Big (} Q ^ {T} ( X ^ {T} X) ^ {- 1} Q {\ Big)} ^ {- 1} (Q ^ {T} {\ hat {\ beta}} – c).}

Dieser Ausdruck für die Einschränkung Schätzer ist gültig, solange die Matrix XTX invertierbar ist. Von Beginn dieses Artikels an wurde angenommen, dass diese Matrix den vollen Rang hat, und es wurde festgestellt, dass β nicht identifizierbar ist, wenn die Rangbedingung fehlschlägt. Es kann jedoch vorkommen, dass durch Hinzufügen der Restriktion A β identifizierbar wird. In diesem Fall möchte man die Formel für den Schätzer finden. Der Schätzer ist gleich

β ^ c = R (RTXTXR) – 1 RTXT y + (I p – R (RTXTXR) – 1 RTXTX) Q (QTQ) – 1 c, {\ displaystyle {\ hat {\ Beta}} ^ {c} = R (R ^ {T} X ^ {T} XR) ^ {- 1} R ^ {T} X ^ {T} y + {\ Big (} I_ {p} -R ( R ^ {T} X ^ {T} XR) ^ {- 1} R ^ {T} X ^ {T} X {\ Big)} Q (Q ^ {T} Q) ^ {- 1} c,}

wobei R eine ap × (p – q) -Matrix ist, so dass die Matrix nicht singulär ist und RTQ = 0. Eine solche Matrix kann immer gefunden werden, obwohl sie im Allgemeinen nicht eindeutig ist. Die zweite Formel stimmt mit der ersten überein, wenn XTX invertierbar ist.

Eigenschaften großer StichprobenEdit

Die Schätzer der kleinsten Quadrate sind Punktschätzungen der linearen Regressionsmodellparameter β. Im Allgemeinen möchten wir jedoch auch wissen, wie nahe diese Schätzungen an den wahren Werten von Parametern liegen könnten. Mit anderen Worten, wir wollen die Intervallschätzungen konstruieren.

Da wir keine Annahme über die Verteilung des Fehlerterms εi gemacht haben, ist es unmöglich, auf die Verteilung der Schätzer β ^ {\ displaystyle zu schließen {\ hat {\ beta}}} und σ ^ 2 {\ displaystyle {\ hat {\ sigma}} ^ {2}}. Trotzdem können wir den zentralen Grenzwertsatz anwenden, um ihre asymptotischen Eigenschaften abzuleiten, wenn die Stichprobengröße n erreicht wird unendlich. Während die Stichprobengröße notwendigerweise endlich ist, ist es üblich anzunehmen, dass n „groß genug“ ist, so dass die wahre Verteilung des OLS-Schätzers nahe an seiner asymptotischen Grenze liegt.

(β ^ – β) → d N (0, σ 2 Q xx – 1), {\ displaystyle ({\ hat {\ beta}} – \ beta) \ {\ xrightarrow {d}} \ { \ mathcal {N}} {\ big (} 0, \; \ sigma ^ {2} Q_ {xx} ^ {- 1} {\ big)},}

wobei Q xx = XTX. {\ displaystyle Q_ {xx} = X ^ {T} X.}

IntervalsEdit

Hauptartikel: Konfidenzintervall und Vorhersageintervall

Verwenden dieser asymptotischen Verteilung , ungefähre zweiseitige Konfidenzintervalle für die j-te Komponente des Vektors β ^ {\ displaystyle {\ hat {\ beta}}} können als

β j ∈ jj] {\ displaystyle \ beta _ {konstruiert werden j} \ in {\ bigg _ {jj}}} \ {\ bigg]}} auf dem 1 – α-Konfidenzniveau,

wobei q die Quantilfunktion der Standardnormalverteilung bezeichnet und jj die j-te Diagonale ist Element einer Matrix.

In ähnlicher Weise ist der Schätzer der kleinsten Quadrate für σ2 auch konsistent und asymptotisch normal (vorausgesetzt, das vierte Moment von εi existiert) mit begrenzter Verteilung

(σ ^ 2 – σ 2) ) → d N (0, E ⁡ – σ 4). {\ displaystyle ({\ hat {\ sigma}} ^ {2} – \ sigma ^ {2}) \ {\ xrightarrow {d}} \ {\ mathcal {N}} \ left (0, \; \ operatorname { E} \ left- \ sigma ^ {4} \ right).} (Y ^ 0 – y 0) → d N (0, σ 2 x 0 TQ xx – 1 x 0), {\ displaystyle \ left ({\ hat {y}} _ {0} -y_ {0} \ right) \ {\ xrightarrow {d}} \ {\ mathcal {N}} \ left (0, \; \ sigma ^ {2} x_ {0} ^ {\ mathrm {T}} Q_ {xx} ^ {- 1} x_ {0} \ right),}

, mit dem Konstruktionskonfidenzintervalle für die mittlere Antwort y 0 {\ displaystyle y_ {0}} erstellt werden können :

y 0 ∈ {\ displaystyle y_ {0} \ in \ left} auf dem 1 – α-Konfidenzniveau.

HypothesentestEdit

Hauptartikel: Hypothesentest

Dieser Abschnitt muss erweitert werden. Sie können helfen, indem Sie es hinzufügen. (Februar 2017)

Zwei Hypothesentests werden besonders häufig verwendet. Zunächst möchte man wissen, ob die geschätzte Regressionsgleichung besser ist, als einfach vorherzusagen, dass alle Werte der Antwortvariablen ihrem Stichprobenmittelwert entsprechen (wenn nicht, soll sie keine Erklärungskraft haben). Die Nullhypothese ohne erklärenden Wert der geschätzten Regression wird unter Verwendung eines F-Tests getestet. Wenn festgestellt wird, dass der berechnete F-Wert groß genug ist, um seinen kritischen Wert für das vorgewählte Signifikanzniveau zu überschreiten, wird die Nullhypothese verworfen und die alternative Hypothese, dass die Regression Erklärungskraft hat, akzeptiert. Andernfalls wird die Nullhypothese ohne Erklärungskraft akzeptiert.

Zweitens möchte man für jede interessierende Erklärungsvariable wissen, ob sich ihr geschätzter Koeffizient signifikant von Null unterscheidet – das heißt, ob diese bestimmte Erklärungsvariable in Tatsache hat Erklärungskraft bei der Vorhersage der Antwortvariablen. Hier ist die Nullhypothese, dass der wahre Koeffizient Null ist. Diese Hypothese wird getestet, indem die t-Statistik des Koeffizienten als Verhältnis der Koeffizientenschätzung zu ihrem Standardfehler berechnet wird. Wenn die t-Statistik größer als ein vorbestimmter Wert ist, wird die Nullhypothese verworfen und die Variable wird gefunden Erklärungskraft, deren Koeffizient sich signifikant von Null unterscheidet. Andernfalls wird die Nullhypothese eines Nullwerts des wahren Koeffizienten akzeptiert.

Zusätzlich wird der Chow-Test verwendet, um zu testen, ob zwei Teilproben beide die haben gleiche zugrunde liegende wahre Koeffizientenwerte. Die Summe der quadratischen Residuen von Regressionen für jede der Teilmengen und für den kombinierten Datensatz wird durch Berechnung einer F-Statistik verglichen. Wenn diese einen kritischen Wert überschreitet, wird die Nullhypothese, dass zwischen den beiden Teilmengen kein Unterschied besteht wird abgelehnt, andernfalls wird es akzeptiert.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.