Interpretieren von Residuenplots zur Verbesserung Ihrer Regression

Beispiel für Residuendiagramme und ihre Diagnosen

Wenn Sie sich nicht sicher sind, was ein Residuum ist, nehmen Sie sich fünf Minuten Zeit, um die obigen zu lesen Komm zurück.

Unten ist eine Galerie mit ungesunden Restparzellen. Ihr Residuum sieht möglicherweise wie ein bestimmter Typ von unten oder eine Kombination aus.

Wenn Ihr Residuum wie eines der folgenden aussieht, klicken Sie auf dieses Residuum, um zu verstehen, was passiert, und um zu erfahren, wie Sie es beheben können.

(Währenddessen verwenden wir als Beispieldatensatz die „Einnahmen“ eines Limonadenstandes gegenüber der „Temperatur“ dieses Tages.)

Y-Achse unausgeglichen

Zeigen Sie Details zu diesem Diagramm und wie Sie es beheben können.

Problem

Stellen Sie sich vor, Ihr Limonadenstand hat aus irgendeinem Grund normalerweise nur geringe Einnahmen, aber hin und wieder erhalten Sie Tage mit sehr hohen Einnahmen, sodass „Einnahmen“ so aussahen …

… anstelle von etwas Symmetrischerem und Glockenförmigem wie diesem:

„Temperatur“ vs. „Umsatz“ könnte also so aussehen, wobei die meisten Daten unten gebündelt sind …

Die schwarze Linie repräsentiert die Modellgleichung, die Vorhersage des Modells der Beziehung zwischen „Temperatur“ und „Umsatz“. Schauen Sie sich oben jede Vorhersage an, die durch die schwarze Linie für eine gegebene „Temperatur“ gemacht wird (z. B. wird bei „Temperatur“ 30 vorausgesagt, dass „Umsatz“ ungefähr 20 beträgt). Sie können sehen, dass sich die meisten Punkte unterhalb der Linie befinden (dh die Vorhersage war zu hoch), aber einige Punkte befinden sich sehr weit über der Linie (dh die Vorhersage war viel zu niedrig).

Wenn Sie dieselben Daten in die Diagnosediagramme übersetzen, sind die meisten Vorhersagen der Gleichung etwas zu hoch, und dann wären einige viel zu niedrig.

Implikationen

Dies bedeutet fast immer, dass Ihr Modell erheblich genauer gemacht werden kann. Meistens werden Sie feststellen, dass das Modell richtungsrichtig, aber im Vergleich zu einer verbesserten Version ziemlich ungenau war. Es ist nicht ungewöhnlich, ein Problem wie dieses zu beheben und folglich den R-Quadrat-Sprung des Modells von 0,2 auf 0,5 (auf einer Skala von 0 bis 1) zu sehen.

So beheben Sie

  • Die Lösung hierfür besteht fast immer darin, Ihre Daten zu transformieren, normalerweise Ihre Antwortvariable.
  • Es ist auch möglich, dass Ihrem Modell eine Variable fehlt.

Heteroskedastizität

Zeigen Sie Details zu diesem Diagramm an und erfahren Sie, wie Sie es beheben können.

Problem

Diese Diagramme weisen eine „Heteroskedastizität“ auf, was bedeutet, dass die Residuen größer werden, wenn sich die Vorhersage von klein nach groß (oder von groß nach klein) bewegt.

Stellen Sie sich das vor An kalten Tagen ist die Höhe der Einnahmen sehr konstant, aber an heißen Tagen sind die Einnahmen manchmal sehr hoch und manchmal sehr niedrig.

Sie sehen Diagramme wie diese:

Implikationen

Dies führt nicht von Natur aus zu einem Problem, ist jedoch häufig ein Indikator dafür, dass Ihr Modell verbessert werden kann.

Die einzige Ausnahme besteht darin, dass Ihre p-Werte möglicherweise etwas höher oder niedriger sind, als sie sein sollten, wenn Ihre Stichprobengröße weniger als 250 beträgt und Sie das Problem mit den folgenden Angaben nicht beheben können Eine Variable, die sich direkt an der Grenze der Signifikanz befindet, kann fälschlicherweise auf der falschen Seite dieser Grenze landen. Ihre Regressionskoeffizienten (die Anzahl der Einheiten „Umsatz“ ändert sich, wenn „Temperatur“ um eins steigt) sind jedoch immer noch genau.

So beheben Sie

  • Die am häufigsten erfolgreiche Lösung besteht darin, eine Variable zu transformieren.
  • Häufig weist Heteroskedastizität darauf hin, dass eine Variable fehlt.

Nichtlinear

Zeigen Sie Details zu diesem Diagramm an und erfahren Sie, wie Sie es beheben können.

Problem

Stellen Sie sich vor, es ist schwierig, Limonade an kalten Tagen zu verkaufen, an warmen Tagen leicht zu verkaufen und an sehr heißen Tagen schwer zu verkaufen (vielleicht, weil niemand sein Haus an sehr heißen Tagen verlässt Tage).

Dieses Diagramm würde folgendermaßen aussehen:

Das durch die Linie dargestellte Modell , ist schrecklich. Die Vorhersagen wären weit entfernt, was bedeutet, dass Ihr Modell die Beziehung zwischen „Temperatur“ und „Umsatz“ nicht genau wiedergibt.

Dementsprechend würden Residuen folgendermaßen aussehen:

Implikationen

Wenn Ihr Modell wie im obigen Beispiel weit entfernt ist, sind Ihre Vorhersagen ziemlich wertlos (und Sie werden es bemerken ein sehr niedriges r-Quadrat, wie das 0,027 r-Quadrat für das obige).

In anderen Fällen vermittelt eine leicht suboptimale Anpassung immer noch einen guten allgemeinen Eindruck von der Beziehung, auch wenn sie nicht perfekt ist Folgendes:

Dieses Modell sieht ziemlich genau aus. Wenn Sie genau hinschauen (oder wenn Sie sich die Residuen ansehen), können Sie feststellen, dass es hier ein kleines Muster gibt – dass sich die Punkte auf einer Kurve befinden, mit der die Linie nicht ganz übereinstimmt.

Ist das wichtig? Es liegt an dir.Wenn Sie ein schnelles Verständnis der Beziehung erhalten, ist Ihre gerade Linie eine ziemlich anständige Annäherung. Wenn Sie dieses Modell zur Vorhersage und nicht zur Erklärung verwenden, wird diese Kurve wahrscheinlich durch das genaueste Modell berücksichtigt.

So beheben Sie

  • Manchmal mögen Muster wie Dies weist darauf hin, dass eine Variable transformiert werden muss.
  • Wenn das Muster tatsächlich so klar ist wie in diesen Beispielen, müssen Sie wahrscheinlich ein nichtlineares Modell erstellen (es ist nicht so schwer, wie es sich anhört).
  • Oder wie immer ist es möglich, dass das Problem eine fehlende Variable ist.

Ausreißer

Zeigen Sie Details zu diesem Diagramm an und wie Sie es beheben können.

Problem

Was wäre, wenn einer Ihrer Datenpunkte eine „Temperatur“ von 80 anstelle der normalen 20er und 30er Jahre hätte? Ihre Diagramme würden folgendermaßen aussehen:

Diese Regression hat einen abweichenden Datenpunkt für eine Eingabevariable, „Temperatur“ (Ausreißer für eine Eingabevariable werden auch als „Hebelpunkte“ bezeichnet).

Was wäre, wenn einer Ihrer Datenpunkte einen Umsatz von 160 USD anstelle der normalen 20 bis 60 USD hätte? Ihre Diagramme würden folgendermaßen aussehen:

Diese Regression hat einen abweichenden Datenpunkt für die Ausgabevariable „Revenue“.

Implikationen

Statistik iQ führt eine Art von Regression aus, die im Allgemeinen nicht von Ausreißern der Ausgabe beeinflusst wird ( wie der Tag mit einem Umsatz von 160 US-Dollar), wird jedoch von Ausreißern beeinflusst (wie eine „Temperatur“ in den 80er Jahren). Im schlimmsten Fall kann sich Ihr Modell drehen, um auf Kosten der Nähe näher an diesen Punkt heranzukommen alle anderen und am Ende einfach völlig falsch, wie folgt:

Die blaue Linie ist wahrscheinlich das, wie Ihr Modell aussehen soll, und die rote Linie ist das Modell, das Sie möglicherweise sehen, wenn Sie diesen Ausreißer bei „Temperatur“ 80 haben.

Beheben

  • Möglicherweise handelt es sich um einen Mess- oder Dateneingabefehler, bei dem der Ausreißer einfach falsch ist. In diesem Fall sollten Sie ihn löschen.
  • Es ist möglich, dass nur ein paar Ausreißer eine Stromverteilung sind. Ziehen Sie in Betracht, die Variable zu transformieren, wenn eine Ihrer Variablen eine asymmetrische Verteilung aufweist (dh nicht in der Ferne glockenförmig ist).
  • Wenn es sich tatsächlich um einen legitimen Ausreißer handelt, sollten Sie die Auswirkungen des Ausreißers bewerten.

Große Y-Achsen-Datenpunkte

Zeigen Sie Details zu diesem Diagramm an und erfahren Sie, wie Sie es beheben können.

Problem

Stellen Sie sich vor, es gibt zwei konkurrierende Limonadenstände in der Nähe. Meistens ist nur eine betriebsbereit. In diesem Fall ist Ihr Umsatz konstant gut. Manchmal ist keiner aktiv und die Einnahmen steigen; Zu anderen Zeiten sind beide aktiv und die Einnahmen sinken.

„Umsatz“ vs. „Temperatur“ könnte so aussehen …

… wobei diese obere Reihe Tage sind, an denen kein anderer Stand angezeigt wird, und die untere Reihe Tage, an denen beide anderen Stände im Geschäft sind.

Dies würde zu folgenden Restplots führen:

Das heißt, es gibt auf beiden Seiten von 0 einige Datenpunkte mit Residuen von 10 oder höher Angenommen, das Modell war weit entfernt.

Wenn Sie nun jeden Tag Daten für eine Variable namens „Anzahl der aktiven Limonadenstände“ gesammelt hätten, könnten Sie diese Variable zu Ihrem Modell hinzufügen, und dieses Problem wäre behoben Aber oft haben Sie nicht die Daten, die Sie benötigen (oder sogar eine Vermutung, welche Art von Variable Sie benötigen).

Implikationen

Ihr Modell ist nicht wertlos, aber Es ist definitiv nicht so gut, als ob Sie alle Variablen hätten, die Sie benötigen. Sie könnten es trotzdem verwenden und etwas sagen wie: „Dieses Modell ist ziemlich gut die meiste Zeit genau, aber dann ist es hin und wieder weg. “ Ist das nützlich? Wahrscheinlich, aber das ist Ihre Entscheidung und hängt davon ab, welche Entscheidungen Sie basierend auf Ihrem Modell treffen möchten.

So beheben Sie

  • Auch wenn dieser Ansatz dies nicht tun würde Wenn Sie im obigen Beispiel arbeiten, lohnt es sich fast immer, sich umzuschauen, ob die Möglichkeit besteht, eine Variable sinnvoll zu transformieren.
  • Wenn dies jedoch nicht funktioniert, müssen Sie sich wahrscheinlich mit dem Problem der fehlenden Variablen befassen

X-Achse unsymmetrisch

Zeigen Sie Details zu diesem Diagramm an und erfahren Sie, wie Sie es beheben können .

Problem

Stellen Sie sich vor, dass „Umsatz“ zusätzlich zu oder anstelle von „Temperatur“ durch den nahe gelegenen „Fußgängerverkehr“ gesteuert wird. Stellen Sie sich vor, Ihr Limonadenstand hat aus irgendeinem Grund normalerweise nur geringe Einnahmen, aber hin und wieder erhalten Sie Tage mit extrem hohen Einnahmen, sodass Ihre Einnahmen so aussehen…

… anstelle von etwas Symmetrischerem und Glockenförmigem wie diesem:

Also „Fußgängerverkehr“ vs.“Umsatz“ könnte so aussehen, wobei die meisten Daten auf der linken Seite zusammengefasst sind:

Die schwarze Linie steht für Modellgleichung, die Vorhersage des Modells der Beziehung zwischen „Fußgängerverkehr“ und „Einnahmen“. Sie können sehen, dass das Modell den Unterschied zwischen „Fußgängerverkehr“ von 0 und beispielsweise 100 oder 1.000 nicht wirklich erkennen kann. Für jeden dieser Werte wird ein Umsatz in der Nähe von 53 USD prognostiziert.

Übersetzen derselben Daten in die Diagnosediagramme:

Implikationen

Manchmal stimmt tatsächlich nichts mit Ihrem Modell. Im obigen Beispiel ist es ziemlich klar, dass dies kein gutes Modell ist, aber manchmal ist das Restdiagramm unausgeglichen und das Modell ist ziemlich gut.

Die einzigen Möglichkeiten, dies zu erkennen, sind a) Experimente mit der Transformation Ihre Daten und prüfen Sie, ob Sie sie verbessern können. b) Sehen Sie sich das vorhergesagte und das tatsächliche Diagramm an und prüfen Sie, ob Ihre Vorhersage für viele Datenpunkte wie im obigen Beispiel (aber im Gegensatz zum folgenden Beispiel) stark abweicht.

Obwohl es keine explizite Regel gibt, die besagt, dass Ihr Residuum nicht unausgeglichen und dennoch genau sein kann (tatsächlich ist dieses Modell ziemlich genau), Es ist häufiger der Fall, dass ein unsymmetrischer Rest auf der x-Achse bedeutet, dass Ihr Modell erheblich genauer gemacht werden kann. Meistens werden Sie feststellen, dass das Modell richtungsrichtig, aber im Vergleich zu einer verbesserten Version ziemlich ungenau war. Es ist nicht ungewöhnlich, ein Problem wie dieses zu beheben und folglich den R-Quadrat-Sprung des Modells von 0,2 auf 0,5 (auf einer Skala von 0 bis 1) zu sehen.

So beheben Sie

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.