Interpretacja wykresów szczątkowych w celu poprawy regresji

Przykładowe wykresy szczątkowe i ich diagnozy

Jeśli nie jesteś pewien, czym jest szczątkowa, poświęć pięć minut na przeczytanie powyższego, a następnie wróć tutaj.

Poniżej znajduje się galeria niezdrowych działek resztkowych. Twoja reszta może wyglądać jak jeden konkretny typ od dołu lub jakaś kombinacja.

Jeśli twoja wygląda jak jedna z poniższych, kliknij tę pozostałość, aby zrozumieć, co się dzieje i dowiedzieć się, jak to naprawić.

(Jako przykładowy zestaw danych wykorzystamy „Przychody” stoiska z lemoniadą w porównaniu z „Temperaturą” z tego dnia).

Oś Y niezrównoważona

Pokaż szczegóły dotyczące tego wykresu i jak go naprawić.

Problem

Wyobraź sobie, że z jakiegoś powodu Twój stoisko z lemoniadą ma zazwyczaj niskie przychody, ale raz na jakiś czas masz dni z bardzo dużymi przychodami, na przykład „Przychody” wyglądały tak…

… zamiast czegoś bardziej symetrycznego i podobnego do dzwonu:

Zatem „Temperatura” a „Przychody” mogą wyglądać tak, z większością danych zebranych na dole…

Czarna linia reprezentuje równanie modelu, prognozę modelu dotyczącą związku między „temperaturą” a „przychodem”. Spójrz powyżej na każdą prognozę utworzoną przez czarną linię dla danej „Temperatury” (np. Przy „Temperaturze” 30 przewiduje się, że „Przychód” wyniesie około 20). Możesz zobaczyć, że większość kropek znajduje się poniżej linii (to znaczy przewidywanie było zbyt wysokie), ale kilka kropek jest bardzo daleko nad linią (to znaczy przewidywanie było o wiele za niskie).

Przekładając te same dane na wykresy diagnostyczne, większość przewidywań równania jest nieco za wysoka, a niektóre byłyby o wiele za niskie.

Implikacje

To prawie zawsze oznacza, że model może być znacznie dokładniejszy. W większości przypadków okaże się, że model był kierunkowo poprawny, ale dość niedokładny w porównaniu do ulepszonej wersji. Często zdarza się, że naprawia się taki problem i konsekwentnie widzi się skok r-kwadrat modelu z 0,2 do 0,5 (w skali od 0 do 1).

Jak naprawić

  • Rozwiązaniem tego problemu jest prawie zawsze przekształcenie danych, zazwyczaj zmiennej odpowiedzi.
  • Możliwe jest również, że w modelu brakuje zmiennej.

Heteroskedastyczność

Pokaż szczegóły dotyczące tego wykresu i jak go naprawić.

Problem

Te wykresy wykazują „heteroskedastyczność”, co oznacza, że reszty stają się większe, gdy prognozy przesuwają się od małych do dużych (lub od dużych do małych).

Wyobraź sobie, że W chłodne dni kwota przychodów jest bardzo stała, ale w cieplejsze czasami przychody są bardzo wysokie, a czasami bardzo niskie.

Możesz zobaczyć takie wykresy:

Implikacje

Nie powoduje to z natury problemu, ale często wskazuje, że model można ulepszyć.

Jedynym wyjątkiem jest to, że jeśli rozmiar próbki jest mniejszy niż 250 i nie możesz rozwiązać problemu za pomocą poniższych instrukcji, Twoje wartości p mogą być nieco wyższe lub niższe niż powinny, więc prawdopodobnie zmienna, która znajduje się dokładnie na granicy istotności, może błędnie znaleźć się po niewłaściwej stronie tej granicy. Twoje współczynniki regresji (liczba jednostek „Przychód” zmienia się, gdy „Temperatura” wzrośnie o jeden) nadal będą dokładne.

Jak naprawić

  • Najczęściej skutecznym rozwiązaniem jest transformacja zmiennej.
  • Często heteroskedastyczność wskazuje, że brakuje zmiennej.

Nieliniowa

Pokaż szczegóły tej fabuły i jak to naprawić.

Problem

Wyobraź sobie, że trudno jest sprzedawać lemoniadę w zimne dni, łatwo ją sprzedać w ciepłe dni i trudno sprzedać w bardzo upalne (może dlatego, że nikt nie wychodzi z domu w bardzo gorące dni). dni).

Ten wykres wyglądałby następująco:

Model reprezentowany przez linię , jest okropny. Prognozy byłyby dalekie, co oznacza, że model nie przedstawia dokładnie relacji między „temperaturą” a „przychodami”.

W związku z tym reszty wyglądałyby następująco:

Implikacje

Jeśli Twój model nie działa, jak w powyższym przykładzie, Twoje przewidywania będą bezwartościowe (i zauważysz bardzo niskie r-kwadrat, jak 0,027 r-kwadrat dla powyższego).

Innym razem nieco nieoptymalne dopasowanie da ci dobry ogólny obraz związku, nawet jeśli nie jest doskonały, np. poniżej:

Ten model wygląda dość dokładnie. Jeśli przyjrzysz się uważnie (lub przyjrzysz się resztom), możesz zauważyć, że jest tu trochę wzoru – że kropki są na krzywej, do której linia nie pasuje.

Czy to ma znaczenie? To zależy od Ciebie.Jeśli szybko rozumiesz związek, twoja prosta linia jest całkiem przyzwoitym przybliżeniem. Jeśli zamierzasz używać tego modelu do przewidywania, a nie wyjaśniania, najdokładniejszy możliwy model uwzględniałby tę krzywą.

Jak naprawić

  • Czasami wzorce takie jak oznacza to, że zmienna musi zostać przekształcona.
  • Jeśli wzorzec jest tak jasny jak te przykłady, prawdopodobnie będziesz musiał utworzyć model nieliniowy (nie jest tak trudny, jak się wydaje).
  • Lub, jak zawsze, możliwe, że problemem jest brakująca zmienna.

Wartości odstające

Pokaż szczegóły dotyczące tego wykresu i jak to naprawić.

Problem

A co by było, gdyby jeden z twoich punktów danych miał „Temperatura” 80 zamiast normalnych 20 i 30 sekund? Twoje wykresy wyglądałyby następująco:

Ta regresja ma odległy punkt danych dla zmiennej wejściowej „Temperatura” (wartości odstające dla zmiennej wejściowej są również nazywane „punktami dźwigni”).

A co by było, gdyby jeden z Twoich punktów danych miał 160 USD przychodu zamiast normalnych 20-60 USD? Twoje wykresy wyglądałyby następująco:

Ta regresja ma odległy punkt danych dla zmiennej wyjściowej „Przychody”.

Implikacje

Stats iQ przeprowadza typ regresji, na który generalnie nie mają wpływu wartości odstające ( jak dzień z przychodami w wysokości 160 USD), ale wpływają na nie wartości odstające (np. „Temperatura” w latach 80.). W najgorszym przypadku model może się obrócić, próbując zbliżyć się do tego punktu, kosztem zbliżenia wszystkie inne i kończą się całkowitym błędem, na przykład:

Niebieska linia jest prawdopodobnie tym, jak chciałbyś, aby wyglądał Twój model, a czerwona linia to model, który możesz zobaczyć, jeśli wartość odstająca wynosi 80.

Jak naprawić

  • Możliwe, że jest to błąd pomiaru lub wprowadzania danych, w którym wartość odstająca jest po prostu błędna, w takim przypadku należy ją usunąć.
  • Możliwe, że to, co wydaje się być tylko kilkoma wartościami odstającymi, jest w rzeczywistości rozkładem mocy. Rozważ przekształcenie zmiennej, jeśli jedna z twoich zmiennych ma rozkład asymetryczny (to znaczy nie ma odległego kształtu dzwonu).
  • Jeśli rzeczywiście jest to uzasadniona wartość odstająca, powinieneś ocenić wpływ wartości odstającej.

Duże punkty danych na osi Y

Pokaż szczegóły tego wykresu i jak go naprawić.

Problem

Wyobraź sobie, że w pobliżu znajdują się dwa konkurujące ze sobą stoiska z lemoniadą. W większości przypadków działa tylko jeden, w którym to przypadku Twoje przychody są stale dobre. Czasami żadna z nich nie jest aktywna, a dochody rosną; innym razem oba są aktywne i przychody gwałtownie spadają.

„Przychody” a „Temperatura” mogą wyglądać tak…

… z tym górnym rzędem dni, kiedy żadne inne stoisko nie pojawia się, a dolnym wierszem dni, kiedy oba inne stoiska działają.

W rezultacie powstałyby te pozostałe wykresy:

Oznacza to, że jest sporo punktów danych po obu stronach 0, które mają resztę 10 lub więcej, co oznacza powiedz, że model był odległy.

Teraz, gdybyś codziennie zbierał dane dla zmiennej o nazwie „Liczba aktywnych stoisk z lemoniadą”, możesz dodać tę zmienną do swojego modelu i problem zostałby rozwiązany . Ale często nie masz danych, których potrzebujesz (lub nawet przypuszczenia, jakiego rodzaju zmiennej potrzebujesz).

Implikacje

Twój model nie jest bezwartościowy, ale zdecydowanie nie jest tak dobry, jak gdybyś miał wszystkie potrzebne zmienne. Nadal możesz go używać i możesz powiedzieć coś w rodzaju: „Ten model jest całkiem niezły przez większość czasu jest dokładny, ale od czasu do czasu jest daleko. ” Czy to jest przydatne? Prawdopodobnie, ale to twoja decyzja i zależy od decyzji, które próbujesz podjąć na podstawie swojego modelu.

Jak naprawić

  • Nawet jeśli takie podejście nie działa w konkretnym przykładzie powyżej, prawie zawsze warto się rozejrzeć, aby sprawdzić, czy istnieje możliwość użytecznej transformacji zmiennej.
  • Jeśli to nie zadziała, prawdopodobnie musisz rozwiązać problem z brakującą zmienną .

Oś X niezbalansowana

Pokaż szczegóły tego wykresu i jak to naprawić .

Problem

Wyobraź sobie, że „Przychody” są generowane przez pobliski „Ruch pieszy” oprócz lub zamiast samego „Temperatury”. Wyobraź sobie, że z jakiegoś powodu Twój stoisko z lemoniadą ma zazwyczaj niskie przychody, ale od czasu do czasu masz dni z wyjątkowo dużymi przychodami, tak że Twoje przychody wyglądały tak…

… zamiast czegoś bardziej symetrycznego i w kształcie dzwonu, jak ten:

Zatem „ruch pieszy” vs.„Przychody” mogą wyglądać następująco, a większość danych jest zgrupowana po lewej stronie:

Czarna linia przedstawia równanie modelu, przewidywane przez model relacje między „ruchem pieszym” a „przychodami”. Jak widać, model tak naprawdę nie jest w stanie określić różnicy między „ruchem pieszym” wynoszącym 0 a, powiedzmy, 100 lub 1000; dla każdej z tych wartości przewidywałby przychód w pobliżu 53 USD.

Przekładając te same dane na wykresy diagnostyczne:

Implikacje

Czasami w Twoim modelu nie ma nic złego. W powyższym przykładzie jest całkiem jasne, że to nie jest dobry model, ale czasami wykres resztkowy jest niezrównoważony, a model jest całkiem dobry.

Jedynym sposobem na to jest a) eksperymentowanie z przekształcaniem swoje dane i zobacz, czy możesz je poprawić oraz b) spójrz na wykres przewidywany i rzeczywisty i zobacz, czy Twoje przewidywania są całkowicie błędne dla wielu punktów danych, jak w powyższym przykładzie (ale w przeciwieństwie do poniższego przykładu).

Chociaż nie ma wyraźnej reguły, która mówi, że Twoja reszta nie może być niezrównoważona i nadal być dokładna (w rzeczywistości ten model jest dość dokładny), częściej zdarza się, że niewyważona reszta na osi X oznacza, że model może być znacznie dokładniejszy. W większości przypadków model był poprawny kierunkowo, ale dość niedokładny w porównaniu z ulepszoną wersją. Często zdarza się, że naprawia się taki problem i w konsekwencji widać skok r-kwadrat modelu z 0,2 do 0,5 (w skali od 0 do 1).

Jak to naprawić

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *