Tolke restplott for å forbedre regresjonen din

oktober 17, 2020

Tolke restplott for å forbedre regresjonen din

Eksempel på restplott og diagnoser derav

Hvis du ikke er sikker på hva en rest er, kan du ta fem minutter å lese ovennevnte kom tilbake hit.

Nedenfor er et galleri med usunne restplott. Resten din kan se ut som en bestemt type nedenfra, eller en kombinasjon.

Hvis din ser ut som en av de nedenfor, klikker du på den resterende for å forstå hva som skjer og lære hvordan du fikser det.

(Gjennom hele tiden bruker vi en limonadestands «Inntekt» kontra dagens «Temperatur» som et datasett.)

Y-akse Ubalansert

Vis detaljer om dette plottet, og hvordan du fikser det.

Problem

Tenk deg at uansett årsak har limonadestanden din vanligvis lave inntekter, men hver eneste gang får du veldig høy inntektsdager, slik at «Inntekt» så slik ut …

… i stedet for noe mer symmetrisk og klokkeformet som dette:

Så «Temperatur» kontra «Inntekt» kan se slik ut, med de fleste data samlet i bunnen …

Den svarte linjen representerer modellligningen, modellens prediksjon av forholdet mellom «Temperatur» og «Inntekt.» Se ovenfor på hver spådom laget av den svarte linjen for en gitt «Temperatur» (f.eks. Ved «Temperatur» 30, blir «Inntekt» spådd til å være omtrent 20). Du kan se at flertallet av punktene er under linjen (det vil si prediksjonen var for høy), men noen få punkter er veldig langt over linjen (det vil si prediksjonen var altfor lav).

Når vi oversetter de samme dataene til de diagnostiske plottene, er de fleste av ligningens spådommer litt for høye, og noen vil da være altfor lave.

Implikasjoner

Dette betyr nesten alltid at modellen din kan gjøres betydelig mer nøyaktig. Mesteparten av tiden vil du oppdage at modellen var retningsbestemt, men ganske unøyaktig i forhold til en forbedret versjon. Det er ikke uvanlig å fikse et problem som dette og følgelig se modellens r-kvadratiske hopp fra 0,2 til 0,5 (på en skala fra 0 til 1).

Slik løser du

Løsningen på dette er nesten alltid å transformere dataene dine, vanligvis svarvariabelen.
Det er også mulig at modellen din mangler en variabel.

Heteroscedasticity

Vis detaljer om dette plottet, og hvordan du fikser det.

Problem

Disse plottene viser «heteroscedasticity», noe som betyr at restene blir større etter hvert som spådommen beveger seg fra liten til stor (eller fra stor til liten).

Se for deg at på kalde dager er inntektene veldig jevne, men på varmere dager er inntektene veldig høye og noen ganger er de veldig lave.

Du ser plott som disse:

Implikasjoner

Dette skaper ikke i seg selv et problem, men det er ofte en indikator på at modellen din kan forbedres.

Det eneste unntaket her er at hvis prøvestørrelsen din er mindre enn 250, og du ikke kan løse problemet ved hjelp av nedenstående, kan p-verdiene dine være litt høyere eller lavere enn de burde være, så muligens variabel som er rett på grensen av betydning, kan ende feilaktig på feil side av grensen. Regresjonskoeffisientene dine (antall enheter «Inntekt» endres når «Temperatur» går opp en) vil likevel være nøyaktige.

Slik løser du

Den mest vellykkede løsningen er å transformere en variabel.
Ofte heteroscedasticity indikerer at en variabel mangler.

Ikke-lineær

Vis detaljer om dette plottet, og hvordan du fikser det.

Problem

Se for deg at det er vanskelig å selge limonade på kalde dager, lett å selge den på varme dager, og vanskelig å selge den på veldig varme dager (kanskje fordi ingen forlater huset på veldig varme dager dager).

Dette plottet vil se slik ut:

Modellen, representert ved linjen , er forferdelig. Forutsigelsene vil være langt unna, noe som betyr at modellen din ikke nøyaktig representerer forholdet mellom «Temperatur» og «Inntekter.»

Følgelig vil restprodukter se slik ut:

Implikasjoner

Hvis modellen din er langt unna, som i eksemplet ovenfor, vil spådommene dine være ganske verdiløse (og du vil legge merke til en veldig lav r-kvadrat, som 0,027 r-kvadrat for ovennevnte).

Andre ganger vil en litt suboptimal passform fremdeles gi deg en god generell følelse av forholdet, selv om det ikke er perfekt, som nedenfor:

Den modellen ser ganske nøyaktig ut. Hvis du ser nøye på (eller hvis du ser på restene), kan du fortelle at det er litt av et mønster her – at prikkene er i en kurve som linjen ikke stemmer overens med.

Spiller det noen rolle? Det er opp til deg.Hvis du får en rask forståelse av forholdet, er din rette linje en ganske anstendig tilnærming. Hvis du skal bruke denne modellen for å forutsi og ikke forklare, vil den mest nøyaktige mulige modellen sannsynligvis ta utgangspunkt i den kurven.

Slik løser du

Noen ganger kan mønstre som dette indikerer at en variabel må transformeres.
Hvis mønsteret faktisk er så klart som disse eksemplene, må du sannsynligvis lage en ikke-lineær modell (det er ikke så vanskelig som det høres ut).
Eller som alltid er det mulig at problemet mangler variabel.

Outliers

Vis detaljer om dette plottet, og hvordan du fikser det.

Problem

Hva om et av datapunktene dine hadde en «temperatur» på 80 i stedet for de vanlige 20- og 30-årene? Plottene dine ville se slik ut:

Denne regresjonen har et fjerntliggende datapunkt på en inngangsvariabel, «Temperatur» (outliers på en inngangsvariabel er også kjent som «leverage points»).

Hva om et av datapunktene dine hadde $ 160 i inntekt i stedet for de vanlige $ 20 – $ 60? Tomtene dine ville se slik ut:

Denne regresjonen har et avsidesliggende datapunkt på en outputvariabel, «Revenue.»

Implikasjoner

Stats iQ kjører en type regresjon som generelt ikke påvirkes av output outliers ( som dagen med $ 160 inntekter), men det påvirkes av input outliers (som en «temperatur» på 80-tallet). I verste fall kan modellen svinge for å prøve å komme nærmere dette punktet på bekostning av å være nær alle de andre og ender opp med å bli helt feil, slik:

Den blå linjen er sannsynligvis slik du vil at modellen din skal se ut, og den røde linjen er den modellen du kan se hvis du har den outlieren på «Temperatur» 80.

Slik løser du

Det er mulig at dette er en måle- eller datainntaksfeil, der outlieren bare er feil, i så fall bør du slette den.
Det er mulig at det som ser ut til å være bare et par avvik, faktisk er en kraftfordeling. Vurder å transformere variabelen hvis en av variablene dine har en asymmetrisk fordeling (det vil si at den ikke er eksternt klokkeformet).
Hvis den virkelig er en legitim outlier, bør du vurdere effekten av outlier. / li>

Store Y-akse-datapunkter

Vis detaljer om dette plottet, og hvordan du fikser det.

Problem

Se for deg at det er to konkurrerende limonadestandard i nærheten. Mesteparten av tiden er det bare én som er i drift, i så fall er inntektene dine jevnlig gode. Noen ganger er ingen av dem aktive og inntektene øker; til andre tider er begge aktive og inntektene faller.

«Inntekt» kontra «Temperatur» kan se slik ut …

… med at den øverste raden er dager der ingen annen stand dukker opp, og den nederste raden er dager der begge andre stands er i virksomhet.

Dette vil resultere i disse gjenværende tomtene:

Det vil si at det er ganske mange datapunkter på begge sider av 0 som har rester på 10 eller høyere, det vil si si at modellen var langt unna.

Nå hvis du hadde samlet inn data hver dag for en variabel kalt «Antall aktive limonadestandere», kan du legge den variabelen til modellen din, og dette problemet vil bli løst Men ofte har du ikke dataene du trenger (eller til og med en gjetning om hvilken type variabel du trenger).

Implikasjoner

Modellen din er ikke verdiløs, men det er definitivt ikke så bra som om du hadde alle variablene du trengte. Du kan fortsatt bruke den, og du kan si noe sånt som «Denne modellen er ganske ccurate mesteparten av tiden, men så er det en gang i blant. » Er det nyttig? Sannsynligvis, men det er din beslutning, og det kommer an på hvilke avgjørelser du prøver å ta basert på modellen din.

Slik løser du

Selv om denne tilnærmingen ikke ville arbeid i det spesifikke eksemplet ovenfor, det er nesten alltid verdt å se deg om for å se om det er en mulighet til å transformere en variabel.
Hvis det ikke fungerer skjønt, må du sannsynligvis håndtere det manglende variabelproblemet. .

X-akse ubalansert

Vis detaljer om dette plottet, og hvordan du fikser det .

Problem

Se for deg at «Inntekt» drives av nærliggende «Fottrafikk», i tillegg til eller i stedet for bare «Temperatur.» Tenk deg at uansett årsak, har limonadestanden din vanligvis lave inntekter, men hver eneste gang får du ekstremt høye inntektsdager slik at inntektene dine så slik ut …

… i stedet for noe mer symmetrisk og klokkeformet som dette:

Så «Fottrafikk» vs.»Inntekt» kan se slik ut, med de fleste dataene samlet på venstre side:

Den svarte linjen representerer modellligning, modellens prediksjon av forholdet mellom «Fottrafikk» og «Inntekter.» Du kan se at modellen egentlig ikke kan se forskjellen mellom «Fottrafikk» på 0 og for eksempel si 100 eller 1000; for hver av disse verdiene vil det forutsi inntekter nær $ 53.

Oversettelse av de samme dataene til diagnostiske tomter:

Implikasjoner

Noen ganger er det faktisk ikke noe galt med modellen din. I eksemplet ovenfor er det helt klart at dette ikke er en god modell, men noen ganger er restplottet ubalansert og modellen er ganske bra.

De eneste måtene å fortelle er å a) eksperimentere med transformering dataene dine og se om du kan forbedre det og b) se på det forutsagte kontra faktiske plottet og se om spådommen din er veldig dårlig for mange datapunkter, som i eksemplet ovenfor (men i motsetning til eksemplet nedenfor).

Selv om det ikke er noen eksplisitt regel som sier at restmengden din ikke kan være ubalansert og fortsatt være nøyaktig (faktisk er denne modellen ganske nøyaktig), det er oftere slik at en ubalansert rest på x-aksen betyr at modellen din kan gjøres betydelig mer nøyaktig. Mesteparten av tiden vil du oppdage at modellen var retningsbestemt, men ganske unøyaktig i forhold til en forbedret versjon. Det er ikke uvanlig å fikse et problem som dette og følgelig se modellens r-kvadratiske hopp fra 0,2 til 0,5 (på en skala fra 0 til 1).

Slik løser du

admin