Fortolkning af restplot for at forbedre din regression

Eksempel på restplot og deres diagnoser

Hvis du ikke er sikker på, hvad en rest er, skal du tage fem minutter på at læse ovenstående, så kom tilbage her.

Nedenfor er et galleri med usunde restplotter. Din rest kan se ud som en bestemt type nedenfra eller en kombination.

Hvis din ligner en af nedenstående, skal du klikke på den resterende del for at forstå, hvad der sker, og lære at rette det.

(I det hele taget bruger vi en limonadestands “Omsætning” vs. den dags “Temperatur” som et eksempel på datasæt.)

Y-akse Ubalanceret

Vis detaljer om dette plot, og hvordan man løser det.

Problem

Forestil dig, at din limonadestand uanset årsag typisk har lave indtægter, men hver gang imellem får du meget høje indtægtsdage, således at “Indtægter” så sådan ud …

… i stedet for noget mere symmetrisk og klokkeformet som dette:

Så “Temperatur” vs. “Indtægter” kan se sådan ud, med de fleste data samlet i bunden …

Den sorte linje repræsenterer modelligningen, modelens forudsigelse af forholdet mellem “Temperatur” og “Omsætning.” Se ovenfor på hver forudsigelse foretaget af den sorte linje for en given “temperatur” (f.eks. Ved “temperatur” 30 forventes “indtægter” at være ca. 20). Du kan se, at de fleste prikker er under linjen (det vil sige forudsigelsen var for høj), men et par prikker er meget langt over linjen (det vil sige forudsigelsen var alt for lav).

Når de samme data oversættes til de diagnostiske plot, er de fleste af ligningens forudsigelser lidt for høje, og så vil nogle være alt for lave.

Implikationer

Dette betyder næsten altid, at din model kan gøres betydeligt mere nøjagtig. For det meste finder du ud af, at modellen var retningsbestemt, men temmelig unøjagtig i forhold til en forbedret version. Det er ikke ualmindeligt at rette et problem som dette og derfor se modelens r-firkantede spring fra 0,2 til 0,5 (på en skala fra 0 til 1).

Sådan løser du

  • Løsningen på dette er næsten altid at transformere dine data, typisk din svarsvariabel.
  • Det er også muligt, at din model mangler en variabel.

Heteroscedasticitet

Vis detaljer om dette plot, og hvordan man løser det.

Problem

Disse plot viser “heteroscedasticitet”, hvilket betyder at restprodukterne bliver større, når forudsigelsen bevæger sig fra lille til stor (eller fra stor til lille).

Forestil dig, at den kolde dage er indtægtsmængden meget konstant, men på varmere dage er indtægterne meget høje og nogle gange meget lave.

Du kan se plots som disse:

Implikationer

Dette skaber ikke i sig selv et problem, men det er ofte en indikator for, at din model kan forbedres.

Den eneste undtagelse her er, at hvis din stikprøvestørrelse er mindre end 250, og du ikke kan løse problemet ved hjælp af nedenstående, kan dine p-værdier være lidt højere eller lavere end de skulle være, så muligvis en variabel, der er lige ved grænsen af betydning, kan fejlagtigt ende på den forkerte side af grænsen. Dine regressionskoefficienter (antallet af enheder “Indtægter” ændres, når “Temperatur” stiger en) vil dog stadig være nøjagtige.

Sådan løses

  • Den mest succesrige løsning er at omdanne en variabel.
  • Ofte angiver heteroscedasticitet, at en variabel mangler.

Ikke-lineær

Vis detaljer om dette plot, og hvordan det løses.

Problem

Forestil dig, at det er svært at sælge limonade på kolde dage, let at sælge den på varme dage og svært at sælge den på meget varme dage (måske fordi ingen forlader huset meget varme dage).

Dette plot ser sådan ud:

Modellen repræsenteret af linjen , er forfærdeligt. Forudsigelserne ville være langt væk, hvilket betyder, at din model ikke repræsenterer nøjagtigt forholdet mellem “Temperatur” og “Indtægter.”

Følgelig vil restprodukter se sådan ud:

Implikationer

Hvis din model er langt væk, som i eksemplet ovenfor, vil dine forudsigelser være ret værdiløse (og du vil bemærke en meget lav r-kvadrat, som 0,027 r-kvadrat for ovenstående).

Andre gange vil en let suboptimal pasform stadig give dig en god generel fornemmelse af forholdet, selvom det ikke er perfekt, som nedenstående:

Denne model ser ret nøjagtig ud. Hvis du ser nøje (eller hvis du ser på resterne), kan du fortælle, at der er lidt af et mønster her – at prikkerne er på en kurve, som linjen ikke stemmer overens med.

Betyder det noget? Det er op til dig.Hvis du får en hurtig forståelse af forholdet, er din lige linje en ret anstændig tilnærmelse. Hvis du vil bruge denne model til forudsigelse og ikke forklaring, vil den mest nøjagtige mulige model sandsynligvis tage højde for den kurve.

Sådan løses

  • Nogle gange mønstre som dette indikerer, at en variabel skal transformeres.
  • Hvis mønsteret faktisk er så klart som disse eksempler, skal du sandsynligvis oprette en ikke-lineær model (det er ikke så hårdt som det lyder).
  • Eller som altid er det muligt, at problemet mangler variabel.

Outliers

Vis detaljer om dette plot, og hvordan man løser det.

Problem

Hvad hvis et af dine datapunkter havde en “temperatur” på 80 i stedet for de normale 20ere og 30ere? Dine plot ville se sådan ud:

Denne regression har et fjerntliggende datapunkt på en inputvariabel, “Temperatur” (outliers på en inputvariabel er også kendt som “gearing points”).

Hvad hvis en af dine datapunkter havde $ 160 i indtægter i stedet for de normale $ 20 – $ 60? Dine plot ville se sådan ud:

Denne regression har et fjerntliggende datapunkt på en outputvariabel, “Revenue.”

Implikationer

Stats iQ kører en type regression, der generelt ikke påvirkes af output outliers ( som dagen med $ 160 indtægter), men det påvirkes af input outliers (som en “temperatur” i 80erne). I værste fald kan din model dreje for at forsøge at komme tættere på dette punkt på bekostning af at være tæt på alle de andre og ender med at være helt forkert, sådan her:

Den blå linje er sandsynligvis, hvad du ønsker, at din model skal se ud, og den røde linje er den model, du muligvis ser, hvis du har denne outlier ude ved “Temperatur” 80.

Sådan løses

  • Det er muligt, at dette er en måle- eller dataindtastningsfejl, hvor outlieren bare er forkert, i hvilket tilfælde du skal slette den.
  • Det er muligt, at det, der ser ud til at være et par outliers, faktisk er en strømfordeling. Overvej at transformere variablen, hvis en af dine variabler har en asymmetrisk fordeling (det vil sige, den er ikke eksternt klokkeformet).
  • Hvis det virkelig er en legitim outlier, skal du vurdere virkningen af outlierne.

Datapunkter med stor Y-akse

Vis detaljer om dette plot, og hvordan man løser det.

Problem

Forestil dig at der er to konkurrerende limonadestande i nærheden. Det meste af tiden er kun én operationel, i hvilket tilfælde din indtjening er konstant god. Nogle gange er ingen af dem aktive, og indtægterne stiger; på andre tidspunkter er begge aktive og indtægterne falder.

“Indtægter” versus “Temperatur” kan se sådan ud …

… hvor den øverste række er dage, hvor ingen anden stand vises, og den nederste række er dage, hvor begge andre stands er i drift.

Det ville resultere i disse resterende plot:

Det vil sige, der er en hel del datapunkter på begge sider af 0, der har rester på 10 eller højere, hvilket er sig, at modellen var langt væk.

Hvis du nu havde indsamlet data hver dag for en variabel kaldet “Antal aktive limonadestande”, kunne du føje den variabel til din model, og dette problem ville blive løst Men ofte har du ikke de data, du har brug for (eller endda et gæt om, hvilken type variabel du har brug for).

Implikationer

Din model er ikke værdiløs, men det er bestemt ikke så godt, som hvis du havde alle de variabler, du havde brug for. Du kan stadig bruge det, og du siger måske noget som “Denne model er temmelig en glat det meste af tiden, men så er det en gang imellem. ” Er det nyttigt? Sandsynligvis, men det er din beslutning, og det afhænger af, hvilke beslutninger du prøver at tage ud fra din model.

Sådan løser du

  • Selvom denne tilgang ikke ville arbejde i det specifikke eksempel ovenfor, er det næsten altid værd at kigge rundt for at se, om der er en mulighed for nyttigt at transformere en variabel.
  • Hvis det dog ikke fungerer, skal du sandsynligvis håndtere dit manglende variabelproblem .

Ubalanceret X-akse

Vis detaljer om dette plot, og hvordan man løser det .

Problem

Forestil dig, at “indtægter” drives af nærliggende “fodtrafik” ud over eller i stedet for bare “temperatur”. Forestil dig, at din limonadestand uanset årsag typisk har lave indtægter, men hver gang imellem får du ekstremt høje indtægtsdage, så din indtægt så sådan ud …

… i stedet for noget mere symmetrisk og klokkeformet som dette:

Så “Fodtrafik” vs.”Indtægter” kan se sådan ud med de fleste data samlet på venstre side:

Den sorte linje repræsenterer modelligning, modelens forudsigelse af forholdet mellem “Fodtrafik” og “Omsætning.” Du kan se, at modellen ikke rigtig kan se forskellen mellem “Fodtrafik” på 0 og f.eks. 100 eller 1.000; for hver af disse værdier ville det forudsige indtægter nær $ 53.

Oversættelse af de samme data til de diagnostiske plot:

Implikationer

Nogle gange er der faktisk ikke noget galt med din model. I ovenstående eksempel er det helt klart, at dette ikke er en god model, men nogle gange er det resterende plot ubalanceret, og modellen er ganske god.

De eneste måder at fortælle på er at) eksperimentere med transformation dine data og se om du kan forbedre dem og b) se på det forudsagte vs. faktiske plot og se om din forudsigelse er vildt ude for mange datapunkter, som i ovenstående eksempel (men i modsætning til nedenstående eksempel).

Selvom der ikke er nogen eksplicit regel, der siger, at din rest ikke kan være ubalanceret og stadig være nøjagtig (faktisk er denne model ret nøjagtig), det er oftere tilfældet, at en x-akse ubalanceret rest betyder, at din model kan gøres væsentligt mere nøjagtig. For det meste finder du ud af, at modellen var retningsbestemt, men temmelig unøjagtig i forhold til en forbedret version. Det er ikke ualmindeligt at rette et problem som dette og derfor se modelens r-firkantede spring fra 0,2 til 0,5 (på en skala fra 0 til 1).

Sådan løser du

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *