Tolka restdiagram för att förbättra din regression
Exempel på restdiagram och deras diagnoser
Om du inte är säker på vad som är en rest, ta fem minuter att läsa ovan, sedan kom tillbaka hit.
Nedan finns ett galleri med ohälsosamma restplott. Din rest kan se ut som en specifik typ underifrån eller någon kombination.
Om din ser ut som en av nedanstående, klicka på den resterande för att förstå vad som händer och lära dig hur du fixar det.
(Under hela tiden använder vi ett limonadställs ”Intäkter” jämfört med dagens ”Temperatur” som ett exempel på en datauppsättning.)
Y-axel obalanserad
Visa detaljer om denna plot och hur du åtgärdar den.
Problem
Föreställ dig att oavsett anledning har din limonadstativ vanligtvis låga intäkter, men varje gång får du mycket intäktsdagar, så att ”Intäkter” såg ut så här …
… istället för något mer symmetriskt och klockformat så här:
Så ”Temperatur” jämfört med ”Intäkter” kan se ut så här, med de flesta data bundna längst ner …
Den svarta linjen representerar modellekvationen, modellens förutsägelse av förhållandet mellan ”Temperatur” och ”Intäkter.” Titta ovanför varje förutsägelse som görs av den svarta linjen för en given ”temperatur” (t.ex. vid ”temperatur” 30 förutses ”intäkter” vara cirka 20). Du kan se att majoriteten av punkterna ligger under linjen (det vill säga förutsägelsen var för hög), men några punkter är mycket långt över linjen (det vill säga förutsägelsen var alldeles för låg).
Att översätta samma data till diagnosdiagrammen är de flesta av ekvationens förutsägelser lite för höga, och då skulle vissa vara alldeles för låga.
Implikationer
Detta betyder nästan alltid att din modell kan göras betydligt mer exakt. För det mesta ser du att modellen var riktad korrekt men ganska felaktig i förhållande till en förbättrad version. Det är inte ovanligt att fixa ett sådant problem och följaktligen se modellens r-kvadratiska hopp från 0,2 till 0,5 (på en skala från 0 till 1).
Hur man fixar
- Lösningen på detta är nästan alltid att omvandla dina data, vanligtvis din svarsvariabel.
- Det är också möjligt att din modell saknar en variabel.
Heteroscedasticitet
Visa detaljer om denna plot och hur du åtgärdar den.
Problem
Dessa tomter uppvisar ”heteroscedasticitet”, vilket innebär att resterna blir större när förutsägelsen går från liten till stor (eller från stor till liten).
Tänk dig att under kalla dagar är mängden intäkter mycket konsekvent, men på varmare dagar är ibland intäkterna mycket höga och ibland mycket låga.
Du ser tomter som dessa:
Implikationer
Detta skapar inte ett problem i sig, men det är ofta en indikator på att din modell kan förbättras.
Det enda undantaget här är att om din provstorlek är mindre än 250, och du inte kan åtgärda problemet med hjälp av nedanstående, kan dina p-värden vara lite högre eller lägre än de borde vara, så möjligen en variabel som är precis vid gränsen av betydelse kan hamna felaktigt på fel sida av gränsen. Dina regressionskoefficienter (antalet enheter ”Intäkter” ändras när ”Temperatur” går upp en) kommer dock fortfarande att vara korrekt.
Så här fixar du
- Den mest framgångsrika lösningen är att transformera en variabel.
- Ofta indikerar heteroscedasticitet att en variabel saknas.
Icke-linjär
Visa detaljer om denna tomt och hur du åtgärdar det.
Problem
Föreställ dig att det är svårt att sälja limonad på kalla dagar, lätt att sälja den på varma dagar och svårt att sälja den på mycket varma dagar (kanske för att ingen lämnar sitt hus på mycket varma dagar) dagar).
Plottet skulle se ut så här:
Modellen, representerad av linjen , är hemskt. Förutsägelserna skulle vara långt borta, vilket innebär att din modell inte korrekt representerar förhållandet mellan ”Temperatur” och ”Intäkter.”
Följaktligen skulle rester se ut så här:
Implikationer
Om din modell är långt borta, som i exemplet ovan, kommer dina förutsägelser att vara ganska värdelösa (och du kommer att märka en mycket låg r-kvadrat, som 0,027 r-kvadrat för ovan).
Andra gånger kommer en lite suboptimal passform fortfarande att ge dig en bra allmän känsla för förhållandet, även om det inte är perfekt, som nedan:
Den modellen ser ganska exakt ut. Om du tittar noga (eller om du tittar på restprodukterna) kan du se att det finns lite mönster här – att punkterna ligger i en kurva som linjen inte stämmer med.
Spelar det någon roll? Det är upp till dig.Om du får en snabb förståelse av förhållandet är din raka linje en ganska anständig approximation. Om du kommer att använda den här modellen för förutsägelse och inte förklaring skulle den mest exakta möjliga modellen förmodligen ta hänsyn till den kurvan.
Så här fixar du
- Ibland mönster som detta indikerar att en variabel behöver transformeras.
- Om mönstret faktiskt är så tydligt som dessa exempel måste du antagligen skapa en icke-linjär modell (det är inte så svårt som det låter).
- Eller som alltid är det möjligt att problemet saknas variabel.
Outliers
Visa detaljer om denna tomt och hur du åtgärdar det.
Problem
Vad händer om en av dina datapunkter hade en ”temperatur” på 80 istället för de normala 20- och 30-talet? Dina tomter skulle se ut så här:
Denna regression har en avlägsen datapunkt på en ingångsvariabel, ”Temperatur” (outliers på en inmatningsvariabel är också känd som ”hävstångspunkter”).
Vad händer om någon av dina datapunkter hade 160 $ i intäkter istället för de vanliga 20 – 60 $? Dina tomter skulle se ut så här:
Denna regression har en avlägsen datapunkt på en utdatavariabel, ”Intäkter.”
Implikationer
Statistik iQ kör en typ av regression som vanligtvis inte påverkas av utgående outliers ( som dagen med 160 $ intäkter), men det påverkas av input outliers (som en ”temperatur” på 80-talet). I värsta fall kan din modell svänga för att försöka komma närmare den punkten på bekostnad av att vara nära alla andra och blir bara helt fel, så här:
Den blå linjen är förmodligen vad du vill att din modell ska se ut, och den röda linjen är den modell du kanske ser om du har den outlierna vid ”Temperatur” 80.
Så här fixar du
- Det är möjligt att det här är ett mät- eller datainmatningsfel, där avvikaren bara är fel, i vilket fall du bör ta bort det.
- Det är möjligt att det som verkar bara vara ett par avvikare faktiskt är en kraftfördelning. Överväg att transformera variabeln om en av dina variabler har en asymmetrisk fördelning (det vill säga den är inte fjärrklockformad).
- Om den verkligen är en legitim avvikare bör du bedöma effekten av avvikaren.
Stora Y-axel-datapunkter
Visa detaljer om denna plot och hur man fixar den.
Problem
Föreställ dig att det finns två konkurrerande limonadställ i närheten. För det mesta är bara en i drift, i vilket fall dina intäkter är genomgående goda. Ibland är varken aktivt och intäkterna stiger; vid andra tillfällen är båda aktiva och intäkterna sjunker.
”Intäkter” kontra ”Temperatur” kan se ut så här …
… där den översta raden är dagar då ingen annan monter dyker upp och den nedre raden är dagar då båda andra monter är i affärer.
Det skulle resultera i dessa kvarvarande tomter:
Det vill säga det finns en hel del datapunkter på båda sidor om 0 som har rester på 10 eller högre, vilket är säg att modellen var långt borta.
Nu om du hade samlat in data varje dag för en variabel som heter ”Antal aktiva lemonadstativ”, kan du lägga till den variabeln i din modell och detta problem skulle lösas Men ofta har du inte den information du behöver (eller ens gissa vilken typ av variabel du behöver).
Implikationer
Din modell är inte värdelös, men det är definitivt inte lika bra som om du hade alla variablerna du behövde. Du kan fortfarande använda den och du kanske säger något som, ”Den här modellen är ganska ccurate för det mesta, men då och då är det långt borta. ” Är det användbart? Förmodligen, men det är ditt beslut och det beror på vilka beslut du försöker fatta baserat på din modell.
Så här fixar du
- Även om detta tillvägagångssätt inte skulle arbeta i det specifika exemplet ovan, det är nästan alltid värt att titta runt för att se om det finns en möjlighet att med fördel förvandla en variabel.
- Om det inte fungerar, måste du antagligen hantera ditt saknade variabelproblem. .
X-axel obalanserad
Visa detaljer om denna tomt och hur man fixar det .
Problem
Föreställ dig att ”Intäkter” drivs av närliggande ”Fottrafik”, förutom eller istället för bara ”Temperatur.” Tänk dig att din limonadstand av alla skäl vanligtvis har låga intäkter, men varje gång får du extremt höga intäktsdagar så att dina intäkter såg ut så här …
… istället för något mer symmetriskt och klockformat så här:
Så ”Fottrafik” vs.”Intäkter” kan se ut så här, med de flesta data samlade på vänster sida:
Den svarta linjen representerar modellekvation, modellens förutsägelse av förhållandet mellan ”Fottrafik” och ”Intäkter.” Du kan se att modellen inte riktigt kan skilja på ”Fottrafik” på 0 och till exempel 100 eller 1000; för vart och ett av dessa värden skulle det förutsäga intäkter nära $ 53.
Att översätta samma data till diagnosdiagrammen:
Implikationer
Ibland är det faktiskt inget fel med din modell. I exemplet ovan är det helt klart att detta inte är en bra modell, men ibland är restdiagrammet obalanserat och modellen är ganska bra.
Det enda sättet att berätta är att a) experimentera med transformering dina data och se om du kan förbättra den och b) titta på den förutsagda kontra faktiska plot och se om din förutsägelse är vild av för många datapunkter, som i exemplet ovan (men till skillnad från nedanstående exempel).
Även om det inte finns någon uttrycklig regel som säger att din rest inte kan vara obalanserad och fortfarande vara korrekt (den här modellen är faktiskt ganska exakt), det är oftare så att en x-axel obalanserad rest betyder att din modell kan göras betydligt mer exakt. För det mesta ser du att modellen var riktad korrekt men ganska felaktig i förhållande till en förbättrad version. Det är inte ovanligt att åtgärda ett sådant problem och följaktligen se modellens r-kvadratiska hopp från 0,2 till 0,5 (på en skala från 0 till 1).