Interpretatie van residuale grafieken om uw regressie te verbeteren
Voorbeeld van residuale grafieken en hun diagnoses
Als u niet zeker weet wat een residu is, neem dan vijf minuten om het bovenstaande te lezen. kom hier terug.
Hieronder is een galerij met ongezonde restpercelen. Uw residu kan er van onderaf uitzien als een specifiek type, of een combinatie ervan.
Als het uwe eruit ziet als een van de onderstaande, klikt u op dat residu om te begrijpen wat er gebeurt en om te zien hoe u het kunt oplossen.
(Overal gebruiken we de “Opbrengst” van een limonadekraam versus de “Temperatuur” van die dag als voorbeeldgegevensset.)
Y-as onevenwichtig
Details over deze plot weergeven en hoe u deze kunt repareren.
Probleem
Stel je voor dat je limonadekraam, om wat voor reden dan ook, doorgaans een lage opbrengst heeft, maar dat je af en toe dagen met zeer hoge inkomsten krijgt, zodat Opbrengst er als volgt uitziet …
… in plaats van iets meer symmetrisch en klokvormig zoals dit:
Dus “Temperatuur” versus “Opbrengst” zou er zo uit kunnen zien, met de meeste gegevens onderaan gebundeld …
De zwarte lijn vertegenwoordigt de modelvergelijking, de voorspelling van het model van de relatie tussen “Temperatuur” en “Omzet”. Kijk hierboven naar elke voorspelling van de zwarte lijn voor een bepaalde “Temperatuur” (bijv. Bij “Temperatuur” 30 wordt “Omzet” voorspeld op ongeveer 20). Je kunt zien dat de meeste punten onder de lijn liggen (dat wil zeggen, de voorspelling was te hoog), maar een paar punten zijn erg ver boven de lijn (dat wil zeggen, de voorspelling was veel te laag).
Door diezelfde gegevens naar de diagnostische plots te vertalen, zijn de meeste voorspellingen van de vergelijking een beetje te hoog, en sommige zouden veel te laag zijn.
Implicaties
Dit betekent bijna altijd dat uw model aanzienlijk nauwkeuriger kan worden gemaakt. Meestal zul je merken dat het model directioneel correct was, maar behoorlijk onnauwkeurig ten opzichte van een verbeterde versie. Het is niet ongebruikelijk om een probleem als dit op te lossen en als gevolg daarvan de r-kwadraat van het model te zien springen van 0,2 naar 0,5 (op een schaal van 0 naar 1).
Hoe te repareren
- De oplossing hiervoor is bijna altijd om uw gegevens te transformeren, meestal uw responsvariabele.
- Het is ook mogelijk dat uw model geen variabele heeft.
Heteroscedasticity
Details over dit plot laten zien, en hoe je het kunt repareren.
Probleem
Deze plots vertonen “heteroscedasticiteit”, wat betekent dat de residuen groter worden naarmate de voorspelling verandert van klein naar groot (of van groot naar klein).
Stel je voor dat op koude dagen is het bedrag aan inkomsten zeer consistent, maar op warmere dagen is de opbrengst soms erg hoog en soms erg laag.
Je ziet plots als deze:
Implicaties
Dit veroorzaakt niet inherent een probleem, maar het is vaak een indicatie dat uw model kan worden verbeterd.
De enige uitzondering hierop is dat als uw steekproefomvang kleiner is dan 250, en u het probleem niet kunt oplossen met behulp van het onderstaande, uw p-waarden mogelijk iets hoger of lager zijn dan ze zouden moeten zijn, dus mogelijk een variabele die precies op de grens van significantie staat, kan ten onrechte aan de verkeerde kant van die grens terechtkomen. Uw regressiecoëfficiënten (het aantal eenheden “Opbrengst” verandert wanneer “Temperatuur” met één stijgt) zullen echter nog steeds nauwkeurig zijn.
Hoe te repareren
- De meest succesvolle oplossing is het transformeren van een variabele.
- Vaak geeft heteroscedasticiteit aan dat een variabele ontbreekt.
Niet-lineair
Details over dit plot laten zien, en hoe het te repareren.
Probleem
Stel je voor dat het moeilijk is om limonade te verkopen op koude dagen, gemakkelijk te verkopen op warme dagen en moeilijk te verkopen op zeer warme dagen (misschien omdat niemand het huis verlaat op zeer warme dagen). dagen).
Die plot zou er als volgt uitzien:
Het model, weergegeven door de lijn , is vreselijk. De voorspellingen zouden ver weg zijn, wat betekent dat uw model niet nauwkeurig de relatie tussen “Temperatuur” en “Omzet” weergeeft.
Dienovereenkomstig zouden residuen er als volgt uitzien:
Implicaties
Als uw model er ver naast zit, zoals in het bovenstaande voorbeeld, zijn uw voorspellingen behoorlijk waardeloos (en u zult merken een zeer lage r-kwadraat, zoals de 0,027 r-kwadraat voor het bovenstaande).
Andere keren geeft een enigszins suboptimale aanpassing u nog steeds een goed algemeen gevoel van de relatie, zelfs als deze niet perfect is, zoals het onderstaande:
Dat model ziet er redelijk nauwkeurig uit. Als je goed kijkt (of als je naar de residuen kijkt), kun je zien dat er hier een beetje een patroon zit – dat de stippen op een curve staan waar de lijn niet helemaal bij past.
Maakt dat uit? Het is aan jou.Als je de relatie snel begrijpt, is je rechte lijn een behoorlijk goede benadering. Als u dit model gaat gebruiken voor voorspelling en niet voor uitleg, zou het meest nauwkeurig mogelijke model waarschijnlijk rekening houden met die curve.
Hoe te repareren
- Soms zijn patronen zoals dit geeft aan dat een variabele getransformeerd moet worden.
- Als het patroon echt zo duidelijk is als deze voorbeelden, moet je waarschijnlijk een niet-lineair model maken (het is niet zo moeilijk als dat klinkt).
- Of, zoals altijd, is het mogelijk dat het probleem een ontbrekende variabele is.
Uitschieters
Details over deze plot weergeven en hoe u deze kunt repareren.
Probleem
Wat als een van uw datapunten een “temperatuur” van 80 had in plaats van de normale 20s en 30s? Uw plots zouden er als volgt uitzien:
Deze regressie heeft een afgelegen datapunt op een invoervariabele, “Temperatuur” (uitschieters op een invoervariabele worden ook wel “hefboompunten” genoemd).
Wat als een van uw datapunten $ 160 aan inkomsten had in plaats van de normale $ 20 – $ 60? Uw plots zouden er als volgt uitzien:
Deze regressie heeft een afgelegen datapunt op een uitvoervariabele, “Revenue.”
Implicaties
Stats iQ voert een soort regressie uit die over het algemeen niet wordt beïnvloed door output-uitbijters ( zoals de dag met een omzet van $ 160), maar wordt beïnvloed door input-uitschieters (zoals een temperatuur in de jaren 80). In het ergste geval kan uw model draaien om dichter bij dat punt te komen ten koste van dichtbij alle anderen en uiteindelijk helemaal verkeerd zijn, zoals dit:
De blauwe lijn is waarschijnlijk wat u zou willen dat uw model eruit zou zien, en de rode lijn is het model dat u zou kunnen zien als u die uitschieter heeft bij “Temperatuur” 80.
Hoe te repareren
- Het is mogelijk dat dit een meet- of gegevensinvoerfout is, waarbij de uitbijter gewoon verkeerd is, in welk geval u deze moet verwijderen.
- Het is mogelijk dat wat slechts een paar uitschieters lijken, in feite een stroomverdeling is. Overweeg om de variabele te transformeren als een van je variabelen een asymmetrische verdeling heeft (dat wil zeggen, hij is niet op afstand klokvormig).
- Als het inderdaad een legitieme uitbijter is, moet je de impact van de uitbijter beoordelen.
Grote Y-as Datapunten
Laat details zien over deze plot, en hoe je het kunt repareren.
Probleem
Stel je voor dat er twee concurrerende limonadekraampjes in de buurt zijn. Meestal is er maar één operationeel, in welk geval uw inkomsten altijd goed zijn. Soms is geen van beide actief en stijgen de inkomsten; op andere momenten zijn beide actief en keldert de omzet.
“Omzet” versus “Temperatuur” kan er als volgt uitzien …
… waarbij die bovenste rij dagen zijn waarop geen andere stand verschijnt en de onderste rij dagen waarop beide andere stands in bedrijf zijn.
Dat zou resulteren in deze resterende percelen:
Dat wil zeggen, er zijn nogal wat datapunten aan beide zijden van 0 die residuen hebben van 10 of hoger, namelijk stel dat het model er ver naast zat.
Als je nu elke dag gegevens had verzameld voor een variabele met de naam Aantal actieve limonadekraampjes, zou je die variabele aan je model kunnen toevoegen en dit probleem zou zijn opgelost . Maar vaak heb je niet de gegevens die je nodig hebt (of zelfs een gok wat voor soort variabele je nodig hebt).
Implicaties
Je model is niet waardeloos, maar het is beslist niet zo goed als wanneer je alle variabelen had die je nodig had. Je zou het nog steeds kunnen gebruiken en je zou iets kunnen zeggen als: “Dit model is best een klopt meestal, maar af en toe is het ver weg. ” Is dat handig? Waarschijnlijk, maar dat is uw beslissing en het hangt af van welke beslissingen u probeert te nemen op basis van uw model.
Hoe te repareren
- Ook al zou deze benadering dat niet doen werk in het specifieke voorbeeld hierboven, is het bijna altijd de moeite waard om rond te kijken om te zien of er een mogelijkheid is om een variabele nuttig te transformeren.
- Als dat echter niet werkt, moet je waarschijnlijk het probleem van je ontbrekende variabele oplossen .
X-as onevenwichtig
Details weergeven over dit plot en hoe u dit kunt oplossen .
Probleem
Stel je voor dat Opbrengst wordt gegenereerd door Voetgangers in de buurt, naast of in plaats van alleen Temperatuur. Stel je voor dat je limonadekraam, om welke reden dan ook, doorgaans een lage opbrengst heeft, maar dat je af en toe dagen met extreem hoge inkomsten krijgt, zodat je inkomsten er als volgt uitzien …
… in plaats van iets meer symmetrisch en klokvormig zoals dit:
Dus “voetgangers” vs.”Omzet” zou er als volgt uit kunnen zien, met de meeste gegevens aan de linkerkant gebundeld:
De zwarte lijn vertegenwoordigt de modelvergelijking, de voorspelling van het model van de relatie tussen Foot traffic en Revenue. U kunt zien dat het model niet echt het verschil kan zien tussen “Voetverkeer” van 0 en van bijvoorbeeld 100 of 1.000; voor elk van deze waarden zou het een opbrengst van bijna $ 53 voorspellen.
Diezelfde gegevens vertalen naar de diagnostische plots:
Implicaties
Soms is er eigenlijk niets mis met uw model. In het bovenstaande voorbeeld is het vrij duidelijk dat dit geen goed model is, maar soms is de restplot onevenwichtig en is het model redelijk goed.
De enige manieren om dit te zien zijn door a) te experimenteren met transformeren uw gegevens en kijk of u deze kunt verbeteren en b) kijk naar de voorspelde vs. werkelijke plot en kijk of uw voorspelling voor veel datapunten wild afwijkt, zoals in het bovenstaande voorbeeld (maar in tegenstelling tot het onderstaande voorbeeld).
Hoewel er geen expliciete regel is die zegt dat uw residu niet uit balans kan zijn en toch nauwkeurig kan zijn (dit model is inderdaad behoorlijk nauwkeurig), het komt vaker voor dat een x-as ongebalanceerd residu betekent dat uw model aanzienlijk nauwkeuriger kan worden gemaakt. Meestal zul je merken dat het model directioneel correct was, maar behoorlijk onnauwkeurig ten opzichte van een verbeterde versie. Het is niet ongebruikelijk om een probleem als dit op te lossen en als gevolg daarvan de r-kwadraat van het model te zien springen van 0,2 naar 0,5 (op een schaal van 0 naar 1).