A maradék ábrák értelmezése a regresszió javítása érdekében
Példák a maradék ábrákra és diagnózisukra
Ha nem biztos benne, mi a maradék, szánjon öt percet a fentiek elolvasására, majd gyere vissza ide.
Az alábbiakban egy egészségtelen maradék parcellákból álló galéria látható. A maradványa egy alulról megjelenő típusnak vagy kombinációnak tűnhet.
Ha a tiéd hasonlít az alábbiak egyikére, kattintson arra a maradékra, hogy megértse, mi történik, és megtanulhatja, hogyan javítsuk ki. p> (Végig egy limonádé stand “Bevétel” és aznapi “Hőmérséklet” példáját használjuk példaként.)
Y tengely kiegyensúlyozatlan
Mutassa meg a cselekmény részleteit és a javítás módját.
Probléma
Képzelje el, hogy bármilyen okból kifolyólag a limonádé standja alacsony jövedelemmel rendelkezik, de időnként nagyon magas bevételű napokat kap, olyan, hogy a “Bevétel” így nézett ki …
… valami szimmetrikusabb és harangszerűbb helyett:
Tehát a “Hőmérséklet” és a “Bevétel” így nézhet ki, az adatok nagy része alul van összekötve …
A fekete vonal képviseli a modellegyenletet, a modell előrejelzését a “Hőmérséklet” és a “Bevétel” kapcsolatáról. Nézze meg fent a fekete vonal által adott előrejelzéseket egy adott “hőmérsékletre” (például a “hőmérséklet” 30-nál a “bevétel” előrejelzése körülbelül 20 lesz). Láthatja, hogy a pontok többsége a vonal alatt van (vagyis az előrejelzés túl magas volt), de néhány pont nagyon messze van a vonal felett (vagyis az előrejelzés túl alacsony volt).
Ugyanezeket az adatokat lefordítva a diagnosztikai ábrákra, az egyenlet legtöbb előrejelzése kissé túl magas, majd néhányuk túl alacsony lenne.
Következmények
Ez szinte mindig azt jelenti, hogy modelljét lényegesen pontosabbá lehet tenni. Leggyakrabban azt tapasztalja, hogy a modell irányirányosan helyes volt, de elég pontatlan a továbbfejlesztett verzióhoz képest. Nem ritka, hogy egy ilyen problémát kijavítanak, és ennek következtében láthatjuk a modell r-négyzetének ugrását 0,2-ről 0,5-re (0-tól 1-ig terjedő skálán).
Hogyan javítható
- Ennek megoldása szinte mindig az adatok, általában a válaszváltozó átalakítása.
- Az is lehetséges, hogy a modelledből hiányzik egy változó.
Heteroszkedaszticitás
Mutassa meg a cselekmény részleteit és a javítás módját.
Probléma
Ezek a cselekmények “heteroszkedaszticitást” mutatnak, vagyis a maradványok nagyobbak lesznek, amikor a jóslat kicsiből nagyba (vagy nagyból kicsibe) halad.
Képzelje el, hogy hideg napokon a bevétel összege nagyon állandó, de melegebb napokon néha nagyon magas, néha pedig nagyon alacsony a bevétel.
Ilyen cselekményeket látna:
Következmények
Ez eredendően nem okoz problémát, de gyakran jelzi, hogy a modelljét tovább lehet fejleszteni.
Az egyetlen kivétel itt az, hogy ha a mintamérete kisebb, mint 250, és az alábbiak alapján nem tudja megoldani a problémát, akkor a p-értékei valamivel magasabbak vagy alacsonyabbak lehetnek, mint kellene, így esetleg egy Az a változó, amely közvetlenül a jelentőség határán helyezkedik el, tévesen a határ rossz oldalára kerülhet. A regressziós együtthatói (a “Bevétel” egységek száma akkor változik, amikor a “Hőmérséklet” feljebb megy) azonban továbbra is pontosak lesznek.
Hogyan javítható
- A legsikeresebb megoldás egy változó átalakítása.
- A heteroszkedaszticitás gyakran azt jelzi, hogy egy változó hiányzik.
Nemlineáris
Mutassa meg a cselekmény részleteit és a javítás módját.
Probléma
Képzelje el, hogy nehéz eladni limonádét hideg napokon, könnyű eladni meleg napokon és nehéz eladni nagyon forró napokon (talán azért, mert senki sem hagyja el a házát nagyon forrón nap).
Ez a cselekmény így nézne ki:
A vonallal ábrázolt modell , szörnyű. A jóslatok messze lennének, vagyis a modelled nem pontosan reprezentálja a “hőmérséklet” és a “bevétel” kapcsolatát.
Ennek megfelelően a maradványok így néznének ki:
Következmények
Ha a modelled távol áll, mint a fenti példában, jóslataid elég értéktelenek lesznek (és észreveszed nagyon alacsony r négyzet, például a 0,027 r négyzet a fentieknél).
Máskor egy kissé szuboptimális illeszkedés akkor is jó általános érzetet ad a kapcsolatról, még ha nem is tökéletes, mint pl. az alábbiakat:
Ez a modell elég pontosnak tűnik. Ha alaposan megnézi (vagy megnézi a maradványokat), elmondhatja, hogy itt van egy kis minta – hogy a pontok egy görbén vannak, és a vonal nem egészen egyezik.
Ez számít? Tőled függ.Ha gyorsan megismeri a kapcsolatot, akkor az egyenes vonala elég tisztességes közelítés. Ha ezt a modellt jósláshoz és nem magyarázathoz használja, akkor a lehető legpontosabb modell valószínűleg figyelembe veszi ezt a görbét.
Javítás
- Néha olyan minták ez azt jelzi, hogy egy változót transzformálni kell.
- Ha a minta valóban olyan tiszta, mint ezek a példák, akkor valószínűleg nemlineáris modellt kell létrehoznia (ez nem olyan nehéz, mint amilyennek hangzik).
- Vagy, mint mindig, lehetséges, hogy a kérdés hiányzó változó.
Outlierek
Mutassa meg a cselekmény részleteit, és hogyan javítsa ki.
Probléma
Mi lenne, ha valamelyik adatpontjának “hőmérséklete” 80 lenne a normál 20 és 30 helyett? A cselekményei így néznének ki:
Ennek a regressziónak van egy külsõ adatpontja a bemeneti változón, a „Hõmérsékleten” (a bemeneti változó kiugró értékeit „tőkeáttételi pontoknak” is nevezik).
Mi lenne, ha valamelyik adatpontod bevétele 160 dollár lenne a normál 20 – 60 dollár helyett? A cselekményed így néz ki:
Ennek a regressziónak van egy külső adatpontja a “Revenue” kimeneti változón.
Következmények
A statisztika Az iQ olyan regressziót futtat, amelyet általában nem befolyásolnak a kimeneti outlerek ( mint a nap 160 dolláros bevétellel), de ezt befolyásolják a bemeneti outlierek (mint például a “hőmérséklet” a 80-as években). Legrosszabb esetben a modell elfordulhat, hogy megpróbáljon közelebb kerülni ehhez a ponthoz, azzal a költséggel, hogy közel áll az összes többi, és végül teljesen tévednek, így:
Valószínűleg a kék vonal az, amire azt szeretné, hogy modellje kinézzen, és a piros vonal az a modell, amelyet akkor láthat, ha a „Hőmérséklet” 80-nál ki van tévesztve.
Javítás
- Lehetséges, hogy ez egy mérési vagy adatbeviteli hiba, ahol a kiugró érték csak téves, ebben az esetben törölnie kell.
- Lehetséges, hogy az, ami csak pár kiugrónak tűnik, valójában áramelosztás. Fontolja meg a változó átalakítását, ha egyik változója aszimmetrikus eloszlású (vagyis nem távoli harang alakú).
- Ha ez valóban törvényes kiugró érték, akkor értékelje a kiugró hatását.
Nagyméretű Y-tengelyű adatpontok
Mutassa meg ennek a diagramnak a részleteit, és hogyan javítsa ki.
Probléma
Képzelje el, hogy a közelben két versenyző limonádé áll. Legtöbbször csak az egyik működik, ebben az esetben a bevétele folyamatosan jó. Néha egyik sem aktív, és a bevételek szárnyalnak; máskor mindkettő aktív, és a bevétel zuhan.
A “Bevétel” és a “Hőmérséklet” így nézhet ki …
… mivel a legfelső sor olyan nap, amikor más stand nem jelenik meg, az alsó sor pedig az a nap, amikor mindkét másik stand foglalkozik.
Ennek eredményeként ezek a maradék parcellák következnek:
Vagyis a 0 mindkét oldalán jó néhány adatpont van, amelynek maradványai 10 vagy annál magasabbak, vagyis mondd, hogy a modell messze volt.
Most, ha minden nap adatokat gyűjtöttél az “Aktív limonádé állványok száma” nevű változóról, hozzáadhatod ezt a változót a modelledhez, és ez a probléma megoldódik . De gyakran nincs meg a szükséges adatok (vagy még egy tipp sem, hogy milyen változóra van szüksége).
Következmények
A modelled nem értéktelen, de határozottan nem olyan jó, mintha minden szükséges változó megvan. Mégis használhatná, és mondhatna valami olyat, hogy “Ez a modell elég curate legtöbbször, de aztán hébe-hóba ez már messze van. ” Ez hasznos? Valószínűleg, de ez a te döntésed, és attól függ, milyen döntéseket próbálsz meghozni a modelled alapján.
Hogyan javítható
- Annak ellenére, hogy ez a megközelítés nem dolgozzon a fenti konkrét példában, szinte mindig érdemes körülnézni, hogy van-e lehetőség egy változó hasznos átalakítására.
- Ha ez nem működik, akkor valószínűleg foglalkoznia kell a hiányzó változó problémájával .
Az X-tengely kiegyensúlyozatlan
Mutassa meg ennek a diagramnak a részleteit, és hogyan javítsa ki .
Probléma
Képzelje el, hogy a “Bevételt” a közeli “Gyalogos forgalom” vezérli, a “Hőmérséklet” mellett vagy helyett. Képzelje el, hogy bármilyen okból kifolyólag a limonádé standja alacsony jövedelemmel rendelkezik, de időnként rendkívül magas bevételű napokat kap, így a bevétele így nézett ki…
… valami szimmetrikusabb és harangszerűbb helyett:
Tehát a „gyalogos forgalom” vs.A “Bevétel” így nézhet ki, az adatok nagy része a bal oldalon található:
A fekete vonal a modellegyenlet, a modell előrejelzése a “gyalogos forgalom” és a “bevétel” kapcsolatáról. Láthatja, hogy a modell nem igazán képes különbséget tenni a 0 és a mondjuk 100 vagy 1000 közötti “lábforgalom” között; ezeknél az értékeknél 53 dollár közelében várható bevétel.
Ugyanezen adatok lefordítása a diagnosztikai ábrákra:
Következmények
Néha valójában nincs semmi baj a modelljével. A fenti példában teljesen egyértelmű, hogy ez nem jó modell, de néha a maradék cselekmény kiegyensúlyozatlan, és a modell is nagyon jó.
Az egyetlen módja annak, hogy a) kísérletet végezzünk transzformálással és nézze meg, javíthatja-e azokat, és b) nézze meg az előrejelzett és a tényleges ábrát, és nézze meg, hogy a jóslat vadon ki van-e kapcsolva sok adatpontra, mint a fenti példában (de ellentétben az alábbi példával). >
Bár nincs kifejezett szabály, amely szerint a maradványa nem lehet kiegyensúlyozatlan és még mindig pontos (valóban ez a modell meglehetősen pontos), gyakrabban fordul elő, hogy az x tengely kiegyensúlyozatlan maradványa azt jelenti, hogy a modell lényegesen pontosabbá tehető. Leggyakrabban azt tapasztalja, hogy a modell irányirányosan helyes volt, de elég pontatlan a továbbfejlesztett verzióhoz képest. Nem ritka, hogy megold egy ilyen problémát, és ennek következtében láthatja a modell r-négyzetének ugrását 0,2-ről 0,5-re (0-tól 1-ig terjedő skálán).