A maradék ábrák értelmezése a regresszió javítása érdekében

október 17, 2020

A maradék ábrák értelmezése a regresszió javítása érdekében

Példák a maradék ábrákra és diagnózisukra

Ha nem biztos benne, mi a maradék, szánjon öt percet a fentiek elolvasására, majd gyere vissza ide.

Az alábbiakban egy egészségtelen maradék parcellákból álló galéria látható. A maradványa egy alulról megjelenő típusnak vagy kombinációnak tűnhet.

Ha a tiéd hasonlít az alábbiak egyikére, kattintson arra a maradékra, hogy megértse, mi történik, és megtanulhatja, hogyan javítsuk ki. p> (Végig egy limonádé stand “Bevétel” és aznapi “Hőmérséklet” példáját használjuk példaként.)

Y tengely kiegyensúlyozatlan

Mutassa meg a cselekmény részleteit és a javítás módját.

Probléma

Képzelje el, hogy bármilyen okból kifolyólag a limonádé standja alacsony jövedelemmel rendelkezik, de időnként nagyon magas bevételű napokat kap, olyan, hogy a “Bevétel” így nézett ki …

… valami szimmetrikusabb és harangszerűbb helyett:

Tehát a “Hőmérséklet” és a “Bevétel” így nézhet ki, az adatok nagy része alul van összekötve …

A fekete vonal képviseli a modellegyenletet, a modell előrejelzését a “Hőmérséklet” és a “Bevétel” kapcsolatáról. Nézze meg fent a fekete vonal által adott előrejelzéseket egy adott “hőmérsékletre” (például a “hőmérséklet” 30-nál a “bevétel” előrejelzése körülbelül 20 lesz). Láthatja, hogy a pontok többsége a vonal alatt van (vagyis az előrejelzés túl magas volt), de néhány pont nagyon messze van a vonal felett (vagyis az előrejelzés túl alacsony volt).

Ugyanezeket az adatokat lefordítva a diagnosztikai ábrákra, az egyenlet legtöbb előrejelzése kissé túl magas, majd néhányuk túl alacsony lenne.

Következmények

Ez szinte mindig azt jelenti, hogy modelljét lényegesen pontosabbá lehet tenni. Leggyakrabban azt tapasztalja, hogy a modell irányirányosan helyes volt, de elég pontatlan a továbbfejlesztett verzióhoz képest. Nem ritka, hogy egy ilyen problémát kijavítanak, és ennek következtében láthatjuk a modell r-négyzetének ugrását 0,2-ről 0,5-re (0-tól 1-ig terjedő skálán).

Hogyan javítható

Ennek megoldása szinte mindig az adatok, általában a válaszváltozó átalakítása.
Az is lehetséges, hogy a modelledből hiányzik egy változó.

Heteroszkedaszticitás

Mutassa meg a cselekmény részleteit és a javítás módját.

Probléma

Ezek a cselekmények “heteroszkedaszticitást” mutatnak, vagyis a maradványok nagyobbak lesznek, amikor a jóslat kicsiből nagyba (vagy nagyból kicsibe) halad.

Képzelje el, hogy hideg napokon a bevétel összege nagyon állandó, de melegebb napokon néha nagyon magas, néha pedig nagyon alacsony a bevétel.

Ilyen cselekményeket látna:

Következmények

Ez eredendően nem okoz problémát, de gyakran jelzi, hogy a modelljét tovább lehet fejleszteni.

Az egyetlen kivétel itt az, hogy ha a mintamérete kisebb, mint 250, és az alábbiak alapján nem tudja megoldani a problémát, akkor a p-értékei valamivel magasabbak vagy alacsonyabbak lehetnek, mint kellene, így esetleg egy Az a változó, amely közvetlenül a jelentőség határán helyezkedik el, tévesen a határ rossz oldalára kerülhet. A regressziós együtthatói (a “Bevétel” egységek száma akkor változik, amikor a “Hőmérséklet” feljebb megy) azonban továbbra is pontosak lesznek.

Hogyan javítható

A legsikeresebb megoldás egy változó átalakítása.
A heteroszkedaszticitás gyakran azt jelzi, hogy egy változó hiányzik.

Nemlineáris

Mutassa meg a cselekmény részleteit és a javítás módját.

Probléma

Képzelje el, hogy nehéz eladni limonádét hideg napokon, könnyű eladni meleg napokon és nehéz eladni nagyon forró napokon (talán azért, mert senki sem hagyja el a házát nagyon forrón nap).

Ez a cselekmény így nézne ki:

A vonallal ábrázolt modell , szörnyű. A jóslatok messze lennének, vagyis a modelled nem pontosan reprezentálja a “hőmérséklet” és a “bevétel” kapcsolatát.

Ennek megfelelően a maradványok így néznének ki:

Következmények

Ha a modelled távol áll, mint a fenti példában, jóslataid elég értéktelenek lesznek (és észreveszed nagyon alacsony r négyzet, például a 0,027 r négyzet a fentieknél).

Máskor egy kissé szuboptimális illeszkedés akkor is jó általános érzetet ad a kapcsolatról, még ha nem is tökéletes, mint pl. az alábbiakat:

Ez a modell elég pontosnak tűnik. Ha alaposan megnézi (vagy megnézi a maradványokat), elmondhatja, hogy itt van egy kis minta – hogy a pontok egy görbén vannak, és a vonal nem egészen egyezik.

Ez számít? Tőled függ.Ha gyorsan megismeri a kapcsolatot, akkor az egyenes vonala elég tisztességes közelítés. Ha ezt a modellt jósláshoz és nem magyarázathoz használja, akkor a lehető legpontosabb modell valószínűleg figyelembe veszi ezt a görbét.

Javítás

Néha olyan minták ez azt jelzi, hogy egy változót transzformálni kell.
Ha a minta valóban olyan tiszta, mint ezek a példák, akkor valószínűleg nemlineáris modellt kell létrehoznia (ez nem olyan nehéz, mint amilyennek hangzik).
Vagy, mint mindig, lehetséges, hogy a kérdés hiányzó változó.

Outlierek

Mutassa meg a cselekmény részleteit, és hogyan javítsa ki.

Probléma

Mi lenne, ha valamelyik adatpontjának “hőmérséklete” 80 lenne a normál 20 és 30 helyett? A cselekményei így néznének ki:

Ennek a regressziónak van egy külsõ adatpontja a bemeneti változón, a „Hõmérsékleten” (a bemeneti változó kiugró értékeit „tőkeáttételi pontoknak” is nevezik).

Mi lenne, ha valamelyik adatpontod bevétele 160 dollár lenne a normál 20 – 60 dollár helyett? A cselekményed így néz ki:

Ennek a regressziónak van egy külső adatpontja a “Revenue” kimeneti változón.

Következmények

A statisztika Az iQ olyan regressziót futtat, amelyet általában nem befolyásolnak a kimeneti outlerek ( mint a nap 160 dolláros bevétellel), de ezt befolyásolják a bemeneti outlierek (mint például a “hőmérséklet” a 80-as években). Legrosszabb esetben a modell elfordulhat, hogy megpróbáljon közelebb kerülni ehhez a ponthoz, azzal a költséggel, hogy közel áll az összes többi, és végül teljesen tévednek, így:

Valószínűleg a kék vonal az, amire azt szeretné, hogy modellje kinézzen, és a piros vonal az a modell, amelyet akkor láthat, ha a „Hőmérséklet” 80-nál ki van tévesztve.

Javítás

Lehetséges, hogy ez egy mérési vagy adatbeviteli hiba, ahol a kiugró érték csak téves, ebben az esetben törölnie kell.
Lehetséges, hogy az, ami csak pár kiugrónak tűnik, valójában áramelosztás. Fontolja meg a változó átalakítását, ha egyik változója aszimmetrikus eloszlású (vagyis nem távoli harang alakú).
Ha ez valóban törvényes kiugró érték, akkor értékelje a kiugró hatását.

Nagyméretű Y-tengelyű adatpontok

Mutassa meg ennek a diagramnak a részleteit, és hogyan javítsa ki.

Probléma

Képzelje el, hogy a közelben két versenyző limonádé áll. Legtöbbször csak az egyik működik, ebben az esetben a bevétele folyamatosan jó. Néha egyik sem aktív, és a bevételek szárnyalnak; máskor mindkettő aktív, és a bevétel zuhan.

A “Bevétel” és a “Hőmérséklet” így nézhet ki …

… mivel a legfelső sor olyan nap, amikor más stand nem jelenik meg, az alsó sor pedig az a nap, amikor mindkét másik stand foglalkozik.

Ennek eredményeként ezek a maradék parcellák következnek:

Vagyis a 0 mindkét oldalán jó néhány adatpont van, amelynek maradványai 10 vagy annál magasabbak, vagyis mondd, hogy a modell messze volt.

Most, ha minden nap adatokat gyűjtöttél az “Aktív limonádé állványok száma” nevű változóról, hozzáadhatod ezt a változót a modelledhez, és ez a probléma megoldódik . De gyakran nincs meg a szükséges adatok (vagy még egy tipp sem, hogy milyen változóra van szüksége).

Következmények

A modelled nem értéktelen, de határozottan nem olyan jó, mintha minden szükséges változó megvan. Mégis használhatná, és mondhatna valami olyat, hogy “Ez a modell elég curate legtöbbször, de aztán hébe-hóba ez már messze van. ” Ez hasznos? Valószínűleg, de ez a te döntésed, és attól függ, milyen döntéseket próbálsz meghozni a modelled alapján.

Hogyan javítható

Annak ellenére, hogy ez a megközelítés nem dolgozzon a fenti konkrét példában, szinte mindig érdemes körülnézni, hogy van-e lehetőség egy változó hasznos átalakítására.
Ha ez nem működik, akkor valószínűleg foglalkoznia kell a hiányzó változó problémájával .

Az X-tengely kiegyensúlyozatlan

Mutassa meg ennek a diagramnak a részleteit, és hogyan javítsa ki .

Probléma

Képzelje el, hogy a “Bevételt” a közeli “Gyalogos forgalom” vezérli, a “Hőmérséklet” mellett vagy helyett. Képzelje el, hogy bármilyen okból kifolyólag a limonádé standja alacsony jövedelemmel rendelkezik, de időnként rendkívül magas bevételű napokat kap, így a bevétele így nézett ki…

… valami szimmetrikusabb és harangszerűbb helyett:

Tehát a „gyalogos forgalom” vs.A “Bevétel” így nézhet ki, az adatok nagy része a bal oldalon található:

A fekete vonal a modellegyenlet, a modell előrejelzése a “gyalogos forgalom” és a “bevétel” kapcsolatáról. Láthatja, hogy a modell nem igazán képes különbséget tenni a 0 és a mondjuk 100 vagy 1000 közötti “lábforgalom” között; ezeknél az értékeknél 53 dollár közelében várható bevétel.

Ugyanezen adatok lefordítása a diagnosztikai ábrákra:

Következmények

Néha valójában nincs semmi baj a modelljével. A fenti példában teljesen egyértelmű, hogy ez nem jó modell, de néha a maradék cselekmény kiegyensúlyozatlan, és a modell is nagyon jó.

Az egyetlen módja annak, hogy a) kísérletet végezzünk transzformálással és nézze meg, javíthatja-e azokat, és b) nézze meg az előrejelzett és a tényleges ábrát, és nézze meg, hogy a jóslat vadon ki van-e kapcsolva sok adatpontra, mint a fenti példában (de ellentétben az alábbi példával). >

Bár nincs kifejezett szabály, amely szerint a maradványa nem lehet kiegyensúlyozatlan és még mindig pontos (valóban ez a modell meglehetősen pontos), gyakrabban fordul elő, hogy az x tengely kiegyensúlyozatlan maradványa azt jelenti, hogy a modell lényegesen pontosabbá tehető. Leggyakrabban azt tapasztalja, hogy a modell irányirányosan helyes volt, de elég pontatlan a továbbfejlesztett verzióhoz képest. Nem ritka, hogy megold egy ilyen problémát, és ennek következtében láthatja a modell r-négyzetének ugrását 0,2-ről 0,5-re (0-tól 1-ig terjedő skálán).

Hogyan javítható

admin