Interpretace zbytkových spiknutí pro zlepšení vaší regrese

Příklad zbytkových spiknutí a jejich diagnózy

Pokud si nejste jisti, co je zbytkový spiknutí, přečtěte si výše uvedené pět minut, pak vraťte se sem.

Níže je galerie nezdravých zbytkových zápletek. Váš zbytek může vypadat jako jeden konkrétní typ zespodu nebo nějaká kombinace.

Pokud váš vypadá jako jeden z níže uvedených, klikněte na tento zbytek, abyste pochopili, co se děje, a naučte se, jak to opravit.

(Během ukázkové sady dat použijeme „Výnosy“ limonádového stánku vs. „Teplota“ daného dne.)

Osa Y nevyvážená

Zobrazit podrobnosti o tomto grafu a jak jej opravit.

Problém

Představte si, že z jakéhokoli důvodu má váš limonádový stánek obvykle nízké výnosy, ale každou chvíli dostanete dny s velmi vysokými výnosy, takže „Výnosy“ vypadaly takto…

… namísto něčeho symetrickějšího a podobnějšího ve tvaru zvonu:

Takže „Teplota“ vs. „Výnosy“ může vypadat takto, většina dat je seskupena dole …

Černá čára představuje rovnici modelu, predikci modelu vztahu mezi „Teplota“ a „Výnosy“. Podívejte se výše na každou předpověď černou čarou pro danou „teplotu“ (např. U „Teplota“ 30 se předpokládá, že „Výnosy“ budou asi 20). Vidíte, že většina teček je pod řádkem (to znamená, že předpověď byla příliš vysoká), ale několik teček je velmi daleko nad čarou (to znamená, že předpověď byla příliš nízká).

Převedením stejných dat na diagnostické grafy je většina předpovědí rovnice příliš vysoká a některé by byly příliš nízké.

Důsledky

To téměř vždy znamená, že váš model může být výrazně přesnější. Většinou zjistíte, že model byl směrově správný, ale ve srovnání s vylepšenou verzí docela nepřesný. Není neobvyklé takový problém vyřešit a následně vidět skok r-kvadru modelu z 0,2 na 0,5 (na stupnici od 0 do 1).

Jak opravit

  • Řešením je téměř vždy transformace vašich dat, obvykle proměnné odezvy.
  • Je také možné, že váš model proměnnou postrádá.

Heteroscedasticity

Zobrazit podrobnosti o tomto grafu a jak jej opravit.

Problém

Tyto grafy vykazují „heteroscedasticitu“, což znamená, že zbytky se zvětšují, jak se předpověď pohybuje od malé k velké (nebo od velké k malé).

Představte si to na chladné dny, výše tržeb je velmi konzistentní, ale v teplejších dnech jsou někdy příjmy velmi vysoké a jindy velmi nízké.

Viděli byste takové spiknutí:

Důsledky

Nevyvolává to neodmyslitelně problém, ale je to často indikátor toho, že lze váš model vylepšit.

Jedinou výjimkou zde je, že pokud je velikost vašeho vzorku menší než 250 a nemůžete problém vyřešit pomocí níže uvedeného, vaše hodnoty p mohou být o něco vyšší nebo nižší, než by měly být, takže možná proměnná, která je přímo na hranici významnosti, může skončit chybně na špatné straně této hranice. Vaše regresní koeficienty (počet jednotek „Výnosy“ se změní, když „Teplota“ stoupne o jednu), budou přesto přesné.

Jak opravit

  • Nejúspěšnějším řešením je transformace proměnné.
  • Často heteroscedasticita naznačuje, že proměnná chybí.

Nelineární

Zobrazit podrobnosti o tomto grafu a jak jej opravit.

Problém

Představte si, že je těžké prodávat limonádu v chladných dnech, snadno ji prodávat v teplých dnech a těžko ji prodávat ve velmi horkých dnech (možná proto, že nikdo neopouští svůj dům ve velmi horkých dnech dny).

Tento graf by vypadal takto:

Model představovaný řádkem , je strašné. Předpovědi by byly pryč, což znamená, že váš model přesně nepředstavuje vztah mezi „Teplota“ a „Výnosy“.

Zbytky by tedy vypadaly takto:

Důsledky

Pokud je váš model daleko, jako v předchozím příkladu, budou vaše předpovědi docela bezcenné (a všimnete si velmi nízký r-kvadrát, jako je 0,027 r-kvadrát pro výše uvedené.)

Jindy vám mírně suboptimální přizpůsobení poskytne dobrý obecný smysl pro vztah, i když to není dokonalé, jako níže:

Tento model vypadá docela přesně. Pokud se podíváte pozorně (nebo se podíváte na zbytky), zjistíte, že je tu trochu vzor – že tečky jsou na křivce, že se čára úplně neshoduje.

Záleží na tom? Je to na tobě.Pokud rychle porozumíte vztahu, vaše přímka je docela slušné přiblížení. Pokud tento model použijete pro predikci a ne pro vysvětlení, nejpřesnější možný model by pravděpodobně tuto křivku zohlednil.

Jak opravit

  • Někdy vzory jako to naznačuje, že proměnnou je třeba transformovat.
  • Pokud je vzor skutečně tak jasný jako tyto příklady, pravděpodobně budete muset vytvořit nelineární model (není to tak těžké, jak to zní).
  • Nebo jako vždy je možné, že problémem je chybějící proměnná.

Odlehlé hodnoty

Zobrazit podrobnosti o tomto grafu a jak jej opravit.

Problém

Co kdyby jeden z vašich datových bodů měl „Teplota“ 80 místo běžných 20 a 30 let? Vaše grafy by vypadaly takto:

Tato regrese má odlehlý datový bod pro vstupní proměnnou „Teplota“ (odlehlé hodnoty pro vstupní proměnnou jsou také známé jako „pákové body“).

Co kdyby jeden z vašich datových bodů měl tržby 160 $ místo běžných 20 – 60 $? Vaše grafy by vypadaly takto:

Tato regrese má odlehlý datový bod na výstupní proměnné „Výnosy“.

Důsledky

Statistika iQ spouští typ regrese, který obecně není ovlivněn výstupními hodnotami ( jako den se ziskem 160 $), ale je ovlivněn odlehlými hodnotami vstupu (například „Teplota“ v 80. letech). V nejhorším případě se váš model může otočit a pokusit se přiblížit k tomuto bodu na úkor blízkosti všechny ostatní a nakonec se úplně mýlí, například takto:

Modrá čára je pravděpodobně to, co byste chtěli, aby váš model vypadal, a červená čára je model, který byste mohli vidět, pokud máte odlehlou hodnotu „Teplota“ 80.

Jak opravit

  • Je možné, že se jedná o chybu měření nebo zadávání dat, kde je extrémně špatná hodnota, v takovém případě byste ji měli odstranit.
  • Je možné, že to, co se jeví jako jen pár odlehlých hodnot, je ve skutečnosti distribuce energie. Zvažte transformaci proměnné, pokud má jedna z vašich proměnných asymetrické rozdělení (to znamená, že není vzdáleně ve tvaru zvonu).
  • Pokud se skutečně jedná o legitimní odlehlou hodnotu, měli byste posoudit její dopad.

Datové body velké osy Y

Zobrazit podrobnosti o tomto grafu a jak jej opravit.

Problém

Představte si, že poblíž jsou dva konkurenční limonádové stánky. Většinu času je funkční pouze jeden, v takovém případě jsou vaše výnosy trvale dobré. Někdy ani jeden není aktivní a výnosy stoupají; jindy jsou oba aktivní a tržby klesnou.

„Výnosy“ vs. „Teplota“ mohou vypadat takto …

… s tím, že v horním řádku jsou dny, kdy se neobjeví žádný jiný stojan, a ve spodním řádku jsou dny, kdy jsou v provozu oba ostatní stojany.

To by mělo za následek tyto zbytkové grafy:

To znamená, že na obou stranách 0 je poměrně málo datových bodů, které mají zbytky 10 nebo vyšší, což je řekněte, že model byl pryč.

Pokud byste každý den shromažďovali data pro proměnnou s názvem „Počet aktivních limonádových stojanů“, můžete tuto proměnnou přidat do svého modelu a tento problém by byl opraven. . Ale často nemáte potřebná data (nebo dokonce odhad, jaký druh proměnné potřebujete).

Důsledky

Váš model není bezcenný, ale rozhodně to není tak dobré, jako kdybyste měli všechny proměnné, které potřebujete. Můžete je stále používat a můžete říci něco jako: „Tento model je docela většinou přesný, ale pak je to občas pryč. “ Je to užitečné? Pravděpodobně, ale je to vaše rozhodnutí a záleží na tom, jaká rozhodnutí se na základě vašeho modelu snažíte udělat.

Jak opravit

  • I když by tento přístup nebyl pracujte v konkrétním výše uvedeném příkladu, téměř vždy stojí za to se rozhlédnout, abyste zjistili, zda existuje příležitost užitečně transformovat proměnnou.
  • Pokud to však nefunguje, pravděpodobně budete muset vyřešit problém s chybějící proměnnou. .

osa X nevyvážená

Zobrazit podrobnosti o tomto grafu a jak jej opravit .

Problém

Představte si, že „výnosy“ jsou poháněny blízkým „pěším provozem“, kromě nebo místo „Teplota“. Představte si, že z jakéhokoli důvodu má váš limonádový stánek obvykle nízké příjmy, ale každou chvíli dostanete dny s extrémně vysokými příjmy, takže vaše příjmy vypadaly takto …

… namísto něčeho symetrickějšího a zvonovitého, jako je tento:

Takže „Foot traffic“ vs.„Výnosy“ mohou vypadat takto, přičemž většina dat je seskupena na levé straně:

Černá čára představuje modelová rovnice, predikce modelu vztahu mezi „Foot Traffic“ a „Revenue“. Vidíte, že model nedokáže rozpoznat rozdíl mezi „Foot Traffic“ 0 a řekněme 100 nebo 1 000; pro každou z těchto hodnot by to předpovídalo tržby poblíž 53 $.

Převod stejných dat na diagnostické grafy:

Důsledky

Někdy se na vašem modelu ve skutečnosti nic nestalo. Ve výše uvedeném příkladu je zcela jasné, že se nejedná o dobrý model, ale někdy je zbytkový graf nevyvážený a model je docela dobrý.

Jediné způsoby, jak to zjistit, jsou: a) experiment s transformací vaše data a zjistěte, zda je můžete vylepšit ab) podívejte se na predikovaný vs. skutečný graf a zjistěte, zda je vaše předpověď pro mnoho datových bodů divoce vypnutá, jako ve výše uvedeném příkladu (ale na rozdíl od níže uvedeného příkladu).

I když neexistuje žádné explicitní pravidlo, které říká, že váš reziduální nemůže být nevyvážený a přesto přesný (tento model je docela přesný), častěji se stává, že nevyvážený zbytek v ose x znamená, že váš model může být výrazně přesnější. Většinou zjistíte, že model byl směrově správný, ale ve srovnání s vylepšenou verzí docela nepřesný. Není neobvyklé takový problém vyřešit a následně vidět skok r-kvadrátu modelu z 0,2 na 0,5 (na stupnici od 0 do 1).

Jak opravit

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *