Interpretazione dei grafici dei residui per migliorare la regressione

Esempi di grafici dei residui e loro diagnosi

Se non sei sicuro di cosa sia un residuo, dedica cinque minuti alla lettura di quanto sopra, quindi torna qui.

Di seguito è riportata una galleria di trame residue malsane. Il tuo residuo potrebbe apparire come un tipo specifico dal basso o una combinazione.

Se il tuo sembra uno dei seguenti, fai clic su quel residuo per capire cosa sta succedendo e imparare a risolverlo.

(Come set di dati di esempio utilizzeremo in tutto il mondo le “Entrate” di una bancarella di limonate rispetto alla “Temperatura” di quel giorno.)

Asse Y non bilanciato

Mostra i dettagli su questo grafico e come risolverlo.

Problema

Immagina che per qualsiasi motivo, il tuo chiosco di limonate in genere ha entrate basse, ma ogni tanto ottieni giorni di entrate molto elevate, in modo tale che “Entrate” abbia questo aspetto …

… invece di qualcosa di più simmetrico ea forma di campana come questo:

Quindi “Temperatura” ed “Entrate” potrebbero avere questo aspetto, con la maggior parte dei dati raggruppati in basso …

La linea nera rappresenta lequazione del modello, la previsione del modello della relazione tra “Temperatura” e “Entrate”. Guarda sopra ogni previsione fatta dalla linea nera per una data “Temperatura” (ad esempio, a “Temperatura” 30, “Entrate” è previsto essere circa 20). Puoi vedere che la maggior parte dei punti si trova al di sotto della linea (ovvero, la previsione era troppo alta), ma alcuni punti sono molto al di sopra della linea (ovvero, la previsione era troppo bassa).

Traducendo gli stessi dati nei grafici diagnostici, la maggior parte delle previsioni dellequazione sono un po troppo alte e quindi alcune sarebbero troppo basse.

Implicazioni

Questo significa quasi sempre che il tuo modello può essere reso molto più preciso. La maggior parte delle volte scoprirai che il modello era corretto dal punto di vista direzionale ma piuttosto impreciso rispetto a una versione migliorata. Non è raro risolvere un problema come questo e di conseguenza vedere il salto r-quadrato del modello da 0,2 a 0,5 (su una scala da 0 a 1).

Come risolvere

  • La soluzione a questo problema è quasi sempre trasformare i tuoi dati, in genere la tua variabile di risposta.
  • È anche possibile che il tuo modello non abbia una variabile.

Eteroscedasticità

Mostra i dettagli su questo grafico e come risolverlo.

Problema

Questi grafici mostrano “eteroschedasticità”, il che significa che i residui aumentano man mano che la previsione si sposta da piccola a grande (o da grande a piccola).

Immagina che su nei giorni freddi, limporto delle entrate è molto costante, ma nei giorni più caldi, a volte le entrate sono molto alte e altre volte sono molto basse.

Vedresti grafici come questi:

Implicazioni

Questo non crea intrinsecamente un problema, ma spesso è un indicatore che il tuo modello può essere migliorato.

Lunica eccezione qui è che se la dimensione del campione è inferiore a 250 e non è possibile risolvere il problema utilizzando quanto segue, i valori p potrebbero essere leggermente più alti o più bassi di quanto dovrebbero essere, quindi forse un la variabile che si trova proprio sul confine di significatività potrebbe finire erroneamente sul lato sbagliato di quel confine. I tuoi coefficienti di regressione (il numero di unità “Entrate” cambia quando “Temperatura” aumenta di uno) saranno comunque accurati.

Come risolvere

  • La soluzione più frequentemente riuscita è trasformare una variabile.
  • Spesso leteroscedasticità indica che manca una variabile.

Non lineare

Mostra i dettagli su questo grafico e come risolverlo.

Problema

Immagina che sia difficile vendere limonata nei giorni freddi, facile venderla nelle giornate calde e difficile venderla nei giorni molto caldi (forse perché nessuno esce di casa in giornate molto calde giorni).

La trama sarebbe simile a questa:

Il modello, rappresentato dalla linea , è terribile. Le previsioni sarebbero molto diverse, il che significa che il tuo modello non rappresenta accuratamente la relazione tra “Temperatura” e “Entrate”.

Di conseguenza, i residui sarebbero simili a questo:

Implicazioni

Se il tuo modello è lontano, come nellesempio sopra, le tue previsioni saranno piuttosto inutili (e noterai un r-quadrato molto basso, come 0,027 r-quadrato per quanto sopra).

Altre volte un adattamento leggermente non ottimale ti darà comunque un buon senso generale della relazione, anche se non è perfetto, come il seguito:

Questo modello sembra abbastanza preciso. Se guardi da vicino (o se guardi i residui), puoi dire che cè un po di uno schema qui – che i punti sono su una curva che la linea non corrisponde del tutto.

È importante? Tocca a voi.Se stai ottenendo una rapida comprensione della relazione, la tua linea retta è unapprossimazione abbastanza decente. Se intendi utilizzare questo modello per la previsione e non per la spiegazione, il modello più accurato possibile probabilmente terrà conto di quella curva.

Come risolvere

  • A volte modelli come questo indica che una variabile deve essere trasformata.
  • Se il pattern è effettivamente chiaro come questi esempi, probabilmente è necessario creare un modello non lineare (non è così difficile come sembra).
  • Oppure, come sempre, è possibile che il problema sia una variabile mancante.

Valori anomali

Mostra i dettagli su questa trama e su come risolverla.

Problema

E se uno dei tuoi punti dati avesse una “Temperatura” di 80 invece dei normali 20 e 30? I tuoi grafici sarebbero così:

Questa regressione ha un punto dati esterno su una variabile di input, “Temperatura” (i valori anomali su una variabile di input sono noti anche come “punti di leva”).

E se uno dei tuoi punti dati avesse un fatturato di $ 160 invece dei normali $ 20 – $ 60? I tuoi grafici sarebbero così:

Questa regressione ha un datapoint esterno su una variabile di output, “Revenue”.

Implicazioni

Stats iQ esegue un tipo di regressione che generalmente non è influenzato dai valori anomali di output ( come il giorno con entrate di $ 160), ma è influenzato da valori anomali di input (come una “Temperatura” negli anni 80). Nel peggiore dei casi, il tuo modello può ruotare per cercare di avvicinarsi a quel punto a scapito di essere vicino a tutti gli altri e finiscono per essere completamente sbagliati, in questo modo:

La linea blu è probabilmente laspetto che vorresti che fosse il tuo modello e la linea rossa è il modello che potresti vedere se hai quel valore anomalo a “Temperatura” 80.

Come risolvere

  • È possibile che si tratti di un errore di misurazione o di immissione dati, in cui il valore anomalo è semplicemente sbagliato, nel qual caso dovresti eliminarlo.
  • È possibile che quello che sembra essere solo un paio di valori anomali sia in realtà una distribuzione di energia. Considera la possibilità di trasformare la variabile se una delle tue variabili ha una distribuzione asimmetrica (ovvero, non è lontanamente a forma di campana).
  • Se è davvero un valore anomalo legittimo, dovresti valutare limpatto del valore anomalo.

Punti dati asse Y grandi

Mostra i dettagli su questo grafico e come correggerlo.

Problema

Immagina che ci siano due bancarelle di limonate in competizione nelle vicinanze. Il più delle volte solo uno è operativo, nel qual caso le tue entrate sono costantemente buone. A volte nessuno dei due è attivo e le entrate aumentano; altre volte, entrambi sono attivi e le entrate precipitano.

“Entrate” e “Temperatura” potrebbero avere questo aspetto …

… con quella riga in alto che indica i giorni in cui nessun altro stand si presenta e quella in basso i giorni in cui entrambi gli altri stand sono in attività.

Ciò risulterebbe in queste trame residue:

Cioè, ci sono parecchi punti dati su entrambi i lati di 0 che hanno residui di 10 o superiori, ovvero diciamo che il modello era lontano.

Ora, se raccogliessi dati ogni giorno per una variabile chiamata “Numero di bancarelle di limonate attive”, potresti aggiungere quella variabile al tuo modello e questo problema verrebbe risolto . Ma spesso non hai i dati di cui hai bisogno (o nemmeno unipotesi sul tipo di variabile di cui hai bisogno).

Implicazioni

Il tuo modello non è inutile, ma non è decisamente buono come se avessi tutte le variabili di cui hai bisogno. Potresti comunque usarlo e potresti dire qualcosa del tipo: “Questo modello è piuttosto ccurate la maggior parte delle volte, ma poi ogni tanto è lontano “. È utile? Probabilmente, ma questa è la tua decisione e dipende dalle decisioni che stai cercando di prendere in base al tuo modello.

Come risolvere

  • Anche se questo approccio non funziona nellesempio specifico sopra, vale quasi sempre la pena guardarsi intorno per vedere se cè unopportunità per trasformare utilmente una variabile.
  • Se però non funziona, probabilmente devi affrontare il problema della variabile mancante .

Asse X non bilanciato

Mostra i dettagli su questo grafico e come risolverlo .

Problema

Immagina che le “entrate” siano generate dal “traffico pedonale” nelle vicinanze, oltre o al posto della semplice “temperatura”. Immagina che, per qualsiasi motivo, il tuo chiosco di limonate in genere abbia entrate basse, ma ogni tanto ottieni giorni di entrate estremamente elevate in modo tale che le tue entrate abbiano questo aspetto …

… invece di qualcosa di più simmetrico ea forma di campana come questo:

Quindi “traffico pedonale” vs.”Entrate” potrebbe assomigliare a questo, con la maggior parte dei dati raggruppati sul lato sinistro:

La linea nera rappresenta il model equation, la previsione del modello della relazione tra “Foot traffic” e “Revenue”. Puoi vedere che il modello non è in grado di distinguere tra “traffico pedonale” di 0 e, diciamo, 100 o 1.000; per ciascuno di questi valori, prevederebbe entrate vicine a $ 53.

Traducendo gli stessi dati nei grafici diagnostici:

Implicazioni

A volte non cè niente di sbagliato nel tuo modello. Nellesempio sopra, è abbastanza chiaro che questo non è un buon modello, ma a volte la trama residua è sbilanciata e il modello è abbastanza buono.

Gli unici modi per dirlo sono a) sperimentare con la trasformazione i tuoi dati e vedi se puoi migliorarli eb) guarda il grafico previsto rispetto a quello effettivo e vedi se la tua previsione è selvaggiamente sbagliata per molti punti dati, come nellesempio sopra (ma a differenza dellesempio sotto).

Anche se non esiste una regola esplicita che dica che il tuo residuo non può essere sbilanciato ed essere comunque accurato (in effetti questo modello è abbastanza preciso), è più spesso il caso che un residuo sbilanciato sullasse x significhi che il tuo modello può essere reso significativamente più accurato. La maggior parte delle volte scoprirai che il modello era corretto dal punto di vista direzionale ma piuttosto impreciso rispetto a una versione migliorata. Non è raro risolvere un problema come questo e di conseguenza vedere il salto r quadrato del modello da 0,2 a 0,5 (su una scala da 0 a 1).

Come risolvere

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *