Interprétation des tracés résiduels pour améliorer votre régression

octobre 17, 2020

Interprétation des tracés résiduels pour améliorer votre régression

Exemples de tracés résiduels et leurs diagnostics

Si vous nêtes pas sûr de ce quest un résidu, prenez cinq minutes pour lire ce qui précède, puis revenez ici.

Voici une galerie de graphiques résiduels malsains. Votre résidu peut ressembler à un type spécifique ci-dessous, ou à une combinaison.

Si le vôtre ressemble à lun des suivants, cliquez sur ce résidu pour comprendre ce qui se passe et apprendre à y remédier.

(Tout au long de la période, nous utiliserons le « Revenu » dun stand de limonade et la « Température » de ce jour-là comme exemple densemble de données.)

Axe Y déséquilibré

Afficher les détails de ce tracé et comment le corriger.

Problème

Imaginez que pour une raison quelconque, votre stand de limonade génère généralement de faibles revenus, mais que de temps en temps, vous obtenez des jours à revenus très élevés, de sorte que les « revenus » ressemblent à ceci…

… au lieu de quelque chose de plus symétrique et en forme de cloche comme celui-ci:

Donc, « Température » et « Revenu » pourraient ressembler à ceci, avec la plupart des données regroupées en bas…

La ligne noire représente léquation du modèle, la prédiction du modèle de la relation entre « Température » et « Revenu ». Regardez ci-dessus chaque prédiction faite par la ligne noire pour une «température» donnée (par exemple, à «Température» 30, «Revenu» devrait être denviron 20). Vous pouvez voir que la majorité des points sont en dessous de la ligne (cest-à-dire que la prédiction était trop élevée), mais que quelques points sont très loin au-dessus de la ligne (cest-à-dire que la prédiction était beaucoup trop basse).

En traduisant ces mêmes données dans les graphiques de diagnostic, la plupart des prédictions de léquation sont un peu trop élevées, et certaines seraient alors bien trop faibles.

Implications

Cela signifie presque toujours que votre modèle peut être rendu beaucoup plus précis. La plupart du temps, vous constaterez que le modèle était orienté correctement mais assez inexact par rapport à une version améliorée. Il nest pas rare de résoudre un problème comme celui-ci et par conséquent de voir le r-carré du modèle passer de 0,2 à 0,5 (sur une échelle de 0 à 1).

Comment réparer

La solution à ce problème consiste presque toujours à transformer vos données, généralement votre variable de réponse.
Il est également possible que votre modèle ne dispose pas dune variable.

Hétéroscédasticité

Afficher les détails de ce tracé et comment le corriger.

Problème

Ces graphiques présentent une «hétéroscédasticité», ce qui signifie que les résidus deviennent plus grands lorsque la prédiction passe de petite à grande (ou de grande à petite).

Imaginez cela sur les jours froids, le montant des revenus est très constant, mais les jours les plus chauds, les revenus sont parfois très élevés et parfois très faibles.

Vous verrez des graphiques comme ceux-ci:

Implications

Cela ne crée pas intrinsèquement de problème, mais cest souvent un indicateur que votre modèle peut être amélioré.

La seule exception ici est que si la taille de votre échantillon est inférieure à 250 et que vous ne pouvez pas résoudre le problème en utilisant ce qui suit, vos valeurs de p peuvent être un peu plus élevées ou plus basses quelles ne devraient lêtre, donc peut-être La variable qui se trouve juste à la limite de la signification peut se retrouver par erreur du mauvais côté de cette frontière. Vos coefficients de régression (le nombre dunités « Revenu » change lorsque « Température » augmente dun), cependant, seront toujours précis.

Comment réparer

La solution la plus souvent réussie est de transformer une variable.
Lhétéroscédasticité indique souvent quune variable est manquante.

Non linéaire

Afficher les détails sur ce tracé et comment le corriger.

Problème

Imaginez quil soit difficile de vendre de la limonade par temps froid, facile de la vendre par temps chaud, et difficile de la vendre par temps très chaud (peut-être parce que personne ne quitte sa maison par temps très chaud jours).

Ce graphique ressemblerait à ceci:

Le modèle, représenté par la ligne , est terrible. Les prédictions seraient très erronées, ce qui signifie que votre modèle ne représente pas avec précision la relation entre « Température » et « Revenu ».

En conséquence, les valeurs résiduelles ressembleraient à ceci:

Implications

Si votre modèle est très éloigné, comme dans lexemple ci-dessus, vos prédictions seront sans valeur (et vous remarquerez un r-carré très faible, comme le r-carré de 0,027 pour ce qui précède).

Dautres fois, un ajustement légèrement sous-optimal vous donnera toujours une bonne idée générale de la relation, même si elle nest pas parfaite, comme ci-dessous:

Ce modèle semble assez précis. Si vous regardez de près (ou si vous regardez les résidus), vous pouvez voir quil y a un peu de motif ici – que les points sont sur une courbe que la ligne ne correspond pas tout à fait.

Est-ce important? Cest à vous.Si vous comprenez rapidement la relation, votre ligne droite est une approximation assez décente. Si vous envisagez dutiliser ce modèle pour la prédiction et non pour lexplication, le modèle le plus précis possible rendrait probablement compte de cette courbe.

Comment réparer

Parfois, des modèles comme cela indique quune variable doit être transformée.
Si le modèle est en fait aussi clair que ces exemples, vous devez probablement créer un modèle non linéaire (ce nest pas aussi difficile que cela puisse paraître).
Ou, comme toujours, il est possible que le problème soit une variable manquante.

Outliers

Afficher les détails de ce tracé et comment le corriger.

Problème

Que faire si lun de vos points de données avait une « température » de 80 au lieu des normales 20 et 30? Vos graphiques ressembleraient à ceci:

Cette régression a un point de donnée externe sur une variable dentrée, « Température » (les valeurs aberrantes sur une variable dentrée sont également appelées « points de levier »).

Que faire si lun de vos points de données avait un revenu de 160 $ au lieu des 20 $ à 60 $ normaux? Vos graphiques ressembleraient à ceci:

Cette régression a un point de données aberrant sur une variable de sortie, « Revenu ».

Implications

Stats iQ exécute un type de régression qui nest généralement pas affecté par les valeurs aberrantes en sortie ( comme le jour avec un revenu de 160 $), mais il est affecté par des valeurs aberrantes en entrée (comme une « température » dans les années 80). Dans le pire des cas, votre modèle peut pivoter pour essayer de se rapprocher de ce point au détriment dêtre proche de tous les autres et finissent par se tromper complètement, comme ceci:

La ligne bleue est probablement ce à quoi vous voudriez que votre modèle ressemble, et la ligne rouge est le modèle que vous pourriez voir si vous avez cette valeur aberrante à « Température » 80.

Comment réparer

Il est possible quil sagisse dune erreur de mesure ou de saisie de données, où la valeur aberrante est tout simplement erronée, auquel cas vous devez la supprimer.
Il est possible que ce qui semble nêtre que quelques valeurs aberrantes soit en fait une distribution dénergie. Pensez à transformer la variable si lune de vos variables a une distribution asymétrique (cest-à-dire quelle nest pas en forme de cloche à distance).
Sil sagit effectivement dune valeur aberrante légitime, vous devez évaluer limpact de la valeur aberrante.

Grands points de données de laxe Y

Afficher les détails de ce tracé et comment le corriger.

Problème

Imaginez quil y ait deux stands de limonade concurrents à proximité. La plupart du temps, un seul est opérationnel, auquel cas vos revenus sont toujours bons. Parfois, ni lun ni lautre nest actif et les revenus montent en flèche; à dautres moments, les deux sont actifs et les revenus chutent.

« Revenus » par rapport à « Température » pourrait ressembler à ceci…

… avec cette rangée du haut indiquant les jours où aucun autre stand ne se présente et la rangée du bas étant les jours où les deux autres stands sont en activité.

Il en résulterait ces tracés résiduels:

Autrement dit, il y a pas mal de points de données des deux côtés de 0 qui ont des résidus de 10 ou plus, ce qui signifie disons que le modèle était bien loin.

Maintenant, si vous aviez collecté des données chaque jour pour une variable appelée « Nombre de stands de limonade actifs », vous pourriez ajouter cette variable à votre modèle et ce problème serait résolu . Mais souvent, vous navez pas les données dont vous avez besoin (ou même une estimation du type de variable dont vous avez besoin).

Implications

Votre modèle ne vaut rien, mais ce nest certainement pas aussi bon que si vous aviez toutes les variables dont vous avez besoin. précise la plupart du temps, mais de temps en temps, c’est bien loin. » Est-ce utile? Probablement, mais cest votre décision et cela dépend des décisions que vous essayez de prendre en fonction de votre modèle.

Comment réparer

Même si cette approche ne le ferait pas fonctionne dans lexemple spécifique ci-dessus, il vaut presque toujours la peine de regarder autour de vous pour voir sil y a une opportunité de transformer utilement une variable.
Si cela ne fonctionne pas, vous devrez probablement résoudre votre problème de variable manquante .

Axe X déséquilibré

Afficher les détails de ce tracé et comment le corriger .

Problème

Imaginez que le « Revenu » soit généré par le « Trafic piétonnier » à proximité, en plus ou au lieu de « Température ». Imaginez que, pour une raison quelconque, votre stand de limonade génère généralement de faibles revenus, mais que de temps en temps, vous obtenez des jours à revenus extrêmement élevés, de sorte que vos revenus ressemblent à ceci …

… au lieu de quelque chose de plus symétrique et en forme de cloche comme celui-ci:

Donc « Trafic piétonnier » vs. »Revenus » peut ressembler à ceci, la plupart des données étant regroupées sur le côté gauche:

La ligne noire représente le équation du modèle, la prédiction du modèle de la relation entre « Trafic piétonnier » et « Revenu ». Vous pouvez voir que le modèle ne peut pas vraiment faire la différence entre « Trafic piétonnier » de 0 et de, disons, 100 ou 1 000; pour chacune de ces valeurs, il prédirait des revenus proches de 53 USD.

Traduire ces mêmes données dans les graphiques de diagnostic:

Implications

Parfois, il ny a en fait rien de mal avec votre modèle. Dans lexemple ci-dessus, il est tout à fait clair que ce nest pas un bon modèle, mais parfois le tracé résiduel est déséquilibré et le modèle est assez bon.

Les seuls moyens de le dire sont a) dexpérimenter la transformation vos données et voyez si vous pouvez laméliorer et b) regardez le tracé prévu par rapport au tracé réel et voyez si votre prédiction est complètement erronée pour beaucoup de points de données, comme dans lexemple ci-dessus (mais contrairement à lexemple ci-dessous).

Bien quil ny ait pas de règle explicite qui dit que votre résidu ne peut pas être déséquilibré et toujours être précis (en effet, ce modèle est assez précis), il est plus fréquent quun résidu déséquilibré sur laxe des x signifie que votre modèle peut être rendu beaucoup plus précis. La plupart du temps, vous constaterez que le modèle était orienté correctement mais assez inexact par rapport à une version améliorée. Il nest pas rare de résoudre un problème comme celui-ci et par conséquent de voir le r-carré du modèle passer de 0,2 à 0,5 (sur une échelle de 0 à 1).

Comment résoudre

admin