Interpretación de gráficos de residuos para mejorar su regresión

octubre 17, 2020

Interpretación de gráficos de residuos para mejorar su regresión

Ejemplos de gráficos de residuos y sus diagnósticos

Si no está seguro de qué es un residual, tómese cinco minutos para leer lo anterior, entonces regrese aquí.

A continuación se muestra una galería de gráficos residuales no saludables. Su residuo puede verse como un tipo específico de abajo, o alguna combinación.

Si el suyo se parece a uno de los siguientes, haga clic en ese residuo para entender qué está pasando y aprender cómo solucionarlo.

(En todo momento usaremos los «Ingresos» de un puesto de limonada frente a la «Temperatura» de ese día como un conjunto de datos de ejemplo).

Eje Y Desequilibrado

Muestra detalles sobre este gráfico y cómo solucionarlo.

Problema

Imagine que, por cualquier motivo, su puesto de limonada normalmente tiene ingresos bajos, pero de vez en cuando obtiene días de ingresos muy altos, de modo que «Ingresos» se ve así…

… en lugar de algo más simétrico y con forma de campana como esto:

Entonces, «Temperatura» frente a «Ingresos» podría verse así, con la mayoría de los datos agrupados en la parte inferior …

La línea negra representa la ecuación del modelo, la predicción del modelo de la relación entre «Temperatura» e «Ingresos». Mire arriba en cada predicción hecha por la línea negra para una «Temperatura» determinada (p. Ej., En «Temperatura» 30, se predice que «Ingresos» será aproximadamente 20). Puede ver que la mayoría de los puntos están por debajo de la línea (es decir, la predicción fue demasiado alta), pero algunos puntos están muy por encima de la línea (es decir, la predicción fue demasiado baja).

Al traducir esos mismos datos a las gráficas de diagnóstico, la mayoría de las predicciones de la ecuación son un poco demasiado altas y algunas serían demasiado bajas.

Implicaciones

Esto casi siempre significa que su modelo puede hacerse significativamente más preciso. La mayoría de las veces, encontrará que el modelo era direccionalmente correcto pero bastante inexacto en relación con una versión mejorada. No es raro solucionar un problema como este y, en consecuencia, ver el salto r cuadrado del modelo de 0,2 a 0,5 (en una escala de 0 a 1).

Cómo solucionarlo

La solución a esto es casi siempre transformar sus datos, generalmente su variable de respuesta.
También es posible que su modelo carezca de una variable.

Heteroscedasticidad

Muestra detalles sobre este gráfico y cómo solucionarlo.

Problema

Estas gráficas exhiben «heterocedasticidad», lo que significa que los residuos aumentan a medida que la predicción se mueve de pequeña a grande (o de grande a pequeña).

Imagínese que en En los días fríos, la cantidad de ingresos es muy constante, pero en los días más calurosos, a veces los ingresos son muy altos y, a veces, muy bajos.

Vería gráficos como estos:

Implicaciones

Esto no crea un problema de forma inherente, pero a menudo es un indicador de que su modelo puede mejorarse.

La única excepción aquí es que si el tamaño de la muestra es inferior a 250 y no puede solucionar el problema con el siguiente, sus valores p pueden ser un poco más altos o más bajos de lo que deberían ser, por lo que posiblemente un La variable que está justo en el borde de significación puede terminar erróneamente en el lado equivocado de ese borde. Sin embargo, sus coeficientes de regresión (el número de unidades «Ingresos» cambia cuando «Temperatura» sube uno) seguirán siendo precisos.

Cómo solucionar

La solución exitosa con más frecuencia es transformar una variable.
A menudo, la heterocedasticidad indica que falta una variable.

No lineal

Muestra detalles sobre este gráfico y cómo solucionarlo.

Problema

Imagine que es difícil vender limonada en días fríos, fácil de vender en días cálidos y difícil de vender en días muy calurosos (tal vez porque nadie sale de su casa en días muy calurosos días).

Ese gráfico se vería así:

El modelo, representado por la línea , es terrible. Las predicciones estarían muy lejos, lo que significa que su modelo no representa con precisión la relación entre «Temperatura» e «Ingresos».

En consecuencia, los residuos se verían así:

Implicaciones

Si su modelo está muy lejos, como en el ejemplo anterior, sus predicciones serán bastante inútiles (y lo notará un r-cuadrado muy bajo, como el r-cuadrado de 0.027 para lo anterior).

Otras veces, un ajuste levemente subóptimo todavía le dará una buena idea general de la relación, incluso si no es perfecta, como lo siguiente:

Ese modelo parece bastante preciso. Si miras de cerca (o si miras los residuos), puedes notar que hay un pequeño patrón aquí: que los puntos están en una curva y la línea no coincide del todo.

¿Eso importa? Tu decides.Si comprende rápidamente la relación, su línea recta es una aproximación bastante decente. Si va a utilizar este modelo para la predicción y no para la explicación, el modelo más preciso posible probablemente tomaría en cuenta esa curva.

Cómo corregir

A veces, patrones como esto indica que una variable necesita ser transformada.
Si el patrón es realmente tan claro como estos ejemplos, probablemente necesite crear un modelo no lineal (no es tan difícil como parece).
O, como siempre, es posible que el problema sea una variable faltante.

Valores atípicos

Muestra detalles sobre este gráfico y cómo solucionarlo.

Problema

¿Qué pasaría si uno de sus puntos de datos tuviera una «Temperatura» de 80 en lugar de los 20 y 30 normales? Sus gráficos se verían así:

Esta regresión tiene un punto de datos periférico en una variable de entrada, «Temperatura» (los valores atípicos en una variable de entrada también se conocen como «puntos de apalancamiento»).

¿Qué pasaría si uno de sus puntos de datos tuviera $ 160 en ingresos en lugar de los $ 20 – $ 60 normales? Sus gráficos se verían así:

Esta regresión tiene un punto de datos periférico en una variable de salida, «Ingresos».

Implicaciones

Stats iQ ejecuta un tipo de regresión que generalmente no se ve afectada por valores atípicos de salida ( como el día con ingresos de 160 USD), pero se ve afectado por valores atípicos de entrada (como una «Temperatura» en los 80). En el peor de los casos, su modelo puede girar para intentar acercarse a ese punto a expensas de estar cerca de todos los demás y terminan siendo completamente incorrectos, así:

La línea azul es probablemente el aspecto que le gustaría que tuviera su modelo, y la línea roja es el modelo que podría ver si tiene ese valor atípico en «Temperatura» 80.

Cómo corregirlo

Es posible que se trate de un error de medición o de entrada de datos, en el que el valor atípico es incorrecto, en cuyo caso debe eliminarlo.
Es posible que lo que parece ser solo un par de valores atípicos sea de hecho una distribución de energía. Considere transformar la variable si una de sus variables tiene una distribución asimétrica (es decir, no tiene ni remotamente forma de campana).
Si de hecho es un valor atípico legítimo, debe evaluar el impacto del valor atípico.

Puntos de datos del eje Y grandes

Muestra detalles sobre este gráfico y cómo solucionarlo.

Problema

Imagina que hay dos puestos de limonada en competencia cerca. La mayoría de las veces, solo uno está operativo, en cuyo caso sus ingresos son consistentemente buenos. A veces, ninguno está activo y los ingresos se disparan; en otras ocasiones, ambos están activos y los ingresos caen en picado.

«Ingresos» frente a «Temperatura» podría verse así …

… con esa fila superior los días en los que no aparece ningún otro stand y la fila inferior los días en los que ambos stands están en el negocio.

Eso daría como resultado estas parcelas residuales:

Es decir, hay bastantes puntos de datos en ambos lados de 0 que tienen residuos de 10 o más, que es dicen que el modelo estaba muy mal.

Ahora, si hubiera recopilado datos todos los días para una variable llamada «Número de puestos de limonada activos», podría agregar esa variable a su modelo y este problema se solucionaría . Pero a menudo no tiene los datos que necesita (o ni siquiera una suposición sobre qué tipo de variable necesita).

Implicaciones

Su modelo no es inútil, pero definitivamente no es tan bueno como si tuvieras todas las variables que necesitas. Aún puedes usarlo y podrías decir algo como «Este modelo es bastante precisa la mayor parte del tiempo, pero luego, de vez en cuando, se pierde «. ¿Eso es útil? Probablemente, pero esa es su decisión y depende de las decisiones que esté tratando de tomar en función de su modelo.

Cómo solucionar

Aunque este enfoque no trabajar en el ejemplo específico anterior, casi siempre vale la pena mirar a su alrededor para ver si existe la oportunidad de transformar una variable de manera útil.
Sin embargo, si eso no funciona, probablemente deba resolver el problema de la variable faltante .

Eje X desequilibrado

Mostrar detalles sobre este gráfico y cómo solucionarlo .

Problema

Imagine que los «Ingresos» son impulsados por el «Tráfico presencial» cercano, además o en lugar de simplemente «Temperatura». Imagine que, por el motivo que sea, su puesto de limonada normalmente tiene ingresos bajos, pero de vez en cuando obtiene días de ingresos extremadamente altos, por lo que sus ingresos se ven así …

… en lugar de algo más simétrico y con forma de campana como esto:

Entonces, «tráfico peatonal» vs.»Ingresos» podría verse así, con la mayoría de los datos agrupados en el lado izquierdo:

La línea negra representa el ecuación del modelo, la predicción del modelo de la relación entre «Tráfico peatonal» e «Ingresos». Puede ver que el modelo realmente no puede diferenciar entre «Tráfico peatonal» de 0 y, digamos, 100 o 1000; para cada uno de esos valores, predeciría ingresos cercanos a $ 53.

Traduciendo esos mismos datos a los gráficos de diagnóstico:

Implicaciones

A veces, en realidad, su modelo no tiene nada de malo. En el ejemplo anterior, está bastante claro que este no es un buen modelo, pero a veces la gráfica residual está desequilibrada y el modelo es bastante bueno.

Las únicas formas de saberlo son a) experimentar con la transformación sus datos y vea si puede mejorarlos yb) mire el gráfico predicho frente al real y vea si su predicción está muy mal para muchos puntos de datos, como en el ejemplo anterior (pero a diferencia del ejemplo siguiente).

Si bien no hay una regla explícita que diga que su residuo no puede ser desequilibrado y aún así ser preciso (de hecho, este modelo es bastante preciso), Es más frecuente el caso de que un residuo desequilibrado en el eje x signifique que su modelo puede hacerse significativamente más preciso. La mayoría de las veces, encontrará que el modelo era direccionalmente correcto pero bastante inexacto en relación con una versión mejorada. No es raro solucionar un problema como este y, en consecuencia, ver el salto r cuadrado del modelo de 0,2 a 0,5 (en una escala de 0 a 1).

Cómo solucionarlo

admin