Interpretando gráficos residuais para melhorar sua regressão

Exemplo de gráficos residuais e seus diagnósticos

Se você não tiver certeza do que é um resíduo, reserve cinco minutos para ler o acima, então volte aqui.

Abaixo está uma galeria de parcelas residuais insalubres. Seu resíduo pode se parecer com um tipo específico de baixo, ou alguma combinação.

Se o seu se parecer com um dos abaixo, clique nesse resíduo para entender o que está acontecendo e aprender como consertar.

(Ao longo do tempo, usaremos a “Receita” de uma barraca de limonada versus a “Temperatura” daquele dia como um conjunto de dados de exemplo.)

Eixo Y desequilibrado

Mostra detalhes sobre este gráfico e como corrigi-lo.

Problema

Imagine que, por algum motivo, sua barraca de limonada normalmente tem receita baixa, mas de vez em quando você obtém dias de receita muito alta, de modo que “Receita” fica assim…

… em vez de algo mais simétrico e em forma de sino como este:

Portanto, “Temperatura” vs. “Receita” pode ter esta aparência, com a maioria dos dados agrupados na parte inferior…

A linha preta representa a equação do modelo, a previsão do modelo da relação entre “Temperatura” e “Receita”. Observe acima cada previsão feita pela linha preta para uma determinada “Temperatura” (por exemplo, em “Temperatura” 30, “Receita” é prevista em cerca de 20). Você pode ver que a maioria dos pontos está abaixo da linha (ou seja, a previsão era muito alta), mas alguns pontos estão muito acima da linha (ou seja, a previsão estava muito baixa).

Traduzindo esses mesmos dados para os gráficos de diagnóstico, a maioria das previsões da equação são um pouco altas demais e algumas seriam muito baixas.

Implicações

Isso quase sempre significa que seu modelo pode ser significativamente mais preciso. Na maioria das vezes, você descobrirá que o modelo estava direcionalmente correto, mas muito impreciso em relação a uma versão melhorada. Não é incomum corrigir um problema como este e, conseqüentemente, ver o salto de r-quadrado do modelo de 0,2 para 0,5 (em uma escala de 0 para 1).

Como corrigir

  • A solução para isso é quase sempre transformar seus dados, normalmente sua variável de resposta.
  • Também é possível que seu modelo não tenha uma variável.

Heteroscedasticidade

Mostre detalhes sobre este gráfico e como corrigi-lo.

Problema

Esses gráficos exibem “heterocedasticidade”, o que significa que os resíduos ficam maiores conforme a previsão se move de pequeno para grande (ou de grande para pequeno).

Imagine isso em dias frios, o valor da receita é muito consistente, mas em dias mais quentes, às vezes a receita é muito alta e às vezes é muito baixa.

Você veria gráficos como estes:

Implicações

Isso não cria inerentemente um problema, mas geralmente é um indicador de que seu modelo pode ser melhorado.

A única exceção aqui é que se o tamanho da sua amostra for inferior a 250 e você não puder corrigir o problema usando o abaixo, seus valores p podem ser um pouco mais altos ou mais baixos do que deveriam ser, então possivelmente um variável que está bem na fronteira da significância pode acabar erroneamente no lado errado dessa fronteira. No entanto, seus coeficientes de regressão (o número de unidades “Receita” muda quando “Temperatura” sobe um) ainda serão precisos.

Como corrigir

  • A solução mais frequentemente bem-sucedida é transformar uma variável.
  • Freqüentemente, a heterocedasticidade indica que uma variável está faltando.

Não linear

Mostre detalhes sobre este gráfico e como corrigi-lo.

Problema

Imagine que é difícil vender limonada em dias frios, fácil de vender em dias quentes e difícil de vender em dias muito quentes (talvez porque ninguém sai de casa muito calor dias).

Esse gráfico ficaria assim:

O modelo, representado pela linha , é terrível. As previsões estariam muito erradas, o que significa que seu modelo não representa com precisão a relação entre “Temperatura” e “Receita”.

Da mesma forma, os resíduos ficariam assim:

Implicações

Se o seu modelo estiver muito errado, como no exemplo acima, suas previsões serão muito inúteis (e você notará um r-quadrado muito baixo, como 0,027 r-quadrado para o acima).

Outras vezes, um ajuste ligeiramente abaixo do ideal ainda fornecerá uma boa noção geral da relação, mesmo que não seja perfeita, como o abaixo:

Esse modelo parece muito preciso. Se você olhar de perto (ou se você olhar para os resíduos), você pode dizer que há um pouco de um padrão aqui – que os pontos estão em uma curva que a linha não corresponde exatamente.

Isso importa? Você decide.Se você está tendo uma compreensão rápida da relação, sua linha reta é uma aproximação bastante decente. Se você for usar este modelo para previsão e não explicação, o modelo mais preciso possível provavelmente seria responsável por essa curva.

Como corrigir

  • Às vezes, padrões como isso indica que uma variável precisa ser transformada.
  • Se o padrão for realmente tão claro quanto esses exemplos, você provavelmente precisará criar um modelo não linear (não é tão difícil quanto parece).
  • Ou, como sempre, é possível que o problema seja uma variável ausente.

Outliers

Mostra detalhes sobre este gráfico e como corrigi-lo.

Problema

E se um de seus pontos de dados tivesse uma “Temperatura” de 80 em vez dos 20 e 30 normais? Seus gráficos seriam assim:

Esta regressão tem um ponto de dados periférico em uma variável de entrada, “Temperatura” (valores discrepantes em uma variável de entrada também são conhecidos como “pontos de alavancagem”).

E se um de seus pontos de dados tivesse $ 160 em receita em vez dos $ 20 – $ 60 normais? Seus gráficos seriam assim:

Esta regressão tem um ponto de dados periférico em uma variável de saída, “Receita”.

Implicações

Stats iQ executa um tipo de regressão que geralmente não é afetado por valores discrepantes de saída ( como o dia com receita de $ 160), mas é afetado por valores discrepantes de entrada (como uma “Temperatura” nos anos 80). No pior caso, seu modelo pode girar para tentar chegar mais perto desse ponto ao custo de estar perto de todos os outros e acabam sendo totalmente errados, como este:

A linha azul é provavelmente o que você gostaria que seu modelo se parecesse, e a linha vermelha é o modelo que você pode ver se tiver esse valor atípico em “Temperatura” 80.

Como corrigir

  • É possível que se trate de um erro de medição ou de entrada de dados, onde o valor discrepante está simplesmente errado, caso em que você deve excluí-lo.
  • É possível que o que parece ser apenas alguns valores discrepantes seja na verdade uma distribuição de energia. Considere transformar a variável se uma de suas variáveis tiver uma distribuição assimétrica (ou seja, não é remotamente em forma de sino).
  • Se for realmente um outlier legítimo, você deve avaliar o impacto do outlier.

Pontos de dados grandes do eixo Y

Mostra detalhes sobre este gráfico e como corrigi-lo.

Problema

Imagine que há duas barracas de limonada concorrentes nas proximidades. Na maioria das vezes, apenas um está operacional e, nesse caso, sua receita é consistentemente boa. Às vezes, nenhum deles está ativo e a receita dispara; em outros momentos, ambos estão ativos e a receita cai vertiginosamente.

“Receita” x “Temperatura” pode ter esta aparência …

… com a linha superior sendo os dias em que nenhum outro estande aparece e a linha inferior sendo os dias em que os dois outros estandes estão em funcionamento.

Isso resultaria nestes lotes residuais:

Ou seja, há alguns pontos de dados em ambos os lados de 0 que têm resíduos de 10 ou mais, que são digamos que o modelo estava errado.

Agora, se você coletasse dados todos os dias para uma variável chamada “Número de barracas de limonada ativas”, poderia adicionar essa variável ao seu modelo e o problema seria corrigido . Mas muitas vezes você não tem os dados de que precisa (ou mesmo um palpite sobre o tipo de variável de que precisa).

Implicações

Seu modelo não é inútil, mas definitivamente não é tão bom como se você tivesse todas as variáveis de que precisa. Você ainda pode usá-lo e pode dizer algo como: “Este modelo é muito preciso na maior parte do tempo, mas de vez em quando está errado. ” Isso é útil? Provavelmente, mas essa é sua decisão e depende de quais decisões você está tentando tomar com base no seu modelo.

Como corrigir

  • Mesmo que essa abordagem não trabalhar no exemplo específico acima, quase sempre vale a pena dar uma olhada para ver se há uma oportunidade de transformar uma variável de forma útil.
  • Se isso não funcionar, você provavelmente precisará lidar com seu problema de variável ausente .

Eixo X desequilibrado

Mostrar detalhes sobre este gráfico e como corrigi-lo .

Problema

Imagine que “Receita” é impulsionada pelo “tráfego de pedestres” nas proximidades, além de ou em vez de apenas “Temperatura”. Imagine que, por qualquer motivo, sua barraca de limonada normalmente tenha receita baixa, mas de vez em quando você obtém dias de receita extremamente alta, de forma que sua receita fica assim…

… em vez de algo mais simétrico e em forma de sino como este:

Então, “tráfego de pedestres” vs.”Receita” pode ter a seguinte aparência, com a maioria dos dados agrupados no lado esquerdo:

A linha preta representa o equação do modelo, a previsão do modelo da relação entre “Tráfego de pedestres” e “Receita”. Você pode ver que o modelo não consegue realmente dizer a diferença entre “tráfego de pedestres” de 0 e, digamos, 100 ou 1.000; para cada um desses valores, ele preveria uma receita próxima de US $ 53.

Traduzir esses mesmos dados para os gráficos de diagnóstico:

Implicações

Às vezes, não há realmente nada de errado com o seu modelo. No exemplo acima, está bem claro que este não é um bom modelo, mas às vezes o gráfico residual é desequilibrado e o modelo é muito bom.

As únicas maneiras de saber são a) fazer experiências com a transformação seus dados e ver se você pode melhorá-los eb) olhar para o gráfico previsto vs. real e ver se sua previsão está totalmente errada para muitos pontos de dados, como no exemplo acima (mas diferente do exemplo abaixo).

Embora não haja uma regra explícita que diga que seu resíduo não pode ser desequilibrado e ainda ser preciso (na verdade, este modelo é bastante preciso), é mais comum o caso de um resíduo não balanceado do eixo x significar que seu modelo pode ser significativamente mais preciso. Na maioria das vezes, você descobrirá que o modelo estava direcionalmente correto, mas muito impreciso em relação a uma versão melhorada. Não é incomum corrigir um problema como este e, consequentemente, ver o salto r-quadrado do modelo de 0,2 para 0,5 (em uma escala de 0 para 1).

Como corrigir

Deixe uma resposta

O seu endereço de email não será publicado. Campos obrigatórios marcados com *