회귀 분석을 개선하기위한 잔차 그림 해석

10월 17, 2020

회귀 분석을 개선하기위한 잔차 그림 해석

잔차 그림 및 진단 예

잔차가 무엇인지 확실하지 않은 경우 5 분 동안 위의 내용을 읽은 다음 여기로 돌아 오세요.

아래는 건강에 좋지 않은 잔여 플롯의 갤러리입니다. 잔차는 아래에서 하나의 특정 유형 또는 일부 조합처럼 보일 수 있습니다.

귀하의 잔차가 아래 중 하나처럼 보이면 해당 잔차를 클릭하여 무슨 일이 일어나고 있는지 이해하고 해결 방법을 알아보세요.

(전체적으로 레모네이드 스탠드의 “수익”과 그날의 “온도”를 데이터 세트로 사용합니다.)

Y 축 불균형

이 플롯에 대한 세부 정보 및 수정 방법을 표시합니다.

문제

어떤 이유로 든 귀하의 레모네이드 가판대는 일반적으로 수익이 낮지 만 가끔씩 “수익”이 다음과 같이 매우 높은 수익을 올릴 수 있다고 상상해보십시오.

… 다음과 같이 더 대칭적이고 종 모양의 것 대신 :

따라서 “온도”대 “수익”은 다음과 같을 수 있으며 대부분의 데이터가 하단에 모여 있습니다.

검은 색 선은 온도와 수익간의 관계에 대한 모델의 예측 인 모델 방정식을 나타냅니다. 주어진 “온도”에 대해 검은 색 선으로 만든 각 예측을 위에서 살펴보십시오 (예 : “온도”30에서 “수익”은 약 20으로 예측 됨). 대부분의 점이 선 아래에 있지만 (예측이 너무 높음) 몇 개의 점이 선보다 훨씬 위에 있음 (예측이 너무 낮음)을 볼 수 있습니다.

동일한 데이터를 진단 플롯으로 변환하면 방정식의 예측 대부분이 약간 높고 일부는 너무 낮습니다.

의미

이것은 거의 항상 모델을 훨씬 더 정확하게 만들 수 있음을 의미합니다. 대부분의 경우 모델이 방향은 정확하지만 개선 된 버전에 비해 상당히 부정확하다는 것을 알 수 있습니다. 이와 같은 문제를 해결하는 것은 드문 일이 아니며 결과적으로 모델의 r 제곱이 0.2에서 0.5 (0에서 1 척도로)로 점프하는 것을 볼 수 있습니다.

해결 방법

이에 대한 해결책은 거의 항상 데이터, 일반적으로 응답 변수를 변환하는 것입니다.
모델에 변수가 없을 수도 있습니다.

이분산성

이 플롯에 대한 세부 정보와 수정 방법을 표시합니다.

문제

이 플롯은 “이분산성”을 나타냅니다. 즉, 예측이 작은 것에서 큰 것으로 (또는 큰 것에서 작은 것으로) 이동함에 따라 잔차가 커집니다.

추운 날에는 수익 금액이 매우 일정하지만 더운 날에는 수익이 매우 높고 때로는 매우 낮습니다.

다음과 같은 플롯이 표시됩니다.

의미

이것은 본질적으로 문제를 일으키지는 않지만 종종 모델을 개선 할 수 있다는 지표입니다.

여기서 유일한 예외는 표본 크기가 250 미만이고 아래를 사용하여 문제를 해결할 수없는 경우 p- 값이 예상보다 약간 높거나 낮을 수 있으므로 중요 경계에있는 변수가 해당 경계의 잘못된쪽에 잘못 표시 될 수 있습니다.하지만 회귀 계수 ( “온도”가 1 상승하면 “수익”단위 수가 변경됨)는 여전히 정확합니다.

해결 방법

가장 성공적인 솔루션은 변수를 변환하는 것입니다.
종종 이분산성은 변수가 누락되었음을 나타냅니다.

비선형

이 플롯에 대한 세부 정보와 수정 방법을 표시합니다.

문제

추운 날에는 레모네이드를 팔기 어렵고, 더운 날에는 쉽게 팔 수 있으며, 매우 더운 날에는 팔기 어렵다고 상상해보십시오 (아마도 아주 더운 날에는 집을 떠나지 않기 때문일 것입니다. 일).

그 플롯은 다음과 같습니다.

선으로 표시되는 모델 , 끔찍합니다. 예측이 다소 벗어 났기 때문에 모델이 온도와 수익간의 관계를 정확하게 나타내지 않습니다.

따라서 잔차는 다음과 같습니다.

시사점

위의 예와 같이 모델이 제대로 작동하지 않으면 예측이 무가치합니다. 위의 0.027 r- 제곱과 같이 매우 낮은 r- 제곱).

그렇지 않은 경우 약간 차선의 적합도는 완벽하지 않더라도 관계에 대한 일반적인 감각을 제공합니다. 아래 :

그 모델은 꽤 정확 해 보입니다. 자세히 살펴보면 (또는 잔차를 보면) 여기에 약간의 패턴이 있음을 알 수 있습니다. 점이 곡선에있어 선이 일치하지 않는 것입니다.

그게 중요합니까? 그것은 당신에게 달려 있습니다.관계를 빠르게 이해하고 있다면 직선은 꽤 괜찮은 근사치입니다. 설명이 아닌 예측을 위해이 모델을 사용하려는 경우 가능한 가장 정확한 모델이 해당 곡선을 설명 할 것입니다.

수정 방법

때때로 다음과 같은 패턴 이는 변수를 변환해야 함을 나타냅니다.
패턴이이 예제처럼 실제로 명확하다면 비선형 모델을 만들어야 할 것입니다 (소리만큼 어렵지는 않습니다).
또는 항상 그렇듯이 문제가 변수 누락 일 수 있습니다.

이상 점

이 플롯에 대한 세부 정보 및 수정 방법을 표시합니다.

문제

데이터 포인트 중 하나의 온도가 정상적인 20 초와 30 초가 아닌 80으로 표시되면 어떻게 되나요? 플롯은 다음과 같습니다.

이 회귀에는 입력 변수 “Temperature”(입력 변수의 이상 값을 “레버리지 포인트”라고도 함)에 대한 이상 데이터 포인트가 있습니다.

데이터 포인트 중 하나의 수익이 $ 20 – $ 60 대신 $ 160이면 어떻게됩니까? 플롯은 다음과 같습니다.

이 회귀에는 출력 변수 “Revenue”에 대한 이상 데이터 포인트가 있습니다.

의미

통계 iQ는 일반적으로 출력 이상치의 영향을받지 않는 회귀 유형을 실행합니다 ( 수익이 160 달러 인 날과 같지만 입력 이상치의 영향을받습니다 (예 : 80 년대의 “온도”). 최악의 경우 모델이 해당 지점에 가까워 지도록 피벗 할 수 있습니다. 나머지는 다음과 같이 완전히 잘못되었습니다.

파란색 선은 모델이 원하는 모양이고 빨간색 선은 “온도”80에서 이상 값이있는 경우 볼 수있는 모델입니다.

해결 방법

이상 값이 잘못된 측정 또는 데이터 입력 오류 일 수 있습니다.이 경우 삭제해야합니다.
몇 가지 특이 치로 보이는 것이 실제로는 전력 분포 일 수 있습니다. 변수 중 하나에 비대칭 분포가있는 경우 (즉, 원격으로 종 모양이 아닌 경우) 변수 변환을 고려하십시오.
정확한 특이 치인 경우 특이 치의 영향을 평가해야합니다.

대형 Y 축 데이터 포인트

이 플롯에 대한 세부 정보와 수정 방법을 표시합니다.

문제

근처에 경쟁하는 레모네이드 가판대가 두 개 있다고 상상해보십시오. 대부분의 경우 하나만 운영되며이 경우 수익은 지속적으로 좋습니다. 때로는 둘 다 활성화되지 않고 수익이 급증합니다. 다른 경우에는 둘 다 활성화되어 수익이 급감합니다.

수익과 온도는 다음과 같을 수 있습니다.

… 맨 위 행은 다른 스탠드가 나타나지 않는 날이고 맨 아래 행은 다른 두 스탠드가 모두 영업중인 날입니다.

그 결과 다음과 같은 잔여 플롯이 발생합니다.

즉, 0의 양쪽에 잔차가 10 이상인 데이터 포인트가 꽤 많이 있습니다. 모델이 벗어났다고 말합니다.

이제 “활성 레모네이드 스탠드 수”라는 변수에 대해 매일 데이터를 수집했다면 해당 변수를 모델에 추가하면이 문제가 해결됩니다. .하지만 필요한 데이터가없는 경우가 많습니다 (또는 필요한 변수의 종류를 추측 할 수도 있습니다).

시사점

귀하의 모델은 쓸모가 없지만 필요한 모든 변수를 가지고있는 것만 큼 좋지는 않습니다. 계속 사용할 수 있으며 “이 모델은 꽤 괜찮습니다. 대부분의 경우 정확하지만 가끔씩은 그렇지 않습니다. ” 유용합니까? 아마도 그것은 귀하의 결정이며 모델을 기반으로하려는 결정에 따라 다릅니다.

해결 방법

이 접근 방식은 그렇지 않더라도 위의 특정 예에서 작업하면 거의 항상 변수를 유용하게 변환 할 수있는 기회가 있는지 살펴볼 가치가 있습니다.
그래도 작동하지 않으면 누락 된 변수 문제를 처리해야 할 수 있습니다. .

X 축 불균형

이 플롯에 대한 세부 정보 및 수정 방법 표시 .

문제

수익이 기온에 더해 지거나 그 대신에 가까운 보행자 교통 체증에 의해 발생한다고 상상해보십시오. 어떤 이유로 든 귀하의 레모네이드 가판대는 일반적으로 수익이 낮지 만 가끔씩 수익이 다음과 같이 매우 높은 수익을 올릴 수 있다고 상상해보세요…

… 다음과 같이 더 대칭적이고 종 모양의 것 대신 :

따라서 보행자 수와수익은 다음과 같으며 대부분의 데이터가 왼쪽에 모여 있습니다.

검은 색 선은 모델 방정식, 모델의 “유행 량”과 “수익”간의 관계에 대한 예측. 모델이 0 인 발신자 수와 100 개 또는 1,000 개 사이의 차이를 실제로 구분할 수 없음을 알 수 있습니다. 각 값에 대해 $ 53에 가까운 수익을 예측합니다.

동일한 데이터를 진단 플롯으로 변환 :

의미

때로는 모델에 실제로 아무런 문제가없는 경우도 있습니다. 위의 예에서 이것이 좋은 모델은 아니지만 때때로 잔차 그림이 불균형하고 모델이 꽤 좋다는 것이 분명합니다.

알 수있는 유일한 방법은 a) 변환을 실험하는 것입니다. 데이터를 개선 할 수 있는지 확인하고 b) 예측 된 플롯과 실제 플롯을보고 위의 예에서와 같이 많은 데이터 포인트에 대해 예측이 크게 벗어 났는지 확인합니다 (아래 예와 달리).

잔차가 불균형 할 수없고 여전히 정확하다는 명시적인 규칙은 없지만 (실제로이 모델은 매우 정확합니다), x 축 불균형 잔차가 모델을 훨씬 더 정확하게 만들 수 있다는 것을 의미하는 경우가 더 많습니다. 대부분의 경우 모델이 방향은 정확하지만 개선 된 버전에 비해 상당히 부정확하다는 것을 알 수 있습니다. 이와 같은 문제를 해결하는 것은 드문 일이 아니며 결과적으로 모델의 r 제곱이 0.2에서 0.5 (0에서 1 척도로)로 점프하는 것을 볼 수 있습니다.

해결 방법

admin