일반 최소 제곱

가정 편집

참조 : 선형 회귀 § 가정

선형 회귀 모델을 캐스팅 할 수있는 여러 프레임 워크가 있습니다. OLS 기술을 적용 할 수 있습니다. 이러한 각 설정은 동일한 공식과 동일한 결과를 생성합니다. 유일한 차이점은 방법이 의미있는 결과를 제공하기 위해 부과되어야하는 해석과 가정입니다. 적용 가능한 프레임 워크의 선택은 주로 데이터의 특성과 수행해야하는 추론 작업에 따라 달라집니다.

해석의 차이점 중 하나는 회귀자를 무작위로 처리할지 여부입니다. 변수 또는 사전 정의 된 상수로. 첫 번째 경우 (무작위 설계)에서 회귀 자 xi는 관측 연구에서와 같이 일부 모집단의 yi와 함께 무작위로 샘플링됩니다.이 접근 방식을 사용하면 추정 자의 점근 적 특성을보다 자연스럽게 연구 할 수 있습니다. 다른 해석에서는 (고정 설계), 회귀 변수 X는 설계에 의해 설정된 알려진 상수로 처리되고 y는 실험에서와 같이 X의 값에 대해 조건부로 샘플링됩니다. 실제 목적을 위해 추정 및 추론이 수행되기 때문에 이러한 구분은 종종 중요하지 않습니다. 이 문서에 언급 된 모든 결과는 무작위 설계 프레임 워크 내에 있습니다.

고전적인 선형 회귀 모델 편집

고전적인 모델은 “유한 샘플”추정 및 추론에 중점을 둡니다. 이는 관측 값 n이 고정되어 있음을 의미합니다. 이것은 OLS의 점근 적 동작을 연구하고 관측치 수가 무한대로 증가 할 수있는 다른 접근 방식과 대조됩니다.

즉각적인 결과 외 생성 가정은 오류가 평균 0 (E = 0)이고 회귀 변수가 오류와 상관 관계가 없다는 것입니다 : E = 0. 외 생성 가정은 OLS 이론에 중요합니다. 유지되면 회귀 변수를 외생이라고합니다. 그렇지 않은 경우 오차항과 상관 관계가있는 회귀 변수를 내생이라고하고 OLS 추정값이 무효화됩니다.이 경우 도구 변수 방법을 사용하여 추론을 수행 할 수 있습니다. 일반적으로 또한 가정합니다. 회귀자는 적어도 두 번째 모멘트까지 유한 모멘트를 갖습니다. 그런 다음 행렬 Qxx = E는 유한하고 양의 반 정확한입니다.이 가정을 위반하면 회귀자를 선형 종속 또는 완전 다중 공선이라고합니다.이 경우 회귀 계수 β는 학습 할 수 없지만 동일한 선형 종속 부분 공간에있는 회귀 변수의 새 값에 대해 y 값의 예측이 여전히 가능합니다.

  • 구형 오류 : Var ⁡ = σ 2 I n, {\ displaystyle \ operatorname {Var} = \ sigma ^ {2} I_ {n},}

여기서 In은 차원 n의 단위 행렬이고 σ2는 각 관측 값의 분산을 결정하는 매개 변수입니다. σ2는 모델에서 성가신 매개 변수로 간주됩니다. 일반적으로 그것은 또한 추정됩니다. 이 가정이 위반되면 OLS 추정치는 여전히 유효하지만 더 이상 효율적이지 않습니다. 이 가정을 두 부분으로 나누는 것이 일반적입니다.

  • 동질성 : E = σ2, 이는 오류 항이 각 관측치에서 동일한 분산 σ2를 가짐을 의미합니다. 이 요구 사항을 위반하면 이분산성이라고합니다.이 경우 더 효율적인 추정기는 가중치가 부여 된 최소 제곱입니다. 오류에 무한 분산이있는 경우 OLS 추정값도 무한 분산을 갖습니다 (대수의 법칙에 따라 오류가 평균이 0 인 한 실제 값을 향하는 경향이 있음). 이 경우 강력한 추정 기법이 권장됩니다.
  • 자기 상관 없음 : 오류는 관측치간에 상관이 없습니다. i ≠ j에 대해 E = 0입니다. 이 가정은 시계열 데이터, 패널 데이터, 클러스터 샘플, 계층 적 데이터, 반복 측정 데이터, 종단 데이터 및 종속성이있는 기타 데이터의 맥락에서 위반 될 수 있습니다. 이러한 경우 일반화 된 최소 제곱이 OLS보다 더 나은 대안을 제공합니다. 자기 상관에 대한 또 다른 표현은 직렬 상관입니다.

OLS 방법의 유효성에는이 가정이 필요하지 않습니다. 그러나 특정 추가 유한 샘플 속성이 필요한 경우 (특히 영역에서) 설정 될 수 있습니다. 가설 테스트). 또한 오류가 정상인 경우 OLS 추정치는 최대 가능도 추정기 (MLE)와 동일하므로 모든 정규 추정기 클래스에서 점근 적으로 효율적입니다. 중요한 것은 정규성 가정이 오류 항에만 적용된다는 것입니다. 일반적인 오해와는 달리 반응 (종속) 변수는 정규 분포에 필요하지 않습니다.

독립적이고 동일하게 분포 됨 (iid) 편집

일부 애플리케이션, 특히 횡단면 데이터의 경우 모든 관측치가 독립적이고 동일하게 분포된다는 추가 가정이 적용됩니다.즉, 모든 관측 값은 무작위 표본에서 가져와 이전에 나열된 모든 가정을 더 간단하고 해석하기 쉽게 만듭니다. 또한이 프레임 워크는 데이터 생성 프로세스에서 새로운 독립 관측치를 가져올 수있는 이론적 가능성으로 이해되는 점근 적 결과 (샘플 크기 n → ∞)를 명시 할 수 있습니다. 이 경우 가정 목록은 다음과 같습니다.

시계열 모델 편집

유한 샘플 속성 편집

우선, 엄격한 외생 가정하에 OLS 추정기 β ^ {\ displaystyle \ scriptstyle {\ hat {\ beta}}} 및 s2는 편향되지 않습니다. 즉, 예상 값이 매개 변수의 실제 값과 일치합니다.

E ⁡ = β, E ⁡ = σ 2. {\ displaystyle \ operatorname {E} = \ beta, \ quad \ operatorname {E} = \ sigma ^ {2}.}

엄격한 외 생성이 유지되지 않는 경우 (많은 시계열 모델의 경우처럼, 여기서 외 생성은 과거 충격에 대해서만 가정하지만 미래 충격에 대해서는 가정하지 않습니다. 그러면 이러한 추정치는 유한 샘플에서 편향됩니다.

β ^ {\의 분산-공분산 행렬 (또는 단순히 공분산 행렬) displaystyle \ scriptstyle {\ hat {\ beta}}}는 다음과 같습니다

Var ⁡ = σ 2 (XTX) − 1 = σ 2 Q. {\ displaystyle \ operatorname {Var} = \ sigma ^ {2} (X ^ {T} X) ^ {-1} = \ sigma ^ {2} Q.}

특히 각 계수의 표준 오차 β ^ j {\ displaystyle \ scriptstyle {\ hat {\ beta}} _ {j}}는이 행렬의 j 번째 대각선 요소의 제곱근과 같습니다. 이 표준 오차의 추정치는 미지수 σ2를 추정치 s2로 대체하여 얻습니다. 따라서

s. e. ^ (β ^ j) = s 2 (XTX) jj − 1 {\ displaystyle {\ widehat {\ operatorname {s. \! e.}}} ({\ hat {\ beta}} _ {j}) = { \ sqrt {s ^ {2} (X ^ {T} X) _ {jj} ^ {-1}}} Cov ⁡ = 0. {\ displaystyle \ operatorname {Cov} = 0.}

가우스 –Markov 정리는 구형 오류 가정 (즉, 오류가 상관 관계가없고 동 분산 적이어야 함) 하에서 추정기 β ^ {\ displaystyle \ scriptstyle {\ hat {\ beta}}}이 선형 비 편향 추정기 클래스에서 효율적이라고 말합니다. 이를 최상의 선형 비 편향 추정기 (BLUE)라고합니다. 효율성은 우리가 y에서 선형이고 편향되지 않은 다른 추정량 β ~ {\ displaystyle \ scriptstyle {\ tilde {\ beta}}}를 찾은 것처럼 이해해야합니다.

Var ⁡ − Var ⁡ ≥ 0 {\ displaystyle \ operatorname {Var}-\ operatorname {Var} \ geq 0}

이 행렬은 음이 아닌 정의 행렬이라는 의미입니다. 이 정리는 매우 제한적인 선형 비 편향 추정기의 클래스에서만 최적 성을 설정합니다. 오차항 ε의 분포에 따라 다른 비선형 추정기가 OLS보다 더 나은 결과를 제공 할 수 있습니다.

Assuming normalityEdit

지금까지 나열된 속성은 모두 유효합니다. 오류 용어의 기본 분포. 그러나 정규성 가정이 성립한다고 가정한다면 (즉, ε ~ N (0, σ2In)) OLS 추정 자의 추가 속성을 지정할 수 있습니다.

추정기 β ^ {\ displaystyle \ scriptstyle {\ hat {\ beta}}}은 이전에 주어진 평균과 분산으로 정규 분포됩니다.

β ^ ∼ N (β, σ 2 (XTX) − 1) {\ displaystyle {\ 모자 {\ beta}} \ \ sim \ {\ mathcal {N}} {\ big (} \ beta, \ \ sigma ^ {2} (X ^ {\ mathrm {T}} X) ^ {-1} { \ big)}}

여기서 Q는 보조 인자 행렬입니다. 이 추정치는 모델에 대한 Cramér–Rao 경계에 도달하므로 모든 편향되지 않은 추정기의 클래스에서 최적입니다. Gauss-Markov 정리와 달리이 결과는 선형 및 비선형 추정기 모두에서 최적 성을 설정하지만 정규 분포 오차항의 경우에만 가능합니다.

추정기 s2는 chi-에 비례합니다. 제곱 분포 :

s 2 ∼ σ 2 n − p ⋅ χ n − p 2 {\ displaystyle s ^ {2} \ \ sim \ {\ frac {\ sigma ^ {2}} {np}} \ cdot \ chi _ {np} ^ {2}}

이 추정량의 분산은 2σ4 / (n − p)와 같으며 2σ4 / n의 Cramér–Rao 경계에 도달하지 않습니다. 그러나 추정치 s2보다 분산이 작은 σ2의 편향되지 않은 추정치가 없음이 표시되었습니다. 편향된 추정치를 허용하고 모델의 잔차 제곱합 (SSR)에 비례하는 추정기 클래스를 고려한다면이 클래스에서 가장 좋은 (평균 제곱 오차의 의미에서) 추정치는 다음과 같습니다. ~ σ2 = SSR / (n − p + 2), 회귀 변수가 하나 뿐인 경우 (p = 1) Cramér–Rao 경계를 능가합니다.

영향력있는 관찰 편집

주요 기사 : 영향력있는 관찰
참조 : 레버리지 (통계)

앞서 언급했듯이 추정기 β ^ {\ displaystyle {\ hat {\ beta}}}는 선형입니다. y에서는 종속 변수 yi의 선형 조합을 나타냅니다. 이 선형 조합의 가중치는 회귀 자 X의 함수이며 일반적으로 동일하지 않습니다. 가중치가 높은 관측치는 추정량 값에 더 뚜렷한 영향을 미치기 때문에 영향력 있다고합니다.

어떤 관측치가 영향력이 있는지 분석하기 위해 특정 j 번째 관측치를 제거하고 추정 수량이 얼마나 변경 될 것인지 고려합니다 (잭나이프 방법과 유사). β에 대한 OLS 추정량의 변화는

β ^ (j) − β ^ = − 1 1 − hj (XTX) − 1 xj T ε ^ j, {\ displaystyle { \ hat {\ beta}} ^ {(j)}-{\ hat {\ beta}} =-{\ frac {1} {1-h_ {j}}} (X ^ {\ mathrm {T}} X ) ^ {-1} x_ {j} ^ {\ mathrm {T}} {\ hat {\ varepsilon}} _ {j} \ ,,}

여기서 hj = xjT (XTX) −1xj는 j- 모자 행렬 P의 대각 요소 xj는 j 번째 관측치에 해당하는 회귀 변수의 벡터입니다. 마찬가지로 데이터 세트에서 관측 값을 생략 한 결과 j 번째 관측치에 대한 예측값의 변화는

y ^ j (j) − y ^ j = xj T β ^ (j) − xj T β ^ = − hj 1 − hj ε ^ j {\ displaystyle {\ hat {y}} _ {j} ^ {(j)}-{\ hat {y}} _ {j} = x_ {j} ^ { \ mathrm {T}} {\ hat {\ beta}} ^ {(j)}-x_ {j} ^ {T} {\ hat {\ beta}} =-{\ frac {h_ {j}} {1 -h_ {j}}} \, {\ hat {\ varepsilon}} _ {j}}

모자 행렬의 속성에서 0 ≤ hj ≤ 1이고 합계는 p이므로 평균적으로 hj ≈ p / n. 이러한 양 hj를 레버리지라고하고 hj가 높은 관측치를 레버리지 포인트라고합니다. 일반적으로 레버리지가 높은 관측치는 오류가 있거나 이상 값이거나 다른 방식으로 나머지 데이터 세트에서 비정형적인 경우에 대비하여 더 신중하게 조사해야합니다.

분할 회귀 편집

때때로 회귀에서 변수와 해당 매개 변수를 논리적으로 두 그룹으로 나눌 수 있으므로 회귀가 형태를 갖습니다

y = X 1 β 1 + X 2 β 2 + ε, {\ displaystyle y = X_ {1 } \ beta _ {1} + X_ {2} \ beta _ {2} + \ varepsilon,}

여기서 X1과 X2는 차원이 n × p1, n × p2이고 β1, β2는 p1 × 1 및 p2입니다. × 1 벡터, p1 + p2 = p.

M 1 y = M 1 X 2 β 2 + η, {\ displaystyle M_ {1} y = M_ {1} X_ {2} \ beta _ {2 } + \ eta \ ,,}

여기서 M1은 회귀 자 X1에 대한 소멸자 행렬입니다.

이 정리는 여러 이론적 결과를 설정하는 데 사용할 수 있습니다. 예를 들어 상수와 다른 회귀 변수가있는 회귀를 갖는 것은 종속 변수와 회귀 변수에서 평균을 뺀 다음 평균이 제거 된 변수에 대해 회귀를 실행하지만 상수 항은없는 것과 같습니다.

제약 estimationEdit

메인 기사 : Ridge regression

회귀의 계수가 선형 연립 방정식을 충족하는 것으로 알려져 있다고 가정합니다.

A : QT β = c, {\ displaystyle A \ colon \ quad Q ^ {T} \ beta = c, \,}

여기서 Q는 전체 순위의 ap × q 행렬이고 c는 알려진 상수로 구성된 aq × 1 벡터입니다. 여기서 q < p. 이 경우 최소 제곱 추정은 제약 A가 적용되는 모델의 잔차 제곱의 합을 최소화하는 것과 동일합니다. 제약 된 최소 제곱 (CLS) 추정량은 다음과 같은 명시적인 공식으로 제공 될 수 있습니다.

β ^ c = β ^ − (XTX) − 1 Q (QT (XTX) − 1 Q) − 1 (QT β ^ − c). {\ displaystyle {\ hat {\ beta}} ^ {c} = {\ hat {\ beta}}-(X ^ {T} X) ^ {-1} Q {\ Big (} Q ^ {T} ( X ^ {T} X) ^ {-1} Q {\ Big)} ^ {-1} (Q ^ {T} {\ hat {\ beta}}-c).}

제한된 estimator는 행렬 XTX가 반전 가능한 한 유효합니다. 이 기사의 시작 부분부터이 행렬은 전체 순위라고 가정했으며 순위 조건이 실패하면 β를 식별 할 수 없다는 점에 주목했습니다. 그러나 제한 A를 추가하면 β를 식별 할 수 있으며,이 경우 추정기의 공식을 찾고자합니다. 추정치는 다음과 같습니다.

β ^ c = R (RTXTXR) − 1 RTXT y + (I p − R (RTXTXR) − 1 RTXTX) Q (QTQ) − 1 c, {\ displaystyle {\ hat {\ 베타}} ^ {c} = R (R ^ {T} X ^ {T} XR) ^ {-1} R ^ {T} X ^ {T} y + {\ Big (} I_ {p} -R ( R ^ {T} X ^ {T} XR) ^ {-1} R ^ {T} X ^ {T} X {\ Big)} Q (Q ^ {T} Q) ^ {-1} c,}

여기서 R은 ap × (p − q) 행렬로, 행렬이 특이하지 않고 RTQ = 0입니다. 이러한 행렬은 일반적으로 고유하지는 않지만 항상 찾을 수 있습니다. 두 번째 공식은 XTX가 가역적 일 때 첫 번째 공식과 일치합니다.

대형 샘플 속성 편집

최소 제곱 추정치는 선형 회귀 모델 매개 변수 β의 포인트 추정치입니다. 그러나 일반적으로 이러한 추정치가 모수의 실제 값에 얼마나 근접 할 수 있는지도 알고 싶습니다. 즉, 구간 추정치를 구성하려고합니다.

오차항 εi의 분포에 대해 어떠한 가정도하지 않았으므로 추정기 β ^ {\ displaystyle의 분포를 추론하는 것은 불가능합니다. {\ hat {\ beta}}} 및 σ ^ 2 {\ displaystyle {\ hat {\ sigma}} ^ {2}} 그럼에도 불구하고 중앙 극한 정리를 적용하여 표본 크기 n이 다음과 같이 갈수록 점근 적 속성을 도출 할 수 있습니다. 무한대 샘플 크기는 반드시 유한하지만, OLS 추정량의 실제 분포가 점근 적 한계에 가깝도록 n이 “충분히 크다”고 가정하는 것이 일반적입니다.

(β ^ − β) → d N (0, σ 2 Q xx − 1), {\ displaystyle ({\ hat {\ beta}}-\ beta) \ {\ xrightarrow {d}} \ { \ mathcal {N}} {\ big (} 0, \; \ sigma ^ {2} Q_ {xx} ^ {-1} {\ big)},}

여기서 Q xx = XTX. {\ displaystyle Q_ {xx} = X ^ {T} X.}

IntervalsEdit

주요 문서 : 신뢰 구간 및 예측 구간

이 점근 분포 사용 , 벡터 β ^ {\ displaystyle {\ hat {\ beta}}}의 j 번째 성분에 대한 대략적인 양측 신뢰 구간은 다음과 같이 구성 될 수 있습니다.

β j ∈ jj] {\ displaystyle \ beta _ { j} \ in {\ bigg _ {jj}}} \ {\ bigg]}}, 1 − α 신뢰 수준,

여기서 q는 표준 정규 분포의 분위수 함수를 나타내고 jj는 j 번째 대각선입니다. 마찬가지로, σ2에 대한 최소 제곱 추정량도 일관되고 점근 적으로 정규 (εi의 네 번째 모멘트가 존재하는 경우) 분포를 제한하는

(σ ^ 2 − σ 2 ) → d N (0, E ⁡ − σ 4). {\ displaystyle ({\ hat {\ sigma}} ^ {2}-\ sigma ^ {2}) \ {\ xrightarrow {d}} \ {\ mathcal {N}} \ left (0, \; \ operatorname { E} \ left- \ sigma ^ {4} \ right).} (y ^ 0 − y 0) → d N (0, σ 2 x 0 TQ xx − 1 x 0), {\ displaystyle \ left ({\ 모자 {y}} _ {0} -y_ {0} \ right) \ {\ xrightarrow {d}} \ {\ mathcal {N}} \ left (0, \; \ sigma ^ {2} x_ {0} ^ {\ mathrm {T}} Q_ {xx} ^ {-1} x_ {0} \ right),}

생성 할 평균 반응 y 0 {\ displaystyle y_ {0}}에 대한 신뢰 구간을 구성 할 수 있습니다. :

y 0 ∈ {\ displaystyle y_ {0} \ in \ left}, 1 − α 신뢰 수준.

가설 테스트 편집

메인 글 : 가설 테스트

이 섹션은 확장이 필요합니다. 추가하여 도움을 줄 수 있습니다. (2017 년 2 월)

두 가지 가설 검정이 특히 널리 사용됩니다. 먼저, 추정 된 회귀 방정식이 반응 변수의 모든 값이 표본 평균과 같다고 단순히 예측하는 것보다 더 나은지 알고 싶어합니다 (그렇지 않으면 설명력이 없다고합니다). 추정 된 회귀의 설명 값이 없다는 귀무 가설은 F- 검정을 사용하여 검정됩니다. 계산 된 F- 값이 사전 선택된 유의 수준에 대한 임계 값을 초과 할만큼 충분히 큰 것으로 확인되면 귀무 가설이 거부되고 회귀에 설명력이 있다는 대립 가설이 허용됩니다. 그렇지 않으면 설명력이 없다는 귀무 가설이 허용됩니다.

두 번째로 관심있는 각 설명 변수에 대해 추정 계수가 0과 크게 다른지, 즉이 특정 설명 변수가 사실은 반응 변수를 예측하는 데 설명력이 있습니다. 여기서 귀무 가설은 실제 계수가 0이라는 것입니다. 이 가설은 계수 추정치와 표준 오차의 비율로 계수의 t- 통계를 계산하여 테스트합니다. t- 통계가 미리 결정된 값보다 크면 귀무 가설은 기각되고 변수는 계수가 0과 크게 다른 설명력. 그렇지 않으면 실제 계수의 0 값에 대한 귀무 가설이 허용됩니다.

또한 Chow 테스트는 두 개의 하위 샘플이 모두 값을 갖는지 여부를 테스트하는 데 사용됩니다. 동일한 기본 실제 계수 값. 각 부분 집합과 결합 된 데이터 집합에 대한 회귀 잔차 제곱의 합은 F- 통계를 계산하여 비교됩니다. 이것이 임계 값을 초과하는 경우 두 부분 집합간에 차이가 없다는 귀무 가설 거부됩니다. 그렇지 않으면 승인됩니다.

답글 남기기

이메일 주소를 발행하지 않을 것입니다. 필수 항목은 *(으)로 표시합니다