通常の最小二乗

AssumptionsEdit

関連項目:線形回帰§仮定

線形回帰モデルをキャストできるフレームワークはいくつかあります。 OLS手法を適用可能にするため。これらの各設定は、同じ式と同じ結果を生成します。唯一の違いは、メソッドが意味のある結果を出すために課されなければならない解釈と仮定です。適用可能なフレームワークの選択は、主に手元のデータの性質と、実行する必要のある推論タスクに依存します。

解釈の違いの1つは、リグレッサーをランダムとして扱うかどうかです。変数、または事前定義された定数として。最初のケース(ランダム設計)では、観測研究のように、回帰子xiがランダムであり、一部の母集団からのyiと一緒にサンプリングされます。このアプローチにより、推定量の漸近特性のより自然な研究が可能になります。他の解釈では(固定設計)、リグレッサーXは設計によって設定された既知の定数として扱われ、yは実験のようにXの値で条件付きでサンプリングされます。実際の目的では、推定と推論が実行されるため、この区別は重要ではないことがよくあります。この記事に記載されているすべての結果は、ランダム設計フレームワーク内にあります。

古典的な線形回帰モデル編集

古典的なモデルは、「有限サンプル」の推定と推論に焦点を当てています。これは、観測数nが固定されていることを意味します。これは、OLSの漸近的振る舞いを研究し、観測数を無限に増やすことができる他のアプローチとは対照的です。

即時の結果外因性の仮定は、エラーの平均がゼロ(E = 0)であり、回帰子がエラー(E = 0)と無相関であるということです。外因性の仮定はOLS理論にとって重要です。それが成り立つ場合、リグレッサー変数は外因性と呼ばれます。そうでない場合、誤差項と相関する回帰子は内因性と呼ばれ、OLS推定は無効になります。そのような場合、操作変数の方法を使用して推論を実行できます。通常、これも想定されます。回帰子は少なくとも2次モーメントまで有限のモーメントを持ちます。その場合、行列Qxx = Eは有限で正の半確定です。この仮定に違反すると、回帰子は線形依存または完全に多重共線と呼ばれます。このような場合、の値は回帰係数βは学習できませんが、同じ線形依存部分空間にある回帰子の新しい値に対してy値の予測は可能です。

  • 球面誤差:Var⁡=σ2In、{\ displaystyle \ operatorname {Var} = \ sigma ^ {2} I_ {n}、}

ここで、Inは次元nの同一性行列であり、σ2は各観測値の分散を決定するパラメーターです。 σ2は、モデルでは厄介なパラメータと見なされます。通常はそれも推定されます。この仮定に違反した場合、OLS推定は引き続き有効ですが、効率的ではなくなります。この仮定を2つの部分に分割するのが通例です。

  • 等分散性:E =σ2。これは、誤差項が各観測値で同じ分散σ2を持つことを意味します。この要件に違反した場合、これは不均一分散と呼ばれ、そのような場合、より効率的な推定量は最小二乗法で重み付けされます。エラーに無限の分散がある場合、OLS推定値にも無限の分散があります(ただし、大数の法則により、エラーの平均がゼロである限り、それらは真の値に向かう傾向があります)。この場合、ロバスト推定手法が推奨されます。
  • 自己相関なし:誤差は観測値間で無相関です:i≠jの場合はE = 0。この仮定は、時系列データ、パネルデータ、クラスターサンプル、階層データ、反復測定データ、縦断的データ、および依存関係のあるその他のデータのコンテキストでは違反する可能性があります。このような場合、一般化最小二乗法は、OLSよりも優れた代替手段を提供します。自己相関のもう1つの表現は、シリアル相関です。

この仮定は、OLS法の有効性には必要ありませんが、必要に応じて特定の追加の有限サンプルプロパティを確立できます(特に、仮説検定)。また、エラーが正常な場合、OLS推定量は最尤推定量(MLE)と同等であるため、すべての通常の推定量のクラスで漸近的に効率的です。重要なことに、正規性の仮定は誤差項にのみ適用されます。一般的な誤解とは異なり、応答(従属)変数は正規分布である必要はありません。

独立して同一分布の(iid)編集

一部のアプリケーション、特に断面データでは、すべての観測値が独立して同一分布しているという追加の仮定が課せられます。これは、すべての観測値がランダムサンプルから取得されることを意味します。これにより、前述のすべての仮定がより単純になり、解釈が容易になります。また、このフレームワークにより、漸近的な結果(サンプルサイズn→∞)を示すことができます。これは、データ生成プロセスから新しい独立した観測値をフェッチする理論的な可能性として理解されます。この場合の仮定のリストは次のとおりです。

時系列modelEdit

有限サンプルプロパティ編集

まず、厳密な外因性の仮定の下で、OLS推定量β^ {\ displaystyle \ scriptstyle {\ hat {\ beta}}}とs2は偏りがなく、期待値がパラメーターの真の値と一致することを意味します:

E⁡=β、E⁡=σ2。 {\ displaystyle \ operatorname {E} = \ beta、\ quad \ operatorname {E} = \ sigma ^ {2}。}

厳密な外因性が成り立たない場合(多くの時系列モデルの場合のように、ここで外因性は過去のショックに関してのみ想定され、将来のショックに関しては想定されません)、これらの推定量は有限サンプルでバイアスされます。

β^ {\の分散共分散行列(または単に共分散行列) displaystyle \ scriptstyle {\ hat {\ beta}}}は

に等しいVar⁡=σ2(XTX)− 1 =σ2Q。 {\ displaystyle \ operatorname {Var} = \ sigma ^ {2}(X ^ {T} X)^ {-1} = \ sigma ^ {2} Q。}

特に、各係数の標準誤差β^ j {\ displaystyle \ scriptstyle {\ hat {\ beta}} _ {j}}は、この行列のj番目の対角要素の平方根に等しくなります。この標準誤差の推定値は、未知の量σ2をその推定値s2で置き換えることによって得られます。したがって、

s。 e。 ^(β^ j)= s 2(XTX)jj − 1 {\ displaystyle {\ widehat {\ operatorname {s。\!e。}}}({\ hat {\ beta}} _ {j})= { \ sqrt {s ^ {2}(X ^ {T} X)_ {jj} ^ {-1}}}}Cov⁡= 0。{\ displaystyle \ operatorname {Cov} = 0。}

ガウス–マルコフの定理は、球面誤差の仮定(つまり、誤差は無相関で同質である必要があります)の下で、推定量β^ {\ displaystyle \ scriptstyle {\ hat {\ beta}}}が線形不偏推定量のクラスで効率的であると述べています。これは、最良の線形不偏推定器(BLUE)と呼ばれます。効率は、yで線形で偏りのない他の推定量β〜 {\ displaystyle \ scriptstyle {\ tilde {\ beta}}}を見つけるかのように理解する必要があります。その後、

Var⁡−Var⁡≥0 {\ displaystyle \ operatorname {Var}-\ operatorname {Var} \ geq 0}

これが非負の行列であるという意味で。この定理は、線形不偏推定量のクラスでのみ最適性を確立しますが、これは非常に制限的です。誤差項εの分布によっては、他の非線形推定量がOLSよりも良い結果を提供する場合があります。

normalityEditを想定

これまでにリストされたプロパティは、誤差項の基本的な分布。ただし、正規性の仮定が成り立つ(つまり、ε〜N(0、σ2In))と仮定する場合は、OLS推定量の追加のプロパティを指定できます。

推定量β^ {\ displaystyle \ scriptstyle {\ hat {\ beta}}}は正規分布であり、平均と分散は前述のとおりです。

β^ 〜N(β、σ2(XTX)− 1){\ displaystyle {\ハット{\ beta}} \ \ sim \ {\ mathcal {N}} {\ big(} \ beta、\ \ sigma ^ {2}(X ^ {\ mathrm {T}} X)^ {-1} { \ big)}}

ここで、Qは補因子行列です。この推定量は、モデルのクラメール・ラオ限界に到達するため、すべての不偏推定量のクラスで最適です。ガウス-マルコフの定理とは異なり、この結果は線形推定量と非線形推定量の両方の間で最適性を確立しますが、正規分布の誤差項の場合のみです。

推定量s2はカイ2乗に比例します。二乗分布:

s 2〜σ2 n −p⋅χn− p 2 {\ displaystyle s ^ {2} \ \ sim \ {\ frac {\ sigma ^ {2}} {np}} \ cdot \ chi _ {np} ^ {2}}

この推定量の分散は2σ4/(n− p)に等しく、2σ4/ nのクラメール-ラオ限界に達していません。ただし、分散が推定量s2よりも小さいσ2の不偏推定量は存在しないことが示されました。偏りのある推定量を許可し、モデルの残差の2乗の合計(SSR)に比例する推定量のクラスを検討する場合、このクラスで最良の(平均二乗誤差の意味での)推定量は次のようになります。 〜σ2 = SSR /(n − p + 2)、これは、リグレッサーが1つしかない場合(p = 1)の場合でもクラメール-ラオ限界を上回ります。

影響力のある観測編集

主な記事:影響力のある観察
参照:レバレッジ(統計)

前述のように、推定量β^ {\ displaystyle {\ hat {\ beta}}}は線形ですyは、従属変数yiの線形の組み合わせを表すことを意味します。この線形結合の重みは、回帰子Xの関数であり、一般に等しくありません。重みの高い観測値は、推定量の値により顕著な影響を与えるため、影響力があると呼ばれます。

どの観測値が影響力があるかを分析するために、特定のj番目の観測値を削除し、推定量がどの程度変化するかを検討します(ジャックナイフ法と同様)。 βのOLS推定量の変化は、

β^(j)−β ^ = − 1 1 − hj(XTX)−1xjTε^ j、{\ displaystyle {に等しくなることを示すことができます。 \ hat {\ beta}} ^ {(j)}-{\ hat {\ beta}} =-{\ frac {1} {1-h_ {j}}}(X ^ {\ mathrm {T}} X )^ {-1} x_ {j} ^ {\ mathrm {T}} {\ hat {\ varepsilon}} _ {j} \ ,,}

ここで、hj = xjT(XTX)-1xjはj-ハット行列Pの対角要素。xjは、j番目の観測値に対応する回帰子のベクトルです。同様に、データセットからその観測値を省略した結果として生じるj番目の観測値の予測値の変化は、

y ^ j(j)− y ^ j =xjTβ^(j)− xjTに等しくなります。 β^ = − hj 1 −hjε ^ j {\ displaystyle {\ hat {y}} _ {j} ^ {(j)}-{\ hat {y}} _ {j} = x_ {j} ^ { \ mathrm {T}} {\ hat {\ beta}} ^ {(j)}-x_ {j} ^ {T} {\ hat {\ beta}} =-{\ frac {h_ {j}} {1 -h_ {j}}} \、{\ hat {\ varepsilon}} _ {j}}

ハット行列のプロパティから、0≤hj≤1であり、合計するとpになるため、平均してhj≈p/ n。これらの量hjはレバレッジと呼ばれ、hjが高い観測値はレバレッジポイントと呼ばれます。通常、レバレッジの高い観測値は、誤っている場合や外れ値の場合、またはその他の方法でデータセットの他の部分とは異なる場合に備えて、より慎重に精査する必要があります。

分割回帰編集

回帰の変数と対応するパラメータを論理的に2つのグループに分割できる場合があります。そのため、回帰は次のようになります。

y =X1β1+X2β2+ε、{\ displaystyle y = X_ {1 } \ beta _ {1} + X_ {2} \ beta _ {2} + \ varepsilon、}

ここで、X1とX2の次元はn×p1、n×p2、β1、β2はp1×1とp2です。 ×1ベクトル、p1 + p2 = p。

M 1 y = M 1X2β2+η、{\ displaystyle M_ {1} y = M_ {1} X_ {2} \ beta _ {2 } + \ eta \ ,,}

ここで、M1は回帰子X1の消滅行列です。

この定理を使用して、いくつかの理論的結果を確立できます。たとえば、定数と別の回帰変数を使用して回帰を行うことは、従属変数と回帰変数から平均を減算し、平均値を取り除いた変数に対して回帰を実行することと同じですが、定数項はありません。

制約付き推定編集

主な記事:リッジ回帰

回帰の係数が線形連立方程式を満たすことがわかっていると仮定します

A:QTβ= c、{\ displaystyle A \ Colon \ quad Q ^ {T} \ beta = c、\、}

ここで、Qはフルランクのap×q行列であり、cは既知の定数のaq×1ベクトルです。ここでq < p。この場合、最小二乗推定は、制約Aの対象となるモデルの残差平方和を最小化することと同等です。制約付き最小二乗(CLS)推定量は、次の明示的な式で与えることができます。

β^ c =β^ −(XTX)− 1 Q(QT(XTX)− 1 Q)− 1(QTβ^ − c)。 {\ displaystyle {\ hat {\ beta}} ^ {c} = {\ hat {\ beta}}-(X ^ {T} X)^ {-1} Q {\ Big(} Q ^ {T}( X ^ {T} X)^ {-1} Q {\ Big)} ^ {-1}(Q ^ {T} {\ hat {\ beta}}-c)。}

制約付きのこの式行列XTXが可逆である限り、推定量は有効です。この記事の冒頭から、この行列はフルランクであると想定されており、ランク条件が失敗すると、βは識別できないことに注意してください。ただし、制限Aを追加すると、βが識別可能になる場合があります。その場合、推定量の式を見つけたいと思います。推定量は次のようになります

β^ c = R(RTXTXR)− 1 RTXT y +(I p − R(RTXTXR)− 1 RTXTX)Q(QTQ)− 1 c、{\ displaystyle {\ hat {\ベータ}} ^ {c} = R(R ^ {T} X ^ {T} XR)^ {-1} R ^ {T} X ^ {T} y + {\ Big(} I_ {p} -R( R ^ {T} X ^ {T} XR)^ {-1} R ^ {T} X ^ {T} X {\ Big)} Q(Q ^ {T} Q)^ {-1} c、}

ここで、Rはap×(p− q)行列であり、行列は非特異であり、RTQ = 0です。このような行列は、一般に一意ではありませんが、常に見つけることができます。 XTXが可逆である場合、2番目の式は最初の式と一致します。

大きなサンプルプロパティ編集

最小二乗推定量は、線形回帰モデルパラメーターβの点推定です。ただし、一般的に、これらの推定値がパラメーターの真の値にどれだけ近いかを知りたいと思います。言い換えると、区間推定を作成したいと思います。

誤差項εiの分布については何も仮定していないため、推定量の分布を推測することはできません。β^ {\ displaystyle {\ hat {\ beta}}}およびσ^ 2 {\ displaystyle {\ hat {\ sigma}} ^ {2}}。それでも、サンプルサイズnが次のようになると、中央限界定理を適用して、それらの漸近特性を導出できます。無限大。サンプルサイズは必然的に有限ですが、OLS推定量の真の分布がその漸近限界に近づくように、nは「十分に大きい」と想定するのが通例です。

(β^ −β)→d N(0、σ2Qxx − 1)、{\ displaystyle({\ hat {\ beta}}-\ beta)\ {\ xrightarrow {d}} \ { \ mathcal {N}} {\ big(} 0、\; \ sigma ^ {2} Q_ {xx} ^ {-1} {\ big)}、}

ここで、Q xx = XTX。 {\ displaystyle Q_ {xx} = X ^ {T} X。}

IntervalsEdit

主な記事:信頼区間と予測区間

この漸近分布の使用、ベクトルのj番目の成分の近似両側信頼区間β^ {\ displaystyle {\ hat {\ beta}}}は、次のように構成できます。

βj∈jj] {\ displaystyle \ beta _ { j} \ in {\ bigg _ {jj}}} \ {\ bigg]}} 1 −α信頼水準で

ここで、qは標準正規分布の量子関数を示し、jjはj番目の対角線です。行列の要素。

同様に、σ2の最小二乗推定量も一貫しており、漸近的に正規(εiの4番目のモーメントが存在する場合)であり、分布が制限されています

(σ^ 2 −σ2 )→d N(0、E⁡−σ4)。 {\ displaystyle({\ hat {\ sigma}} ^ {2}-\ sigma ^ {2})\ {\ xrightarrow {d}} \ {\ mathcal {N}} \ left(0、\; \ operatorname { E} \ left- \ sigma ^ {4} \ right)。}(y ^ 0 − y 0)→d N(0、σ2×0 TQ xx − 1 x 0)、{\ displaystyle \ left({\ハット{y}} _ {0} -y_ {0} \ right)\ {\ xrightarrow {d}} \ {\ mathcal {N}} \ left(0、\; \ sigma ^ {2} x_ {0} ^ {\ mathrm {T}} Q_ {xx} ^ {-1} x_ {0} \ right)、}

これにより平均応答y0 {\ displaystyle y_ {0}}の信頼区間を構築できます:

y0∈{\ displaystyle y_ {0} \ in \ left}、1 −αの信頼水準。

仮説検定編集

主な記事:仮説検定

このセクションは拡張する必要があります。あなたはそれに追加することによって助けることができます。 (2017年2月)

2つの仮説検定が特に広く使用されています。まず、推定された回帰方程式が、応答変数のすべての値がその標本平均に等しいと単純に予測するよりも優れているかどうかを知りたいです(そうでない場合は、説明力がないと言われます)。推定された回帰の説明値がないという帰無仮説は、F検定を使用して検定されます。計算されたF値が、事前に選択された有意水準の臨界値を超えるのに十分な大きさであることが判明した場合、帰無仮説は棄却され、回帰に説明力があるという対立仮説が受け入れられます。それ以外の場合は、説明力がないという帰無仮説が受け入れられます。

次に、対象の説明変数ごとに、推定係数がゼロと大幅に異なるかどうか、つまり、この特定の説明変数が事実は、応答変数を予測する上で説明力があります。ここで、帰無仮説は、真の係数がゼロであるというものです。この仮説は、係数の推定値とその標準誤差の比率として、係数のt統計量を計算することによってテストされます。t統計量が所定の値より大きい場合、null仮説は棄却され、変数は次のようになります。係数がゼロとは大幅に異なる説明力。それ以外の場合は、真の係数がゼロであるというヌル仮説が受け入れられます。

さらに、Chowテストを使用して、2つのサブサンプルの両方に同じ基礎となる真の係数値。各サブセットと結合されたデータセットの回帰の残差の2乗の合計は、F統計量を計算することによって比較されます。これが臨界値を超える場合、2つのサブセット間に差がないというヌル仮説拒否されます。それ以外の場合は受け入れられます。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です