回帰を改善するための残差プロットの解釈
残余プロットとその診断の例
残余が何であるかわからない場合は、5分かけて上記を読んでください。ここに戻ってきてください。
以下は、不健康な残余プロットのギャラリーです。残差は、下から1つの特定のタイプ、またはいくつかの組み合わせのように見える場合があります。
以下のいずれかのように見える場合は、その残差をクリックして、何が起こっているかを理解し、修正する方法を学びます。
(全体を通して、レモネードスタンドの「収益」とその日の「温度」をデータセットの例として使用します。)
Y軸の不均衡
このプロットの詳細と修正方法を表示します。
問題
何らかの理由で、レモネードスタンドの収益は通常低いと想像してみてください。ただし、「収益」が次のようになるなど、収益が非常に高い日が時々発生します…
…次のようなより対称的でベル型の代わりに:
したがって、「温度」と「収益」は次のようになり、ほとんどのデータが下部にまとめられます…
黒い線は、モデルの方程式、つまり「温度」と「収益」の関係に関するモデルの予測を表しています。特定の「Temperature」について黒い線で行われた各予測を上で見てください(たとえば、「Temperature」30では、「Revenue」は約20と予測されます)。ドットの大部分が線より下にある(つまり、予測が高すぎる)が、いくつかのドットが線よりはるかに上にある(つまり、予測が低すぎる)ことがわかります。
同じデータを診断プロットに変換すると、方程式の予測のほとんどが少し高すぎて、一部は低すぎます。
影響
これは、ほとんどの場合、モデルを大幅に正確にすることができることを意味します。ほとんどの場合、モデルは方向的には正しいものの、改良されたバージョンと比べるとかなり不正確であることがわかります。このような問題を修正し、その結果、モデルの決定係数が0.2から0.5に(0から1のスケールで)ジャンプすることは珍しくありません。
修正方法
- これに対する解決策は、ほとんどの場合、データ(通常は応答変数)を変換することです。
- モデルに変数がない可能性もあります。
不均一分散
このプロットの詳細と修正方法を表示します。
問題
これらのプロットは「不均一分散」を示します。つまり、予測が小さいものから大きいものへ(または大きいものから小さいものへ)移動するにつれて、残差が大きくなります。
それを想像してみてください。寒い日には収益額は非常に一定ですが、暑い日には収益が非常に高くなることもあれば、非常に低くなることもあります。
次のようなプロットが表示されます。
影響
これは本質的に問題を引き起こしませんが、多くの場合、モデルを改善できることを示しています。
ここでの唯一の例外は、サンプルサイズが250未満で、以下を使用して問題を修正できない場合、p値が本来よりも少し高いまたは低い可能性があることです。重要度の境界にある変数は、誤ってその境界の反対側に配置される可能性があります。ただし、回帰係数(「温度」が1つ上がると「収益」の単位数が変化します)は正確です。
修正方法
- 最も頻繁に成功する解決策は、変数を変換することです。
- 多くの場合、不均一分散は変数が欠落していることを示します。
非線形
このプロットの詳細と修正方法を表示します。
問題
寒い日にはレモネードを売るのが難しく、暖かい日には売るのが簡単で、非常に暑い日には売るのが難しいと想像してみてください(おそらく、非常に暑い日に家を出る人がいないためです)
そのプロットは次のようになります:
線で表されるモデル、ひどいです。予測は大きく外れます。つまり、モデルは「温度」と「収益」の関係を正確に表していないことになります。
したがって、残差は次のようになります。
影響
上記の例のようにモデルがかなり離れている場合、予測はかなり価値がありません(そして気付くでしょう)上記の0.027r-squaredのように、非常に低いr-squared)。
場合によっては、わずかに最適ではない適合でも、完全ではない場合でも、関係の一般的な感覚が得られます。以下:
そのモデルはかなり正確に見えます。よく見ると(または残差を見ると)、ここに少しパターンがあることがわかります。ドットは曲線上にあり、線が完全には一致していません。
それは重要ですか?それはあなた次第です。関係をすばやく理解している場合、直線はかなり適切な近似値です。説明ではなく予測にこのモデルを使用する場合、最も正確な可能なモデルがおそらくその曲線を説明します。
修正方法
- 次のようなパターンもあります。これは、変数を変換する必要があることを示しています。
- パターンが実際にこれらの例のように明確である場合は、おそらく非線形モデルを作成する必要があります(思ったほど難しくはありません)。
- または、いつものように、問題が変数の欠落である可能性があります。
外れ値
このプロットの詳細と修正方法を表示します。
問題
データポイントの1つに通常の20秒と30秒ではなく80の「温度」がある場合はどうなりますか?プロットは次のようになります。
この回帰には、入力変数「Temperature」の外れ値データポイントがあります(入力変数の外れ値は「レバレッジポイント」とも呼ばれます)。
データポイントの1つに通常の20ドルから60ドルではなく、160ドルの収益がある場合はどうなりますか?プロットは次のようになります。
この回帰には、出力変数「Revenue」に範囲外のデータポイントがあります。
影響
統計iQは、通常、出力の外れ値の影響を受けないタイプの回帰を実行します( 160ドルの収益がある日のように)、ただし、入力の外れ値(80年代の「温度」など)の影響を受けます。最悪の場合、モデルはピボットして、に近づくことを犠牲にしてそのポイントに近づこうとする可能性があります。他のすべてのものは、次のように完全に間違っていることになります:
青い線はおそらくモデルをどのように見せたいかであり、赤い線は「温度」80で外れ値がある場合に表示される可能性のあるモデルです。
修正方法
- これは測定エラーまたはデータ入力エラーである可能性があり、外れ値が間違っている場合は削除する必要があります。
- ほんの数個の外れ値のように見えるのは、実際には配電である可能性があります。変数の1つが非対称分布である場合(つまり、リモートでベル型ではない場合)、変数の変換を検討してください。
- それが本当に正当な外れ値である場合は、外れ値の影響を評価する必要があります。
大きなY軸データポイント
このプロットの詳細と修正方法を表示します。
問題
近くに2つの競合するレモネードスタンドがあると想像してください。ほとんどの場合、1つだけが稼働しています。その場合、収益は一貫して良好です。どちらもアクティブではなく、収益が急増することもあります。それ以外の場合は、両方がアクティブで収益が急落します。
「収益」と「温度」は次のようになります…
…その上の行は他のスタンドが表示されない日であり、下の行は他の両方のスタンドが営業している日です。
その結果、次の残差プロットが作成されます。
つまり、0の両側に、10以上の残差を持つかなりの数のデータポイントがあります。モデルがかなり離れていると言います。
「アクティブなレモネードスタンドの数」という変数のデータを毎日収集した場合、その変数をモデルに追加すると、この問題は修正されます。 。しかし、多くの場合、必要なデータ(または必要な変数の種類についての推測さえ)がありません。
影響
モデルは無価値ではありませんが、必要なすべての変数がある場合ほど良くはありません。それでも使用でき、次のように言うことができます。「このモデルはかなりほとんどの場合正確ですが、それから時々それはかなり離れています。」それは役に立ちますか?おそらく、それはあなたの決定であり、モデルに基づいてどのような決定を行おうとしているのかによって異なります。
修正方法
- このアプローチではうまくいきませんが、上記の特定の例で作業する場合、変数を有効に変換する機会があるかどうかを確認することはほとんどの場合価値があります。
- それでも機能しない場合は、変数の欠落の問題に対処する必要があります。 。
X軸の不均衡
このプロットの詳細と修正方法を表示します。
問題
「収益」が、「気温」だけでなく、近くの「足のトラフィック」によって引き起こされていると想像してみてください。何らかの理由で、レモネードスタンドの収益は通常低いと想像してみてください。しかし、収益が次のようになるような非常に高い収益の日が時々発生します…
…このような対称的でベル型の代わりに:
つまり、「フットトラフィック」と「収益」は次のようになります。ほとんどのデータは左側にまとめられています。
黒い線はモデル方程式、「足のトラフィック」と「収益」の関係のモデルの予測。モデルでは、「足のトラフィック」が0であるか、たとえば100または1,000であるかを実際に区別できないことがわかります。これらの値のそれぞれについて、53ドル近くの収益を予測します。
同じデータを診断プロットに変換する:
影響
モデルに実際には何の問題もない場合もあります。上記の例では、これが適切なモデルではないことは明らかですが、偏残差プロットが不均衡で、モデルが非常に優れている場合があります。
唯一の方法は、a)変換を試すことです。データを改善できるかどうかを確認し、b)予測と実際のプロットを見て、上記の例のように(ただし、以下の例とは異なり)、多くのデータポイントで予測が大幅にずれているかどうかを確認します。
残差を不均衡にすることはできず、それでも正確であるという明確なルールはありませんが(実際、このモデルは非常に正確です)、多くの場合、x軸の不均衡な残差は、モデルを大幅に正確にすることができることを意味します。ほとんどの場合、モデルは方向的には正しいものの、改良されたバージョンと比べるとかなり不正確であることがわかります。このような問題を修正し、その結果、モデルの決定係数が0.2から0.5に(0から1のスケールで)ジャンプすることは珍しくありません。