Moindres carrés ordinaires

novembre 13, 2020

Moindres carrés ordinaires

AssumptionsEdit

Voir aussi: Régression linéaire § Hypothèses

Il existe plusieurs cadres différents dans lesquels le modèle de régression linéaire peut être transtypé afin de rendre la technique OLS applicable. Chacun de ces paramètres produit les mêmes formules et les mêmes résultats. La seule différence est linterprétation et les hypothèses qui doivent être imposées pour que la méthode donne des résultats significatifs. Le choix du cadre applicable dépend principalement de la nature des données en main, et de la tâche dinférence qui doit être effectuée.

Lune des lignes de différence dinterprétation est de savoir sil faut traiter les régresseurs comme aléatoires variables, ou comme constantes prédéfinies. Dans le premier cas (plan aléatoire), les régresseurs xi sont aléatoires et échantillonnés avec les yi dune certaine population, comme dans une étude observationnelle. Cette approche permet une étude plus naturelle des propriétés asymptotiques des estimateurs. Dans lautre interprétation (plan fixe), les régresseurs X sont traités comme des constantes connues fixées par un plan, et y est échantillonné conditionnellement sur les valeurs de X comme dans une expérience. Pour des raisons pratiques, cette distinction est souvent sans importance, car lestimation et linférence sont effectuées tout en conditionnant sur X. Tous les résultats énoncés dans cet article sont dans le cadre de la conception aléatoire.

Modèle de régression linéaire classiqueModifier

Le modèle classique se concentre sur lestimation et linférence «à échantillon fini», ce qui signifie que le nombre dobservations n est fixe, ce qui contraste avec les autres approches, qui étudient le comportement asymptotique de lOLS, et dans lesquelles le nombre dobservations peut croître jusquà linfini.

Lhypothèse dexogénéité est que les erreurs ont une moyenne de zéro: E = 0, et que les régresseurs ne sont pas corrélés avec les erreurs: E = 0. Lhypothèse dexogénéité est critique pour la théorie OLS. Si cest le cas, les variables de régression sont dites exogènes. Si ce nest pas le cas, les régresseurs qui sont corrélés au terme derreur sont appelés endogènes, et les estimations MCO deviennent alors invalides. Dans ce cas, la méthode des variables instrumentales peut être utilisée pour effectuer des inférences. Habituellement, elle est également supposée que les régresseurs ont des moments finis jusquà au moins le second moment. Alors la matrice Qxx = E est finie et semi-définie positive. Lorsque cette hypothèse est violée, les régresseurs sont appelés linéairement dépendants ou parfaitement multicollinéaires. Dans ce cas, la valeur de la le coefficient de régression β ne peut pas être appris, bien que la prédiction des valeurs y soit toujours possible pour les nouvelles valeurs des régresseurs qui se trouvent dans le même sous-espace linéairement dépendant.

Erreurs sphériques: Var ⁡ = σ 2 I n, {\ displaystyle \ operatorname {Var} = \ sigma ^ {2} I_ {n},}

où In est la matrice didentité dans la dimension n, et σ2 est un paramètre qui détermine la variance de chaque observation. σ2 est considéré comme un paramètre de nuisance dans le modèle, bien que ough généralement il est également estimé. Si cette hypothèse nest pas respectée, les estimations OLS sont toujours valides, mais ne sont plus efficaces. Il est dusage de scinder cette hypothèse en deux parties:

Homoscédasticité: E = σ2, ce qui signifie que le terme derreur a la même variance σ2 dans chaque observation. Lorsque cette exigence nest pas respectée, on parle dhétéroscédasticité, dans ce cas, un estimateur plus efficace serait pondéré par les moindres carrés. Si les erreurs ont une variance infinie, les estimations MCO auront également une variance infinie (bien que, selon la loi des grands nombres, elles tendent néanmoins vers les vraies valeurs tant que les erreurs ont une moyenne nulle). Dans ce cas, des techniques destimation robustes sont recommandées.
Pas dautocorrélation: les erreurs ne sont pas corrélées entre les observations: E = 0 pour i ≠ j. Cette hypothèse peut être violée dans le contexte de données de séries chronologiques, de données de panel, déchantillons en grappes, de données hiérarchiques, de données de mesures répétées, de données longitudinales et dautres données avec des dépendances. Dans de tels cas, les moindres carrés généralisés constituent une meilleure alternative que lOLS. Une autre expression pour lautocorrélation est la corrélation en série.

Cette hypothèse nest pas nécessaire pour la validité de la méthode OLS, bien que certaines propriétés supplémentaires déchantillons finis puissent être établies au cas où elle le ferait (en particulier dans le domaine de test dhypothèses). De plus, lorsque les erreurs sont normales, lestimateur MCO est équivalent à lestimateur du maximum de vraisemblance (MLE), et par conséquent, il est asymptotiquement efficace dans la classe de tous les estimateurs réguliers. Surtout, lhypothèse de normalité sapplique uniquement aux termes derreur; contrairement à une idée fausse répandue, il nest pas nécessaire que la variable de réponse (dépendante) soit normalement distribuée.

Edition indépendante et distribuée de manière identique (iid)

Dans certaines applications, en particulier avec des données transversales, une hypothèse supplémentaire est imposée: toutes les observations sont indépendantes et distribuées de manière identique.Cela signifie que toutes les observations sont tirées dun échantillon aléatoire, ce qui rend toutes les hypothèses énumérées plus haut plus simples et plus faciles à interpréter. Ce cadre permet également dénoncer des résultats asymptotiques (comme la taille de léchantillon n → ∞), qui sont compris comme une possibilité théorique dextraire de nouvelles observations indépendantes du processus de génération de données. La liste des hypothèses dans ce cas est:

Modèle de séries temporellesEdit

Propriétés de léchantillon finiEdit

Tout dabord, sous lhypothèse dexogénéité stricte, les estimateurs OLS β ^ {\ displaystyle \ scriptstyle {\ hat {\ beta}}} et s2 sont non biaisés, ce qui signifie que leurs valeurs attendues coïncident avec les vraies valeurs des paramètres:

E ⁡ = β, E ⁡ = σ 2. {\ displaystyle \ operatorname {E} = \ beta, \ quad \ operatorname {E} = \ sigma ^ {2}.}

Si lexogénéité stricte ne tient pas (comme cest le cas avec de nombreux modèles de séries chronologiques, où lexogénéité nest supposée que par rapport aux chocs passés mais pas aux chocs futurs), alors ces estimateurs seront biaisés dans des échantillons finis.

La matrice de variance-covariance (ou simplement la matrice de covariance) de β ^ {\ displaystyle \ scriptstyle {\ hat {\ beta}}} est égal à

Var ⁡ = σ 2 (XTX) – 1 = σ 2 Q. {\ displaystyle \ operatorname {Var} = \ sigma ^ {2} (X ^ {T} X) ^ {- 1} = \ sigma ^ {2} Q.}

En particulier, lerreur standard de chaque coefficient β ^ j {\ displaystyle \ scriptstyle {\ hat {\ beta}} _ {j}} est égal à la racine carrée du j-ième élément diagonal de cette matrice. Lestimation de cette erreur type est obtenue en remplaçant linconnue σ2 par son estimation s2. Ainsi,

s. e. ^ (β ^ j) = s 2 (XTX) jj – 1 {\ displaystyle {\ widehat {\ operatorname {s. \! e.}}} ({\ hat {\ beta}} _ {j}) = { \ sqrt {s ^ {2} (X ^ {T} X) _ {jj} ^ {- 1}}}} Cov ⁡ = 0. {\ displaystyle \ operatorname {Cov} = 0.}

Le Gauss –Le théorème de Markov stipule que sous lhypothèse des erreurs sphériques (cest-à-dire que les erreurs doivent être non corrélées et homoscédastiques), lestimateur β ^ {\ displaystyle \ scriptstyle {\ hat {\ beta}}} est efficace dans la classe des estimateurs linéaires sans biais. Cest ce quon appelle le meilleur estimateur linéaire sans biais (BLEU). Lefficacité doit être comprise comme si nous devions trouver un autre estimateur β ~ {\ displaystyle \ scriptstyle {\ tilde {\ beta}}} qui serait linéaire en y et sans biais, alors

Var ⁡ – Var ⁡ ≥ 0 {\ displaystyle \ operatorname {Var} – \ operatorname {Var} \ geq 0}

dans le sens où il sagit dune matrice définie non négative. Ce théorème nétablit loptimalité que dans la classe des estimateurs linéaires sans biais, ce qui est assez restrictif. En fonction de la distribution des termes derreur ε, dautres estimateurs non linéaires peuvent fournir de meilleurs résultats que OLS.

En supposant que normalityEdit

Les propriétés répertoriées jusquà présent sont toutes valides quel que soit le distribution sous-jacente des termes derreur. Cependant, si vous êtes prêt à supposer que lhypothèse de normalité est vraie (cest-à-dire que ε ~ N (0, σ2In)), alors des propriétés supplémentaires des estimateurs OLS peuvent être énoncées.

Lestimateur β ^ {\ displaystyle \ scriptstyle {\ hat {\ beta}}} est normalement distribué, avec une moyenne et une variance comme indiqué précédemment:

β ^ ∼ N (β, σ 2 (XTX) – 1) {\ displaystyle {\ chapeau {\ beta}} \ \ sim \ {\ mathcal {N}} {\ big (} \ beta, \ \ sigma ^ {2} (X ^ {\ mathrm {T}} X) ^ {- 1} { \ big)}}

où Q est la matrice du cofacteur. Cet estimateur atteint la borne de Cramér – Rao pour le modèle et est donc optimal dans la classe de tous les estimateurs sans biais. Notez que contrairement au théorème de Gauss – Markov, ce résultat établit loptimalité entre les estimateurs linéaires et non linéaires, mais seulement dans le cas de termes derreur normalement distribués.

Lestimateur s2 sera proportionnel au chi- distribution au carré:

s 2 ∼ σ 2 n – p ⋅ χ n – p 2 {\ displaystyle s ^ {2} \ \ sim \ {\ frac {\ sigma ^ {2}} {np}} \ cdot \ chi _ {np} ^ {2}}

La variance de cet estimateur est égale à 2σ4 / (n – p), ce qui natteint pas la borne de Cramér – Rao de 2σ4 / n. Cependant, il a été démontré quil ny a pas destimateurs sans biais de σ2 avec une variance plus petite que celle de lestimateur s2. Si nous sommes disposés à autoriser les estimateurs biaisés et à considérer la classe destimateurs proportionnels à la somme des carrés des résidus (SSR) du modèle, alors le meilleur estimateur (au sens de lerreur quadratique moyenne) de cette classe sera ~ σ2 = SSR / (n – p + 2), qui bat même la borne de Cramér – Rao dans le cas où il ny a quun seul régresseur (p = 1).

Observations influentesModifier

Article principal: Observation influente

Voir aussi: Effet de levier (statistiques)

Comme mentionné précédemment, lestimateur β ^ {\ displaystyle {\ hat {\ beta}}} est linéaire en y, ce qui signifie quil représente une combinaison linéaire des variables dépendantes yi. Les poids dans cette combinaison linéaire sont des fonctions des régresseurs X et sont généralement inégaux. Les observations avec des poids élevés sont dites influentes parce quelles ont un effet plus prononcé sur la valeur de lestimateur.

Pour analyser quelles observations sont influentes, nous supprimons une j-ème observation spécifique et considérons combien les quantités estimées vont changer (de la même manière que la méthode jackknife). On peut montrer que le changement de lestimateur OLS pour β sera égal à

β ^ (j) – β ^ = – 1 1 – hj (XTX) – 1 xj T ε ^ j, {\ displaystyle { \ hat {\ beta}} ^ {(j)} – {\ hat {\ beta}} = – {\ frac {1} {1-h_ {j}}} (X ^ {\ mathrm {T}} X ) ^ {- 1} x_ {j} ^ {\ mathrm {T}} {\ hat {\ varepsilon}} _ {j} \ ,,}

où hj = xjT (XTX) −1xj est le j- ème élément diagonal de la matrice de chapeau P, et xj est le vecteur des régresseurs correspondant à la j-ème observation. De même, le changement de la valeur prédite pour la j-ème observation résultant de lomission de cette observation de lensemble de données sera égal à

y ^ j (j) – y ^ j = xj T β ^ (j) – xj T β ^ = – hj 1 – hj ε ^ j {\ displaystyle {\ hat {y}} _ {j} ^ {(j)} – {\ hat {y}} _ {j} = x_ {j} ^ { \ mathrm {T}} {\ hat {\ beta}} ^ {(j)} – x_ {j} ^ {T} {\ hat {\ beta}} = – {\ frac {h_ {j}} {1 -h_ {j}}} \, {\ hat {\ varepsilon}} _ {j}}

À partir des propriétés de la matrice de chapeau, 0 ≤ hj ≤ 1, et ils se résument à p, de sorte quen moyenne hj ≈ p / n. Ces quantités hj sont appelées les effets de levier, et les observations avec hj élevé sont appelées points de levier. Habituellement, les observations avec un effet de levier élevé doivent être examinées plus attentivement, au cas où elles seraient erronées, ou aberrantes, ou dune autre manière atypique du reste de lensemble de données.

Régression partitionnéeEdit

Parfois, les variables et les paramètres correspondants de la régression peuvent être logiquement divisés en deux groupes, de sorte que la régression prend forme

y = X 1 β 1 + X 2 β 2 + ε, {\ displaystyle y = X_ {1 } \ beta _ {1} + X_ {2} \ beta _ {2} + \ varepsilon,}

où X1 et X2 ont des dimensions n × p1, n × p2 et β1, β2 sont p1 × 1 et p2 × 1 vecteurs, avec p1 + p2 = p.

M 1 y = M 1 X 2 β 2 + η, {\ displaystyle M_ {1} y = M_ {1} X_ {2} \ beta _ {2 } + \ eta \ ,,}

où M1 est la matrice dannihilateur pour les régresseurs X1.

Le théorème peut être utilisé pour établir un certain nombre de résultats théoriques. Par exemple, avoir une régression avec une constante et un autre régresseur équivaut à soustraire les moyennes de la variable dépendante et du régresseur, puis à exécuter la régression pour les variables dé-signifiées mais sans le terme constant.

Contrainte estimationEdit

Article principal: Régression de crête

Supposons que lon sache que les coefficients de la régression satisfont à un système déquations linéaires

A: QT β = c, {\ displaystyle A \ colon \ quad Q ^ {T} \ beta = c, \,}

où Q est une matrice ap × q de rang complet, et c est un vecteur q × 1 de constantes connues, où q < p. Dans ce cas, lestimation des moindres carrés équivaut à minimiser la somme des carrés des résidus du modèle soumis à la contrainte A. Lestimateur des moindres carrés contraints (CLS) peut être donné par une formule explicite:

β ^ c = β ^ – (XTX) – 1 Q (QT (XTX) – 1 Q) – 1 (QT β ^ – c). {\ displaystyle {\ hat {\ beta}} ^ {c} = {\ hat {\ beta}} – (X ^ {T} X) ^ {- 1} Q {\ Big (} Q ^ {T} ( X ^ {T} X) ^ {- 1} Q {\ Big)} ^ {- 1} (Q ^ {T} {\ hat {\ beta}} – c).}

Cette expression pour la contrainte Lestimateur est valide tant que la matrice XTX est inversible. On a supposé dès le début de cet article que cette matrice était de rang complet, et il a été noté que lorsque la condition de rang échoue, β ne sera pas identifiable. Cependant il peut arriver que lajout de la restriction A rende β identifiable, auquel cas on aimerait trouver la formule de lestimateur. Lestimateur est égal à

β ^ c = R (RTXTXR) – 1 RTXT y + (I p – R (RTXTXR) – 1 RTXTX) Q (QTQ) – 1 c, {\ displaystyle {\ hat {\ bêta}} ^ {c} = R (R ^ {T} X ^ {T} XR) ^ {- 1} R ^ {T} X ^ {T} y + {\ Big (} I_ {p} -R ( R ^ {T} X ^ {T} XR) ^ {- 1} R ^ {T} X ^ {T} X {\ Big)} Q (Q ^ {T} Q) ^ {- 1} c,}

où R est une matrice ap × (p – q) telle que la matrice est non singulière, et RTQ = 0. Une telle matrice peut toujours être trouvée, même si généralement elle nest pas unique. La deuxième formule coïncide avec la première dans le cas où XTX est inversible.

Grand échantillon propertiesEdit

Les estimateurs des moindres carrés sont des estimations ponctuelles des paramètres du modèle de régression linéaire β. Cependant, en général, nous voulons aussi savoir à quel point ces estimations peuvent être proches des vraies valeurs des paramètres. En dautres termes, nous voulons construire les estimations dintervalle.

Comme nous navons fait aucune hypothèse sur la distribution du terme derreur εi, il est impossible de déduire la distribution des estimateurs β ^ {\ displaystyle {\ hat {\ beta}}} et σ ^ 2 {\ displaystyle {\ hat {\ sigma}}} ^ {2}}. Néanmoins, nous pouvons appliquer le théorème de limite central pour dériver leurs propriétés asymptotiques lorsque la taille de léchantillon n va à Bien que la taille de léchantillon soit nécessairement finie, il est courant de supposer que n est «suffisamment grand» pour que la vraie distribution de lestimateur MCO soit proche de sa limite asymptotique.

(β ^ – β) → d N (0, σ 2 Q xx – 1), {\ displaystyle ({\ hat {\ beta}} – \ beta) \ {\ xrightarrow {d}} \ { \ mathcal {N}} {\ big (} 0, \; \ sigma ^ {2} Q_ {xx} ^ {- 1} {\ big)},}

où Q xx = XTX. {\ displaystyle Q_ {xx} = X ^ {T} X.}

IntervalsEdit

Articles principaux: Intervalle de confiance et intervalle de prédiction

Utilisation de cette distribution asymptotique , des intervalles de confiance approximatifs bilatéraux pour la j-ième composante du vecteur β ^ {\ displaystyle {\ hat {\ beta}}} peuvent être construits comme

β j ∈ jj] {\ displaystyle \ beta _ { j} \ in {\ bigg _ {jj}}} \ {\ bigg]}} au niveau de confiance 1 – α,

où q désigne la fonction quantile de la distribution normale standard, et jj est la j-ème diagonale élément dune matrice.

De même, lestimateur des moindres carrés pour σ2 est également cohérent et asymptotiquement normal (à condition que le quatrième moment de εi existe) avec une distribution limite

(σ ^ 2 – σ 2 ) → d N (0, E ⁡ – σ 4). {\ displaystyle ({\ hat {\ sigma}} ^ {2} – \ sigma ^ {2}) \ {\ xrightarrow {d}} \ {\ mathcal {N}} \ left (0, \; \ operatorname { E} \ left- \ sigma ^ {4} \ right).} (Y ^ 0 – y 0) → d N (0, σ 2 x 0 TQ xx – 1 x 0), {\ displaystyle \ left ({\ chapeau {y}} _ {0} -y_ {0} \ right) \ {\ xrightarrow {d}} \ {\ mathcal {N}} \ left (0, \; \ sigma ^ {2} x_ {0} ^ {\ mathrm {T}} Q_ {xx} ^ {- 1} x_ {0} \ right),}

qui permet de construire des intervalles de confiance pour la réponse moyenne y 0 {\ displaystyle y_ {0}} à construire :

y 0 ∈ {\ displaystyle y_ {0} \ in \ left} au niveau de confiance 1 – α.

Test dhypothèseEdit

Article principal: Test dhypothèse

Cette section a besoin dêtre développée. Vous pouvez aider en y ajoutant. (Février 2017)

Deux tests dhypothèse sont particulièrement largement utilisés. Premièrement, on veut savoir si léquation de régression estimée vaut mieux que de simplement prédire que toutes les valeurs de la variable de réponse sont égales à sa moyenne déchantillon (sinon, on dit quelle na aucun pouvoir explicatif). Lhypothèse nulle dabsence de valeur explicative de la régression estimée est testée à laide dun test F. Si la valeur F calculée savère suffisamment grande pour dépasser sa valeur critique pour le niveau de signification pré-choisi, lhypothèse nulle est rejetée et lhypothèse alternative, que la régression a un pouvoir explicatif, est acceptée. Sinon, lhypothèse nulle dabsence de pouvoir explicatif est acceptée.

Deuxièmement, pour chaque variable explicative dintérêt, on veut savoir si son coefficient estimé diffère significativement de zéro, cest-à-dire si cette variable explicative particulière en fait a un pouvoir explicatif pour prédire la variable de réponse. Ici, lhypothèse nulle est que le vrai coefficient est nul. Cette hypothèse est testée en calculant la statistique t du coefficient « s, en tant que rapport de lestimation du coefficient à son erreur standard. Si la statistique t est supérieure à une valeur prédéterminée, lhypothèse nulle est rejetée et la variable savère avoir pouvoir explicatif, avec son coefficient significativement différent de zéro. Sinon, lhypothèse nulle dune valeur nulle du vrai coefficient est acceptée.

De plus, le test Chow est utilisé pour tester si deux sous-échantillons ont tous deux le mêmes valeurs de coefficients réels sous-jacents. La somme des carrés des résidus des régressions sur chacun des sous-ensembles et sur lensemble de données combiné est comparée en calculant une statistique F; si celle-ci dépasse une valeur critique, lhypothèse nulle dabsence de différence entre les deux sous-ensembles est rejeté; sinon, il est accepté.

admin