Mínimos cuadrados ordinarios

SupuestosEditar

Ver también: Regresión lineal § Supuestos

Hay varios marcos diferentes en los que el modelo de regresión lineal se puede convertir en para hacer aplicable la técnica OLS. Cada una de estas configuraciones produce las mismas fórmulas y los mismos resultados. La única diferencia es la interpretación y los supuestos que deben imponerse para que el método dé resultados significativos. La elección del marco aplicable depende principalmente de la naturaleza de los datos disponibles y de la tarea de inferencia que se debe realizar.

Una de las líneas de diferencia en la interpretación es si se deben tratar los regresores como aleatorios. variables, o como constantes predefinidas. En el primer caso (diseño aleatorio) los regresores xi son aleatorios y se muestrean junto con los yi «s de alguna población, como en un estudio observacional. Este enfoque permite un estudio más natural de las propiedades asintóticas de los estimadores. En la otra interpretación (diseño fijo), los regresores X se tratan como constantes conocidas establecidas por un diseño, y y se muestrea condicionalmente en los valores de X como en un experimento. Para propósitos prácticos, esta distinción a menudo no es importante, ya que la estimación y la inferencia se llevan a cabo mientras se condiciona en X. Todos los resultados indicados en este artículo están dentro del marco de diseño aleatorio.

Modelo de regresión lineal clásicoEditar

El modelo clásico se centra en la estimación e inferencia de «muestras finitas», lo que significa que el número de observaciones n es fijo. Esto contrasta con los otros enfoques, que estudian el comportamiento asintótico de OLS, y en los que se permite que el número de observaciones crezca hasta el infinito.

La consecuencia inmediata El principio de la suposición de exogeneidad es que los errores tienen una media de cero: E = 0, y que los regresores no están correlacionados con los errores: E = 0. La suposición de exogeneidad es fundamental para la teoría de MCO. Si se cumple, las variables regresoras se denominan exógenas. Si no es así, los regresores que están correlacionados con el término de error se denominan endógenos y las estimaciones de MCO se vuelven inválidas. En tal caso, el método de variables instrumentales se puede utilizar para realizar inferencias. Por lo general, también se asume que los regresores tienen momentos finitos hasta al menos el segundo momento. Entonces la matriz Qxx = E es finita y semidefinida positiva. Cuando se viola este supuesto, los regresores se denominan linealmente dependientes o perfectamente multicolineales. En tal caso, el valor de la El coeficiente de regresión β no se puede aprender, aunque la predicción de los valores de y todavía es posible para los nuevos valores de los regresores que se encuentran en el mismo subespacio linealmente dependiente.

  • Errores esféricos: Var ⁡ = σ 2 I n, {\ displaystyle \ operatorname {Var} = \ sigma ^ {2} I_ {n},}

donde In es la matriz de identidad en la dimensión n, y σ2 es un parámetro que determina la varianza de cada observación. σ2 se considera un parámetro molesto en el modelo, aunque aunque normalmente también se estima. Si se viola esta suposición, las estimaciones de MCO siguen siendo válidas, pero ya no son eficientes. Es costumbre dividir este supuesto en dos partes:

  • Homoscedasticidad: E = σ2, lo que significa que el término de error tiene la misma varianza σ2 en cada observación. Cuando se infringe este requisito, esto se denomina heterocedasticidad, en tal caso, un estimador más eficiente serían los mínimos cuadrados ponderados. Si los errores tienen una varianza infinita, entonces las estimaciones de MCO también tendrán una varianza infinita (aunque según la ley de los grandes números, no obstante, tenderán hacia los valores verdaderos siempre que los errores tengan una media cero). En este caso, se recomiendan técnicas de estimación robustas.
  • Sin autocorrelación: los errores no están correlacionados entre las observaciones: E = 0 para i ≠ j. Esta suposición puede violarse en el contexto de datos de series de tiempo, datos de panel, muestras de grupos, datos jerárquicos, datos de medidas repetidas, datos longitudinales y otros datos con dependencias. En tales casos, los mínimos cuadrados generalizados proporcionan una mejor alternativa que el OLS. Otra expresión para la autocorrelación es la correlación serial.

Esta suposición no es necesaria para la validez del método MCO, aunque se pueden establecer ciertas propiedades adicionales de muestra finita en caso de que lo haga (especialmente en el área de prueba de hipótesis). Además, cuando los errores son normales, el estimador MCO es equivalente al estimador de máxima verosimilitud (MLE) y, por lo tanto, es asintóticamente eficiente en la clase de todos los estimadores regulares. Es importante destacar que el supuesto de normalidad se aplica solo a los términos de error; contrariamente a un concepto erróneo popular, no se requiere que la variable de respuesta (dependiente) esté distribuida normalmente.

Edición independiente e idénticamente distribuida (iid)

En algunas aplicaciones, especialmente con datos transversales, se impone una suposición adicional: que todas las observaciones son independientes y están distribuidas de forma idéntica.Esto significa que todas las observaciones se toman de una muestra aleatoria, lo que hace que todos los supuestos enumerados anteriormente sean más simples y fáciles de interpretar. Además, este marco permite establecer resultados asintóticos (como el tamaño de muestra n → ∞), que se entienden como una posibilidad teórica de obtener nuevas observaciones independientes del proceso de generación de datos. La lista de supuestos en este caso es:

Modelo de serie temporalEditar

Propiedades de muestra finitaEditar

En primer lugar, bajo el supuesto estricto de exogeneidad los estimadores MCO β ^ {\ displaystyle \ scriptstyle {\ hat {\ beta}}} y s2 son insesgados, lo que significa que sus valores esperados coinciden con los valores verdaderos de los parámetros:

E ⁡ = β, E ⁡ = σ 2. {\ displaystyle \ operatorname {E} = \ beta, \ quad \ operatorname {E} = \ sigma ^ {2}.}

Si la exogeneidad estricta no se mantiene (como es el caso de muchos modelos de series de tiempo, donde se asume exogeneidad solo con respecto a los shocks pasados pero no a los futuros), entonces estos estimadores estarán sesgados en muestras finitas.

La matriz de varianza-covarianza (o simplemente matriz de covarianza) de β ^ {\ displaystyle \ scriptstyle {\ hat {\ beta}}} es igual a

Var ⁡ = σ 2 (XTX) – 1 = σ 2 Q. {\ Displaystyle \ operatorname {Var} = \ sigma ^ {2} (X ^ {T} X) ^ {- 1} = \ sigma ^ {2} Q.}

En particular, el error estándar de cada coeficiente β ^ j {\ displaystyle \ scriptstyle {\ hat {\ beta}} _ {j}} es igual a la raíz cuadrada del j-ésimo elemento diagonal de esta matriz. La estimación de este error estándar se obtiene reemplazando la cantidad desconocida σ2 con su estimación s2. Por lo tanto,

s. e. ^ (β ^ j) = s 2 (XTX) jj – 1 {\ displaystyle {\ widehat {\ operatorname {s. \! e.}}} ({\ hat {\ beta}} _ {j}) = { \ sqrt {s ^ {2} (X ^ {T} X) _ {jj} ^ {- 1}}}} Cov ⁡ = 0. {\ displaystyle \ operatorname {Cov} = 0.}

El Gauss –El teorema de Markov establece que bajo el supuesto de errores esféricos (es decir, los errores deben ser no correlacionados y homoscedásticos) el estimador β ^ {\ displaystyle \ scriptstyle {\ hat {\ beta}}} es eficiente en la clase de estimadores lineales insesgados. A esto se le llama el mejor estimador lineal insesgado (AZUL). La eficiencia debe entenderse como si tuviéramos que encontrar otro estimador β ~ {\ displaystyle \ scriptstyle {\ tilde {\ beta}}} que sería lineal en y e insesgado, luego

Var ⁡ – Var ⁡ ≥ 0 {\ displaystyle \ operatorname {Var} – \ operatorname {Var} \ geq 0}

en el sentido de que se trata de una matriz definida no negativa. Este teorema establece la optimalidad solo en la clase de estimadores lineales insesgados, lo cual es bastante restrictivo. Dependiendo de la distribución de los términos de error ε, otros estimadores no lineales pueden proporcionar mejores resultados que OLS.

Suponiendo normalidadEditar

Las propiedades enumeradas hasta ahora son todas válidas independientemente de la distribución subyacente de los términos de error. Sin embargo, si está dispuesto a asumir que se cumple el supuesto de normalidad (es decir, que ε ~ N (0, σ2In)), entonces se pueden establecer propiedades adicionales de los estimadores MCO.

El estimador β ^ {\ displaystyle \ scriptstyle {\ hat {\ beta}}} se distribuye normalmente, con media y varianza como se indica antes:

β ^ ∼ N (β, σ 2 (XTX) – 1) {\ displaystyle {\ sombrero {\ beta}} \ \ sim \ {\ mathcal {N}} {\ big (} \ beta, \ \ sigma ^ {2} (X ^ {\ mathrm {T}} X) ^ {- 1} { \ big)}}

donde Q es la matriz del cofactor. Este estimador alcanza el límite de Cramér-Rao para el modelo y, por lo tanto, es óptimo en la clase de todos los estimadores insesgados. Tenga en cuenta que, a diferencia del teorema de Gauss-Markov, este resultado establece la optimización entre estimadores lineales y no lineales, pero solo en el caso de términos de error normalmente distribuidos.

El estimador s2 será proporcional a la chi distribución al cuadrado:

s 2 ∼ σ 2 norte – p ⋅ χ norte – p 2 {\ Displaystyle s ^ {2} \ \ sim \ {\ frac {\ sigma ^ {2}} {np}} \ cdot \ chi _ {np} ^ {2}}

La varianza de este estimador es igual a 2σ4 / (n – p), que no alcanza el límite Cramér – Rao de 2σ4 / n. Sin embargo, se demostró que no existen estimadores insesgados de σ2 con una varianza menor que la del estimador s2. Si estamos dispuestos a permitir estimadores sesgados, y consideramos la clase de estimadores que son proporcionales a la suma de los residuos cuadrados (SSR) del modelo, entonces el mejor estimador (en el sentido del error cuadrático medio) de esta clase será ~ σ2 = SSR / (n – p + 2), que incluso supera el límite de Cramér-Rao en el caso de que solo haya un regresor (p = 1).

Observaciones influyentesEditar

Artículo principal: Observación influyente
Ver también: Apalancamiento (estadísticas)

Como se mencionó anteriormente, el estimador β ^ {\ displaystyle {\ hat {\ beta}}} es lineal en y, lo que significa que representa una combinación lineal de las variables dependientes yi. Los pesos en esta combinación lineal son funciones de los regresores X, y generalmente son desiguales. Las observaciones con pesos altos se denominan influyentes porque tienen un efecto más pronunciado sobre el valor del estimador.

Para analizar qué observaciones son influyentes, eliminamos una j-ésima observación específica y consideramos cuánto van a cambiar las cantidades estimadas (de manera similar al método jackknife). Se puede demostrar que el cambio en el estimador MCO para β será igual a

β ^ (j) – β ^ = – 1 1 – hj (XTX) – 1 xj T ε ^ j, {\ displaystyle { \ hat {\ beta}} ^ {(j)} – {\ hat {\ beta}} = – {\ frac {1} {1-h_ {j}}} (X ^ {\ mathrm {T}} X ) ^ {- 1} x_ {j} ^ {\ mathrm {T}} {\ hat {\ varepsilon}} _ {j} \ ,,}

donde hj = xjT (XTX) −1xj es el j- el elemento diagonal de la matriz de sombrero P, y xj es el vector de regresores correspondiente a la j-ésima observación. De manera similar, el cambio en el valor pronosticado para la j-ésima observación resultante de omitir esa observación del conjunto de datos será igual a

y ^ j (j) – y ^ j = xj T β ^ (j) – xj T β ^ = – hj 1 – hj ε ^ j {\ Displaystyle {\ hat {y}} _ {j} ^ {(j)} – {\ hat {y}} _ {j} = x_ {j} ^ { \ mathrm {T}} {\ hat {\ beta}} ^ {(j)} – x_ {j} ^ {T} {\ hat {\ beta}} = – {\ frac {h_ {j}} {1 -h_ {j}}} \, {\ hat {\ varepsilon}} _ {j}}

De las propiedades de la matriz hat, 0 ≤ hj ≤ 1, y suman p, por lo que en promedio hj ≈ p / n. Estas cantidades hj se denominan apalancamiento y las observaciones con hj alto se denominan puntos de apalancamiento. Por lo general, las observaciones con alto apalancamiento deben analizarse más detenidamente, en caso de que sean erróneas, atípicas o de alguna otra forma atípicas del resto del conjunto de datos.

Regresión particionada Editar

A veces, las variables y los parámetros correspondientes en la regresión se pueden dividir lógicamente en dos grupos, de modo que la regresión tome forma

y = X 1 β 1 + X 2 β 2 + ε, {\ displaystyle y = X_ {1 } \ beta _ {1} + X_ {2} \ beta _ {2} + \ varepsilon,}

donde X1 y X2 tienen dimensiones n × p1, n × p2, y β1, β2 son p1 × 1 y p2 × 1 vectores, con p1 + p2 = p.

M 1 y = M 1 X 2 β 2 + η, {\ displaystyle M_ {1} y = M_ {1} X_ {2} \ beta _ {2 } + \ eta \ ,,}

donde M1 es la matriz aniquiladora para los regresores X1.

El teorema se puede utilizar para establecer una serie de resultados teóricos. Por ejemplo, tener una regresión con una constante y otro regresor es equivalente a restar las medias de la variable dependiente y el regresor y luego ejecutar la regresión para las variables reducidas pero sin el término constante.

Restringido EstimaciónEdit

Artículo principal: Regresión de cresta

Supongamos que se sabe que los coeficientes de la regresión satisfacen un sistema de ecuaciones lineales

A: QT β = c, {\ displaystyle A \ colon \ quad Q ^ {T} \ beta = c, \,}

donde Q es una matriz ap × q de rango completo yc es un vector q × 1 de constantes conocidas, donde q < pág. En este caso, la estimación de mínimos cuadrados equivale a minimizar la suma de los residuos cuadrados del modelo sujeto a la restricción A. El estimador de mínimos cuadrados restringidos (CLS) se puede dar mediante una fórmula explícita:

β ^ c = β ^ – (XTX) – 1 Q (QT (XTX) – 1 Q) – 1 (QT β ^ – c). {\ Displaystyle {\ hat {\ beta}} ^ {c} = {\ hat {\ beta}} – (X ^ {T} X) ^ {- 1} Q {\ Big (} Q ^ {T} ( X ^ {T} X) ^ {- 1} Q {\ Big)} ^ {- 1} (Q ^ {T} {\ hat {\ beta}} – c).}

Esta expresión para la restricción El estimador es válido siempre que la matriz XTX sea invertible. Desde el comienzo de este artículo se asumió que esta matriz es de rango completo y se señaló que cuando falla la condición de rango, β no será identificable. Sin embargo, puede suceder que la adición de la restricción A haga que β sea identificable, en cuyo caso uno quisiera encontrar la fórmula para el estimador. El estimador es igual a

β ^ c = R (RTXTXR) – 1 RTXT y + (I p – R (RTXTXR) – 1 RTXTX) Q (QTQ) – 1 c, {\ displaystyle {\ hat {\ beta}} ^ {c} = R (R ^ {T} X ^ {T} XR) ^ {- 1} R ^ {T} X ^ {T} y + {\ Big (} I_ {p} -R ( R ^ {T} X ^ {T} XR) ^ {- 1} R ^ {T} X ^ {T} X {\ Big)} Q (Q ^ {T} Q) ^ {- 1} c,}

donde R es una matriz ap × (p – q) tal que la matriz no es singular, y RTQ = 0. Una matriz de este tipo siempre se puede encontrar, aunque generalmente no es única. La segunda fórmula coincide con la primera en caso de que XTX sea invertible.

Propiedades de muestras grandesEditar

Los estimadores de mínimos cuadrados son estimaciones puntuales de los parámetros β del modelo de regresión lineal. Sin embargo, generalmente también queremos saber qué tan cerca pueden estar esas estimaciones de los valores reales de los parámetros. En otras palabras, queremos construir las estimaciones de intervalo.

Dado que no hemos hecho ninguna suposición sobre la distribución del término de error εi, es imposible inferir la distribución de los estimadores β ^ {\ displaystyle {\ hat {\ beta}}} y σ ^ 2 {\ displaystyle {\ hat {\ sigma}} ^ {2}}. Sin embargo, podemos aplicar el teorema del límite central para derivar sus propiedades asintóticas a medida que el tamaño de la muestra n va a Si bien el tamaño de la muestra es necesariamente finito, se acostumbra suponer que n es «lo suficientemente grande» para que la verdadera distribución del estimador MCO esté cerca de su límite asintótico.

(β ^ – β) → re N (0, σ 2 Q xx – 1), {\ displaystyle ({\ hat {\ beta}} – \ beta) \ {\ xrightarrow {d}} \ { \ mathcal {N}} {\ big (} 0, \; \ sigma ^ {2} Q_ {xx} ^ {- 1} {\ big)},}

donde Q xx = XTX. {\ displaystyle Q_ {xx} = X ^ {T} X.}

IntervalsEdit

Artículos principales: Intervalo de confianza e intervalo de predicción

Uso de esta distribución asintótica , los intervalos de confianza aproximados de dos lados para el j-ésimo componente del vector β ^ {\ displaystyle {\ hat {\ beta}}} se pueden construir como

β j ∈ jj] {\ displaystyle \ beta _ { j} \ in {\ bigg _ {jj}}} \ {\ bigg]}} en el nivel de confianza 1 – α,

donde q denota la función cuantílica de la distribución normal estándar, y jj es la j-ésima diagonal elemento de una matriz.

De manera similar, el estimador de mínimos cuadrados para σ2 también es consistente y asintóticamente normal (siempre que exista el cuarto momento de εi) con distribución limitante

(σ ^ 2 – σ 2 ) → d N (0, E ⁡ – σ 4). {\ displaystyle ({\ hat {\ sigma}} ^ {2} – \ sigma ^ {2}) \ {\ xrightarrow {d}} \ {\ mathcal {N}} \ left (0, \; \ operatorname { E} \ left- \ sigma ^ {4} \ right).} (Y ^ 0 – y 0) → re N (0, σ 2 x 0 TQ xx – 1 x 0), {\ displaystyle \ left ({\ hat {y}} _ {0} -y_ {0} \ right) \ {\ xrightarrow {d}} \ {\ mathcal {N}} \ left (0, \; \ sigma ^ {2} x_ {0} ^ {\ mathrm {T}} Q_ {xx} ^ {- 1} x_ {0} \ right),}

que permite construir intervalos de confianza para construir la respuesta media y 0 {\ displaystyle y_ {0}} :

y 0 ∈ {\ displaystyle y_ {0} \ in \ left} en el nivel de confianza 1 – α.

Prueba de hipótesisEditar

Artículo principal: Prueba de hipótesis

Esta sección necesita ampliarse. Puedes ayudar añadiendolo. (Febrero de 2017)

Dos pruebas de hipótesis se utilizan de forma especialmente generalizada. Primero, uno quiere saber si la ecuación de regresión estimada es mejor que simplemente predecir que todos los valores de la variable de respuesta son iguales a su media muestral (de lo contrario, se dice que no tiene poder explicativo). La hipótesis nula de valor no explicativo de la regresión estimada se prueba mediante una prueba F. Si se encuentra que el valor F calculado es lo suficientemente grande como para exceder su valor crítico para el nivel de significancia preseleccionado, se rechaza la hipótesis nula y se acepta la hipótesis alternativa de que la regresión tiene poder explicativo. De lo contrario, se acepta la hipótesis nula de falta de poder explicativo.

En segundo lugar, para cada variable explicativa de interés, se desea saber si su coeficiente estimado difiere significativamente de cero, es decir, si esta variable explicativa particular en El hecho tiene poder explicativo para predecir la variable de respuesta. Aquí la hipótesis nula es que el verdadero coeficiente es cero. Esta hipótesis se prueba calculando el estadístico t del coeficiente, como la relación entre la estimación del coeficiente y su error estándar. Si el estadístico t es mayor que un valor predeterminado, se rechaza la hipótesis nula y se encuentra que la variable tiene poder explicativo, con su coeficiente significativamente diferente de cero. De lo contrario, se acepta la hipótesis nula de un valor cero del coeficiente verdadero.

Además, la prueba de Chow se utiliza para probar si dos submuestras tienen el los mismos valores de coeficiente verdadero subyacente. La suma de los residuos cuadrados de las regresiones en cada uno de los subconjuntos y en el conjunto de datos combinados se comparan calculando un estadístico F; si este excede un valor crítico, la hipótesis nula de que no hay diferencia entre los dos subconjuntos se rechaza; de lo contrario, se acepta.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *