Mínimos quadrados ordinários

Novembro 13, 2020

Mínimos quadrados ordinários

AssumptionsEdit

Veja também: Regressão linear § Premissas

Existem várias estruturas diferentes nas quais o modelo de regressão linear pode ser moldado a fim de tornar a técnica OLS aplicável. Cada uma dessas configurações produz as mesmas fórmulas e os mesmos resultados. A única diferença é a interpretação e os pressupostos que têm de ser impostos para que o método dê resultados significativos. A escolha da estrutura aplicável depende principalmente da natureza dos dados em mãos e da tarefa de inferência que deve ser realizada.

Uma das linhas de diferença na interpretação é tratar os regressores como aleatórios variáveis ou como constantes predefinidas. No primeiro caso (desenho aleatório), os regressores xi são aleatórios e amostrados junto com os yi “s de alguma população, como em um estudo observacional. Esta abordagem permite um estudo mais natural das propriedades assintóticas dos estimadores. Na outra interpretação (projeto fixo), os regressores X são tratados como constantes conhecidas definidas por um projeto, ey é amostrado condicionalmente nos valores de X como em um experimento. Para fins práticos, essa distinção é frequentemente sem importância, uma vez que a estimativa e a inferência são realizadas enquanto condiciona em X. Todos os resultados declarados neste artigo estão dentro da estrutura de design aleatório.

Modelo de regressão linear clássicoEditar

O modelo clássico se concentra na estimativa e inferência de “amostra finita”, o que significa que o número de observações n é fixo. Isso contrasta com as outras abordagens, que estudam o comportamento assintótico de OLS, e nas quais o número de observações pode crescer até o infinito.

O conseque imediato A suposição de exogeneidade é que os erros têm média zero: E = 0, e que os regressores não estão correlacionados com os erros: E = 0. A suposição de exogeneidade é crítica para a teoria OLS. Se for verdadeiro, as variáveis do regressor são chamadas de exógenas. Caso contrário, os regressores que estão correlacionados com o termo de erro são chamados de endógenos e as estimativas OLS tornam-se inválidas. Nesse caso, o método das variáveis instrumentais pode ser usado para realizar a inferência. Normalmente, também é assumido que os regressores têm momentos finitos até pelo menos o segundo momento. Então a matriz Qxx = E é finita e semi-definida positiva. Quando esta suposição é violada, os regressores são chamados linearmente dependentes ou perfeitamente multicolineares. Nesse caso, o valor de O coeficiente de regressão β não pode ser aprendido, embora a previsão dos valores de y ainda seja possível para novos valores dos regressores que se encontram no mesmo subespaço linearmente dependente.

Erros esféricos: Var ⁡ = σ 2 I n, {\ displaystyle \ operatorname {Var} = \ sigma ^ {2} I_ {n},}

onde In é a matriz identidade na dimensão n, e σ2 é um parâmetro que determina a variância de cada observação. σ2 é considerado um parâmetro incômodo no modelo, embora ough geralmente também é estimado. Se essa suposição for violada, as estimativas OLS ainda são válidas, mas não mais eficientes. É comum dividir esta suposição em duas partes:

Homocedasticidade: E = σ2, o que significa que o termo de erro tem a mesma variância σ2 em cada observação. Quando esse requisito é violado, isso é chamado de heterocedasticidade; nesse caso, um estimador mais eficiente seria os mínimos quadrados ponderados. Se os erros têm variância infinita, então as estimativas OLS também terão variância infinita (embora pela lei dos grandes números eles tendam para os valores verdadeiros, desde que os erros tenham média zero). Neste caso, técnicas de estimação robustas são recomendadas.
Sem autocorrelação: os erros não são correlacionados entre as observações: E = 0 para i ≠ j. Esta suposição pode ser violada no contexto de dados de série temporal, dados de painel, amostras de cluster, dados hierárquicos, dados de medidas repetidas, dados longitudinais e outros dados com dependências. Nesses casos, mínimos quadrados generalizados oferecem uma alternativa melhor do que o OLS. Outra expressão para autocorrelação é a correlação serial.

Esta suposição não é necessária para a validade do método OLS, embora certas propriedades adicionais de amostra finita possam ser estabelecidas caso isso ocorra (especialmente na área de teste de hipóteses). Além disso, quando os erros são normais, o estimador OLS é equivalente ao estimador de máxima verossimilhança (MLE) e, portanto, é assintoticamente eficiente na classe de todos os estimadores regulares. É importante ressaltar que a suposição de normalidade se aplica apenas aos termos de erro; ao contrário de um conceito errôneo popular, a variável de resposta (dependente) não precisa ser distribuída normalmente.

Independente e distribuído de forma idêntica (iid) Editar

Em alguns aplicativos, especialmente com dados de seção transversal, uma suposição adicional é imposta – que todas as observações são independentes e distribuídas de forma idêntica.Isso significa que todas as observações são tiradas de uma amostra aleatória, o que torna todas as suposições listadas anteriormente mais simples e fáceis de interpretar. Além disso, este framework permite estabelecer resultados assintóticos (como o tamanho da amostra n → ∞), que são entendidos como uma possibilidade teórica de buscar novas observações independentes do processo de geração de dados. A lista de suposições neste caso é:

ModelEdit de série temporal

Propriedades de amostra finitasEditar

Em primeiro lugar, sob a suposição estrita de exogeneidade os estimadores OLS β ^ {\ displaystyle \ scriptstyle {\ hat {\ beta}}} e s2 são imparciais, o que significa que seus valores esperados coincidem com os valores verdadeiros dos parâmetros:

E ⁡ = β, E ⁡ = σ 2. {\ displaystyle \ operatorname {E} = \ beta, \ quad \ operatorname {E} = \ sigma ^ {2}.}

Se a exogeneidade estrita não se mantém (como é o caso de muitos modelos de série temporal, onde exogeneidade é assumida apenas em relação aos choques passados, mas não aos futuros), então esses estimadores serão enviesados em amostras finitas.

A matriz de variância-covariância (ou simplesmente matriz de covariância) de β ^ {\ displaystyle \ scriptstyle {\ hat {\ beta}}} é igual a

Var ⁡ = σ 2 (XTX) – 1 = σ 2 Q. {\ displaystyle \ operatorname {Var} = \ sigma ^ {2} (X ^ {T} X) ^ {- 1} = \ sigma ^ {2} Q.}

Em particular, o erro padrão de cada coeficiente β ^ j {\ displaystyle \ scriptstyle {\ hat {\ beta}} _ {j}} é igual à raiz quadrada do j-ésimo elemento da diagonal desta matriz. A estimativa desse erro padrão é obtida substituindo a quantidade desconhecida σ2 por sua estimativa s2. Assim,

s. e. ^ (β ^ j) = s 2 (XTX) jj – 1 {\ displaystyle {\ widehat {\ operatorname {s. \! e.}}} ({\ hat {\ beta}} _ {j}) = { \ sqrt {s ^ {2} (X ^ {T} X) _ {jj} ^ {- 1}}}} Cov ⁡ = 0. {\ displaystyle \ operatorname {Cov} = 0.}

O Gauss –O teorema de Markov afirma que sob a suposição de erros esféricos (ou seja, os erros devem ser não correlacionados e homocedásticos), o estimador β ^ {\ displaystyle \ scriptstyle {\ hat {\ beta}}} é eficiente na classe de estimadores lineares imparciais. Isso é chamado de melhor estimador linear não enviesado (AZUL). A eficiência deve ser entendida como se encontrássemos algum outro estimador β ~ {\ displaystyle \ scriptstyle {\ tilde {\ beta}}} que seria linear em y e imparcial, então

Var ⁡ – Var ⁡ ≥ 0 {\ displaystyle \ operatorname {Var} – \ operatorname {Var} \ geq 0}

no sentido de que esta é uma matriz definida não negativa. Este teorema estabelece a otimalidade apenas na classe dos estimadores lineares não enviesados, que é bastante restritiva. Dependendo da distribuição dos termos de erro ε, outros estimadores não lineares podem fornecer resultados melhores do que OLS.

Assumindo normalityEdit

As propriedades listadas até agora são todas válidas, independentemente do distribuição subjacente dos termos de erro. No entanto, se você estiver disposto a assumir que a suposição de normalidade é válida (isto é, que ε ~ N (0, σ2In)), então propriedades adicionais dos estimadores OLS podem ser declaradas.

O estimador β ^ {\ displaystyle \ scriptstyle {\ hat {\ beta}}} é normalmente distribuído, com média e variância como fornecidas antes:

β ^ ∼ N (β, σ 2 (XTX) – 1) {\ displaystyle {\ hat {\ beta}} \ \ sim \ {\ mathcal {N}} {\ big (} \ beta, \ \ sigma ^ {2} (X ^ {\ mathrm {T}} X) ^ {- 1} { \ big)}}

onde Q é a matriz do cofator. Este estimador atinge o limite de Cramér-Rao para o modelo e, portanto, é ótimo na classe de todos os estimadores não enviesados. Observe que, ao contrário do teorema de Gauss-Markov, este resultado estabelece a otimização entre os estimadores lineares e não lineares, mas apenas no caso de termos de erro normalmente distribuídos.

O estimador s2 será proporcional ao chi- distribuição quadrada:

s 2 ∼ σ 2 n – p ⋅ χ n – p 2 {\ displaystyle s ^ {2} \ sim \ {\ frac {\ sigma ^ {2}} {np}} \ cdot \ chi _ {np} ^ {2}}

A variância deste estimador é igual a 2σ4 / (n – p), que não atinge o limite de Cramér – Rao de 2σ4 / n. No entanto, foi demonstrado que não existem estimadores não enviesados de σ2 com variância menor que a do estimador s2. Se estivermos dispostos a permitir estimadores enviesados e considerar a classe de estimadores que são proporcionais à soma dos resíduos quadrados (SSR) do modelo, então o melhor estimador (no sentido do erro quadrático médio) nesta classe será ~ σ2 = SSR / (n – p + 2), que ainda bate o limite de Cramér-Rao no caso de haver apenas um regressor (p = 1).

Observações influentesEditar

Artigo principal: Observação influente

Veja também: Alavancagem (estatísticas)

Como foi mencionado antes, o estimador β ^ {\ displaystyle {\ hat {\ beta}}} é linear em y, o que significa que representa uma combinação linear das variáveis dependentes yi. Os pesos nesta combinação linear são funções dos regressores X e geralmente são desiguais. As observações com pesos elevados são chamadas de influentes porque têm um efeito mais pronunciado sobre o valor do estimador.

Para analisar quais observações são influentes, removemos uma j-ésima observação específica e consideramos o quanto as quantidades estimadas vão mudar (semelhante ao método jackknife). Pode-se mostrar que a mudança no estimador OLS para β será igual a

β ^ (j) – β ^ = – 1 1 – hj (XTX) – 1 xj T ε ^ j, {\ displaystyle { \ hat {\ beta}} ^ {(j)} – {\ hat {\ beta}} = – {\ frac {1} {1-h_ {j}}} (X ^ {\ mathrm {T}} X ) ^ {- 1} x_ {j} ^ {\ mathrm {T}} {\ hat {\ varepsilon}} _ {j} \ ,,}

onde hj = xjT (XTX) −1xj é o j- o elemento diagonal da matriz hat P e xj é o vetor dos regressores correspondente à j-ésima observação. Da mesma forma, a mudança no valor previsto para j-ésima observação resultante da omissão dessa observação do conjunto de dados será igual a

y ^ j (j) – y ^ j = xj T β ^ (j) – xj T β ^ = – hj 1 – hj ε ^ j {\ displaystyle {\ hat {y}} _ {j} ^ {(j)} – {\ hat {y}} _ {j} = x_ {j} ^ { \ mathrm {T}} {\ hat {\ beta}} ^ {(j)} – x_ {j} ^ {T} {\ hat {\ beta}} = – {\ frac {h_ {j}} {1 -h_ {j}}} \, {\ hat {\ varepsilon}} _ {j}}

A partir das propriedades da matriz hat, 0 ≤ hj ≤ 1, e eles somam p, de modo que em média hj ≈ p / n. Essas quantidades hj são chamadas de alavancagens e as observações com hj alto são chamadas de pontos de alavancagem. Normalmente, as observações com alta alavancagem devem ser examinadas com mais cuidado, no caso de serem errôneas, ou outliers, ou de alguma outra forma atípica do resto do conjunto de dados.

RegressionEdit particionado

Às vezes, as variáveis e os parâmetros correspondentes na regressão podem ser divididos logicamente em dois grupos, de modo que a regressão tome a forma

y = X 1 β 1 + X 2 β 2 + ε, {\ displaystyle y = X_ {1 } \ beta _ {1} + X_ {2} \ beta _ {2} + \ varepsilon,}

onde X1 e X2 têm dimensões n × p1, n × p2 e β1, β2 são p1 × 1 e p2 × 1 vetores, com p1 + p2 = p.

M 1 y = M 1 X 2 β 2 + η, {\ displaystyle M_ {1} y = M_ {1} X_ {2} \ beta _ {2 } + \ eta \ ,,}

onde M1 é a matriz aniquiladora para os regressores X1.

O teorema pode ser usado para estabelecer uma série de resultados teóricos. Por exemplo, ter uma regressão com uma constante e outro regressor é equivalente a subtrair as médias da variável dependente e do regressor e, em seguida, executar a regressão para as variáveis de-médias, mas sem o termo constante.

Restrito estimationEdit

Artigo principal: Regressão de Ridge

Suponha que seja conhecido que os coeficientes na regressão satisfazem um sistema de equações lineares

A: QT β = c, {\ displaystyle A \ dois pontos \ quad Q ^ {T} \ beta = c, \,}

onde Q é uma matriz ap × q de classificação completa, ec é um vetor aq × 1 de constantes conhecidas, onde q < p. Neste caso, a estimativa de mínimos quadrados é equivalente a minimizar a soma dos resíduos quadrados do modelo sujeito à restrição A. O estimador de mínimos quadrados restritos (CLS) pode ser dado por uma fórmula explícita:

β ^ c = β ^ – (XTX) – 1 Q (QT (XTX) – 1 Q) – 1 (QT β ^ – c). {\ displaystyle {\ hat {\ beta}} ^ {c} = {\ hat {\ beta}} – (X ^ {T} X) ^ {- 1} Q {\ Big (} Q ^ {T} ( X ^ {T} X) ^ {- 1} Q {\ Big)} ^ {- 1} (Q ^ {T} {\ hat {\ beta}} – c).}

Esta expressão para o restrito estimador é válido desde que a matriz XTX seja invertível. Partiu-se do pressuposto desde o início deste artigo que essa matriz é de rank completo, e foi notado que quando a condição de rank falha, β não será identificável. No entanto, pode acontecer que a adição da restrição A torne β identificável, caso em que gostaríamos de encontrar a fórmula para o estimador. O estimador é igual a

β ^ c = R (RTXTXR) – 1 RTXT y + (I p – R (RTXTXR) – 1 RTXTX) Q (QTQ) – 1 c, {\ displaystyle {\ hat {\ beta}} ^ {c} = R (R ^ {T} X ^ {T} XR) ^ {- 1} R ^ {T} X ^ {T} y + {\ Big (} I_ {p} -R ( R ^ {T} X ^ {T} XR) ^ {- 1} R ^ {T} X ^ {T} X {\ Grande)} Q (Q ^ {T} Q) ^ {- 1} c,}

onde R é uma matriz ap × (p – q) de forma que a matriz não seja singular e RTQ = 0. Essa matriz sempre pode ser encontrada, embora geralmente não seja única. A segunda fórmula coincide com a primeira no caso em que XTX é invertível.

Propriedades de amostra grandeEditar

Os estimadores de mínimos quadrados são estimativas pontuais dos parâmetros do modelo de regressão linear β. No entanto, geralmente também queremos saber o quão próximas essas estimativas podem estar dos valores reais dos parâmetros. Em outras palavras, queremos construir as estimativas de intervalo.

Como não fizemos nenhuma suposição sobre a distribuição do termo de erro εi, é impossível inferir a distribuição dos estimadores β ^ {\ displaystyle {\ hat {\ beta}}} e σ ^ 2 {\ displaystyle {\ hat {\ sigma}} ^ {2}}. No entanto, podemos aplicar o teorema do limite central para derivar suas propriedades assintóticas conforme o tamanho da amostra n vai para infinito Embora o tamanho da amostra seja necessariamente finito, é comum assumir que n é “grande o suficiente” para que a distribuição verdadeira do estimador OLS esteja próxima de seu limite assintótico.

(β ^ – β) → d N (0, σ 2 Q xx – 1), {\ displaystyle ({\ hat {\ beta}} – \ beta) \ {\ xrightarrow {d}} \ { \ mathcal {N}} {\ big (} 0, \; \ sigma ^ {2} Q_ {xx} ^ {- 1} {\ big)},}

onde Q xx = XTX. {\ displaystyle Q_ {xx} = X ^ {T} X.}

IntervalsEdit

Artigos principais: Intervalo de confiança e intervalo de previsão

Usando esta distribuição assintótica , intervalos de confiança bilateral aproximados para o j-ésimo componente do vetor β ^ {\ displaystyle {\ hat {\ beta}}} podem ser construídos como

β j ∈ jj] {\ displaystyle \ beta _ { j} \ in {\ bigg _ {jj}}} \ {\ bigg]}} no nível de confiança 1 – α,

onde q denota a função de quantil da distribuição normal padrão, e jj é a j-ésima diagonal elemento de uma matriz.

Da mesma forma, o estimador de mínimos quadrados para σ2 também é consistente e assintoticamente normal (desde que exista o quarto momento de εi) com distribuição limite

(σ ^ 2 – σ 2 ) → d N (0, E ⁡ – σ 4). {\ displaystyle ({\ hat {\ sigma}} ^ {2} – \ sigma ^ {2}) \ {\ xrightarrow {d}} \ {\ mathcal {N}} \ left (0, \; \ operatorname { E} \ left- \ sigma ^ {4} \ right).} (Y ^ 0 – y 0) → d N (0, σ 2 x 0 TQ xx – 1 x 0), {\ displaystyle \ left ({\ hat {y}} _ {0} -y_ {0} \ right) \ {\ xrightarrow {d}} \ {\ mathcal {N}} \ left (0, \; \ sigma ^ {2} x_ {0} ^ {\ mathrm {T}} Q_ {xx} ^ {- 1} x_ {0} \ right),}

que permite construir intervalos de confiança para a resposta média y 0 {\ displaystyle y_ {0}} a ser construído :

y 0 ∈ {\ displaystyle y_ {0} \ in \ left} no nível de confiança 1 – α.

Teste de hipótesesEditar

Artigo principal: Teste de hipóteses

Esta seção precisa de expansão. Você pode ajudar expandindo-o. (Fevereiro de 2017)

Dois testes de hipótese são amplamente usados. Primeiro, deseja-se saber se a equação de regressão estimada é melhor do que simplesmente prever que todos os valores da variável resposta são iguais à média da amostra (se não, diz-se que não tem poder explicativo). A hipótese nula de nenhum valor explicativo da regressão estimada é testada usando um teste F. Se o valor F calculado for considerado grande o suficiente para exceder seu valor crítico para o nível de significância pré-escolhido, a hipótese nula é rejeitada e a hipótese alternativa, de que a regressão tem poder explicativo, é aceita. Caso contrário, a hipótese nula de nenhum poder explicativo é aceita.

Em segundo lugar, para cada variável explicativa de interesse, deseja-se saber se seu coeficiente estimado difere significativamente de zero – isto é, se esta variável explicativa particular em fato tem poder explicativo na previsão da variável de resposta. Aqui, a hipótese nula é que o coeficiente verdadeiro é zero. Esta hipótese é testada calculando a estatística t do coeficiente “s, como a razão entre a estimativa do coeficiente e seu erro padrão. Se a estatística t for maior do que um valor predeterminado, a hipótese nula é rejeitada e a variável é considerada poder explicativo, com seu coeficiente significativamente diferente de zero. Caso contrário, a hipótese nula de um valor zero do coeficiente verdadeiro é aceita.

Além disso, o teste de Chow é usado para testar se duas subamostras têm o mesmos valores de coeficiente verdadeiros subjacentes. A soma dos resíduos quadrados das regressões em cada um dos subconjuntos e no conjunto de dados combinados é comparada calculando uma estatística F; se isso exceder um valor crítico, a hipótese nula de nenhuma diferença entre os dois subconjuntos é rejeitado; caso contrário, é aceito.

admin