Termos estatísticos confusos nº 1: os muitos nomes de variáveis independentes

Modelos estatísticos, como modelos lineares gerais (regressão linear, ANOVA, MANOVA), modelos lineares mistos e modelos lineares generalizados (logísticos, Poisson, regressão, etc.) todos têm a mesma forma geral.

No lado esquerdo da equação está uma ou mais variáveis de resposta, Y. No lado direito está uma ou mais variáveis preditoras, X , e seus coeficientes, B. As variáveis do lado direito podem ter muitas formas e são chamadas por muitos nomes.

Existem distinções sutis nos significados desses nomes. Infelizmente, porém, existem duas práticas que os tornam mais confusos do que deveriam ser.

Primeiro, eles são freqüentemente usados de forma intercambiável. Portanto, alguém pode usar “variável preditora” e “variável independente” de forma intercambiável e outra pessoa não pode. Portanto, o ouvinte pode estar lendo as distinções sutis que o falante pode não estar sugerindo.

Em segundo lugar, os mesmos termos são usados de forma diferente em diferentes campos ou situações de pesquisa. Portanto, se você é um epidemiologista que pesquisa a maioria das variáveis observadas, provavelmente foi treinado com significados ligeiramente diferentes para alguns desses termos do que se você fosse um psicólogo que faz pesquisas experimentais.

Pior ainda, os pacotes de software estatístico usam nomes diferentes para conceitos semelhantes, mesmo entre seus próprios procedimentos. Essa busca por precisão geralmente gera confusão. (É difícil o suficiente sem trocar as palavras!).

Aqui estão alguns termos comuns que se referem a uma variável em um modelo que se propõe a afetar ou prever outra variável.

I apresentarei as diferentes definições e implicações, mas é muito provável que algumas delas estejam faltando. Se você vir um termo que significa algo diferente do que você entende, adicione-o aos comentários. E diga-nos em qual campo você trabalha principalmente.

Variável de previsão, Preditor

Este é o mais genérico dos termos. Não há implicações em ser manipulado, observado, categórico ou numérico. Não implica causalidade.

Uma variável preditora é usada simplesmente para explicar ou prever o valor da variável de resposta. Usado predominantemente na regressão.

Variável independente

Eu vi a variável independente (IV) ser usada de maneiras diferentes.

1. Implica causalidade: a variável independente afeta a variável dependente. Esse uso é predominante em modelos ANOVA, onde a variável independente é manipulada pelo experimentador. Se for manipulado, geralmente é categórico e os assuntos são atribuídos aleatoriamente às condições.

2. Não implica causalidade, mas é uma variável preditora chave para responder à pergunta de pesquisa. Em outras palavras, está no modelo porque o pesquisador está interessado em entender sua relação com a variável dependente. Em outras palavras, não é uma variável de controle.

3. Não implica causalidade ou a importância da variável para a questão de pesquisa. Mas não está correlacionado (independente) de todos os outros preditores.

Honestamente, só recentemente vi alguém definir o termo Variável Independente desta forma. As variáveis preditoras não podem ser variáveis independentes se forem correlacionadas. Fiquei surpreso, mas é bom saber que algumas pessoas querem dizer isso quando usam o termo.

Variável explicativa

Uma variável preditora em um modelo em que o ponto principal não é prever a variável de resposta, mas para explicar uma relação entre X e Y.

Variável de controle

Uma variável preditora que pode estar relacionada ou afetando a variável dependente, mas não é realmente de interesse para a questão de pesquisa.

Covariate

Geralmente uma variável preditora contínua. Usado em ANCOVA (análise de covariância) e regressão. Algumas pessoas usam isso para se referir a todas as variáveis preditoras na regressão, mas na verdade significa preditores contínuos. Adicionar uma covariável à ANOVA (análise de variância) a transforma em ANCOVA (análise de covariância).

Às vezes, a covariável implica que a variável é uma variável de controle (em oposição a uma variável independente), mas nem sempre.

E às vezes as pessoas usam covariável para significar variável de controle, seja numérica ou categórica.

Este é tão confuso que tem seu próprio artigo Termos estatísticos confusos.

Variável de confusão, fator de confusão

Esses termos são usados de maneira diferente em campos diferentes. No projeto experimental, é usado para significar uma variável cujo efeito não pode ser distinguido do efeito de uma variável independente.

Em campos observacionais, é usado para significar uma de duas situações. A primeira é uma variável que está tão correlacionada com uma variável independente que é difícil separar seus efeitos na variável de resposta. A segunda é uma variável que causa o efeito da variável independente na resposta.

A distinção nessas interpretações é leve, mas importante.

Variável de exposição

Este é um termo para variável independente em alguns campos, particularmente epidemiologia. É a variável principal do preditor.

Fator de risco

Outro termo epidemiológico para uma variável do preditor. Ao contrário do termo “Fator” listado abaixo, ele não implica uma variável categórica.

Fator

Uma variável preditora categórica. Pode ou não indicar uma relação de causa / efeito com o variável de resposta (isso depende do desenho do estudo, não da análise).

Variáveis independentes em ANOVA são quase sempre chamadas de fatores. Na regressão, elas são frequentemente chamadas de variáveis indicadoras, preditores categóricos ou variáveis dummy . Eles são todos a mesma coisa neste contexto.

Além disso, observe que Factor tem significados completamente outros em estatísticas, então ele também tem seu próprio artigo Termos estatísticos confusos.

Recurso

Usado em modelos de aprendizado de máquina e preditivos, é simplesmente uma variável preditora.

Variável de agrupamento

O mesmo que um fator.

Fator fixo

Uma variável preditora categórica em que os valores específicos das categorias são intencionais e importantes, muitas vezes escolhidos pelo experimentador. Os exemplos incluem experiência tratamentos mentais ou categorias demográficas, como sexo e raça.

Se você não está fazendo um modelo misto (e deve saber se está), todos os seus fatores são fixos. Para obter uma explicação mais completa dos fatores fixos e aleatórios, consulte Especificando fatores fixos e aleatórios em modelos mistos ou multinível

Fator aleatório

Uma variável preditora categórica em que os valores específicos de as categorias foram atribuídas aleatoriamente. Geralmente usado em modelagem mista. Os exemplos incluem assuntos ou blocos aleatórios.

Para uma explicação mais completa dos fatores fixos e aleatórios, consulte Especificando fatores fixos e aleatórios em modelos mistos ou multinível

Variável de bloqueio

Este termo é geralmente usado em projetos experimentais, mas também o vi em ensaios clínicos randomizados.

Uma variável de bloqueio é uma variável que indica um bloco experimental: um agrupamento ou unidade experimental que restringe a randomização completa e isso geralmente resulta em valores de resposta semelhantes entre os membros do bloco.

As variáveis de bloqueio podem ser fatores fixos ou aleatórios. Eles nunca são contínuos.

Variável dummy

Uma variável categórica que foi codificada por dummy. A codificação fictícia (também chamada de codificação do indicador) é geralmente usada em modelos de regressão, mas não ANOVA. Uma variável fictícia pode ter apenas dois valores: 0 e 1. Quando uma variável categórica tem mais de dois valores, ela é recodificada em várias variáveis fictícias.

Variável indicadora

O mesmo que fictícia variável.

A mensagem para levar embora

Sempre que você estiver usando termos técnicos em um relatório, artigo ou conversa, é sempre uma boa ideia definir seus termos. Isso é especialmente importante em estatísticas, que é usado em muitos, muitos campos, cada um dos quais adiciona suas próprias sutilezas à terminologia.

Série de termos estatísticos confusos

Termos estatísticos confusos # 1 : Os muitos nomes de variáveis independentes

Termos estatísticos confusos # 2: Alfa e beta

Termo estatístico confuso # 4: Regressão hierárquica vs. modelo hierárquico

Interpretando Coeficientes de Regressão Linear: Um Walk Through Output
Aprenda a abordagem para compreender os coeficientes nessa regressão enquanto percorremos a saída de um modelo que inclui preditores numéricos e categóricos e um interação.

Deixe uma resposta

O seu endereço de email não será publicado. Campos obrigatórios marcados com *