Términos estadísticos confusos # 1: los muchos nombres de variables independientes
Modelos estadísticos, como modelos lineales generales (regresión lineal, ANOVA, MANOVA), modelos lineales mixtos y modelos lineales generalizados (logísticos, Poisson, regresión, etc.) tienen la misma forma general.
En el lado izquierdo de la ecuación hay una o más variables de respuesta, Y. En el lado derecho hay una o más variables predictoras, X , y sus coeficientes, B. Las variables del lado derecho pueden tener muchas formas y reciben muchos nombres.
Hay sutiles distinciones en los significados de estos nombres. Sin embargo, desafortunadamente, hay dos prácticas que las hacen más confusas de lo necesario.
Primero, a menudo se usan indistintamente. Entonces, alguien puede usar «variable predictora» y «variable independiente» de manera intercambiable y otra persona puede que no. Por lo tanto, el oyente puede estar leyendo las sutiles distinciones que el hablante puede no estar insinuando.
En segundo lugar, los mismos términos se usan de manera diferente en diferentes campos o situaciones de investigación. Por lo tanto, si usted es un epidemiólogo que investiga la mayoría de las variables observadas, probablemente haya recibido una formación con significados ligeramente diferentes para algunos de estos términos que si es un psicólogo que realiza investigaciones experimentales.
Aún peor, Los paquetes de software estadístico utilizan diferentes nombres para conceptos similares, incluso entre sus propios procedimientos. Esta búsqueda de precisión a menudo genera confusión. (¡Es bastante difícil sin cambiar las palabras!).
Aquí hay algunos términos comunes que se refieren a una variable en un modelo que se propone afectar o predecir otra variable.
I Les daré las diferentes definiciones e implicaciones, pero es muy probable que me falten algunas. Si ve un término que significa algo diferente de lo que entiende, agréguelo a los comentarios. Y díganos en qué campo trabaja principalmente.
Variable predictor, predictor
Este es el más genérico de los términos. No hay implicaciones por ser manipulado, observado, categórico o numérico. No implica causalidad.
Una variable predictiva se usa simplemente para explicar o predecir el valor de la variable de respuesta. Se usa predominantemente en regresión.
Variable independiente
He visto que la Variable independiente (IV) se usa de diferentes maneras.
1. Implica causalidad: la variable independiente afecta a la variable dependiente. Este uso es predominante en los modelos ANOVA donde el experimentador manipula la Variable Independiente. Si se manipula, generalmente es categórico y los sujetos se asignan aleatoriamente a las condiciones.
2. No implica causalidad, pero es una variable predictora clave para responder a la pregunta de investigación. En otras palabras, está en el modelo porque el investigador está interesado en comprender su relación con la variable dependiente. En otras palabras, no es una variable de control.
3. No implica causalidad o la importancia de la variable para la pregunta de investigación. Pero no está correlacionado (es independiente) de todos los demás predictores.
Honestamente, recientemente vi a alguien definir el término Variable Independiente de esta manera. Las variables predictoras no pueden ser variables independientes si están correlacionadas. Me sorprendió, pero es bueno saber que algunas personas se refieren a esto cuando usan el término.
Variable explicativa
Una variable predictiva en un modelo donde el punto principal no es predecir la variable de respuesta, pero para explicar una relación entre X e Y.
Variable de control
Una variable predictora que podría estar relacionada con la variable dependiente o afectarla, pero que en realidad no es de interés para la pregunta de investigación.
Covariable
Generalmente una variable predictora continua. Se utiliza tanto en ANCOVA (análisis de covarianza) como en regresión. Algunas personas usan esto para referirse a todas las variables predictoras en regresión, pero realmente significa predictores continuos. Agregar una covariable a ANOVA (análisis de varianza) lo convierte en ANCOVA (análisis de covarianza).
A veces, la covarianza implica que la variable es una variable de control (en oposición a una variable independiente), pero no siempre.
Y a veces la gente usa covariable para referirse a la variable de control, ya sea numérica o categórica.
Esta es tan confusa que tiene su propio artículo sobre términos estadísticos confusos.
Variable de confusión, confusión
Estos términos se usan de manera diferente en diferentes campos. En diseño experimental, se usa para referirse a una variable cuyo efecto no se puede distinguir del efecto de una variable independiente.
En campos de observación, se usa para referirse a una de dos situaciones. La primera es una variable que está tan correlacionada con una variable independiente que es difícil separar sus efectos sobre la variable de respuesta. La segunda es una variable que causa el efecto de la variable independiente en la respuesta.
La distinción en esas interpretaciones es leve pero importante.
Variable de exposición
Este es un término para variable independiente en algunos campos, particularmente en epidemiología. Es la variable predictora clave.
Factor de riesgo
Otro término epidemiológico para una variable predictora. A diferencia del término «Factor» que se enumera a continuación, no implica una variable categórica.
Factor
Una variable predictiva categórica. Puede indicar o no una relación de causa / efecto con la variable de respuesta (esto depende del diseño del estudio, no del análisis).
Las variables independientes en ANOVA casi siempre se denominan factores. En la regresión, a menudo se denominan variables indicadoras, predictores categóricos o variables ficticias . Son todos lo mismo en este contexto.
Además, tenga en cuenta que Factor tiene significados completamente diferentes en las estadísticas, por lo que también tiene su propio artículo sobre términos estadísticos confusos.
Característica
Se utiliza en modelos predictivos y de aprendizaje automático; es simplemente una variable predictiva.
Variable de agrupación
Igual que un factor.
Factor fijo
Una variable predictiva categórica en la que los valores específicos de las categorías son intencionales e importantes, a menudo elegidos por el experimentador. Los ejemplos incluyen experi tratamientos mentales o categorías demográficas, como sexo y raza.
Si no está haciendo un modelo mixto (y debe saber si lo está), todos sus factores son factores fijos. Para obtener una explicación más detallada de los factores fijos y aleatorios, consulte Especificación de factores fijos y aleatorios en modelos mixtos o multinivel
Factor aleatorio
Una variable predictiva categórica en la que los valores específicos de las categorías fueron asignadas al azar. Generalmente utilizado en modelado mixto. Los ejemplos incluyen sujetos o bloques aleatorios.
Para obtener una explicación más detallada de los factores fijos y aleatorios, consulte Especificación de factores fijos y aleatorios en modelos mixtos o multinivel
Variable de bloqueo
Este término se usa generalmente en diseño experimental, pero también lo he visto en ensayos controlados aleatorios.
Una variable de bloqueo es una variable que indica un bloque experimental: un grupo o unidad experimental que restringe la aleatorización completa y eso a menudo da como resultado valores de respuesta similares entre los miembros del bloque.
Las variables de bloqueo pueden ser factores fijos o aleatorios. Nunca son continuas.
Variable ficticia
Una variable categórica que ha sido codificada ficticia. La codificación ficticia (también denominada codificación de indicadores) se usa generalmente en modelos de regresión, pero no ANOVA. Una variable ficticia solo puede tener dos valores: 0 y 1. Cuando una variable categórica tiene más de dos valores, se recodifica en varias variables ficticias.
Variable indicadora
Igual que ficticia variable.
El mensaje para llevar
Siempre que utilice términos técnicos en un informe, un artículo o una conversación, siempre es una buena idea definir sus términos. Esto es especialmente importante en estadística, que se utiliza en muchos, muchos campos, cada uno de los cuales agrega sus propias sutilezas a la terminología.
Serie de términos estadísticos confusos
Términos estadísticos confusos # 1 : Los muchos nombres de las variables independientes