Termes statistiques déroutants n ° 1: les nombreux noms de variables indépendantes

Modèles statistiques, tels que les modèles linéaires généraux (régression linéaire, ANOVA, MANOVA), les modèles mixtes linéaires et les modèles linéaires généralisés (logistiques, Poisson, régression, etc.) ont tous la même forme générale.

Sur le côté gauche de léquation se trouvent une ou plusieurs variables de réponse, Y. Sur le côté droit se trouvent une ou plusieurs variables prédictives, X , et leurs coefficients, B. Les variables sur le côté droit peuvent avoir plusieurs formes et sont appelées par de nombreux noms.

Il y a des distinctions subtiles dans la signification de ces noms. Malheureusement, il existe deux pratiques qui les rendent plus déroutantes quelles ne devraient lêtre.

Premièrement, elles sont souvent utilisées de manière interchangeable. Ainsi, quelquun peut utiliser indifféremment «variable prédictive» et «variable indépendante» et une autre personne peut ne pas le faire. Ainsi lauditeur peut lire les distinctions subtiles que lorateur nimplique peut-être pas.

Deuxièmement, les mêmes termes sont utilisés différemment dans différents domaines ou situations de recherche. Donc, si vous êtes un épidémiologiste qui effectue des recherches sur des variables principalement observées, vous avez probablement été formé avec des significations légèrement différentes de certains de ces termes que si vous êtes un psychologue qui fait de la recherche expérimentale.

Pire encore, Les progiciels statistiques utilisent des noms différents pour des concepts similaires, même parmi leurs propres procédures. Cette quête de précision prête souvent à confusion. (Cest déjà assez difficile sans changer les mots!).

Voici quelques termes courants qui font tous référence à une variable dans un modèle proposé pour affecter ou prédire une autre variable.

I Je vais vous donner les différentes définitions et implications, mais il est très probable que jen manque. Si vous voyez un terme qui signifie quelque chose de différent de ce que vous comprenez, veuillez lajouter aux commentaires. Et veuillez nous dire dans quel domaine vous travaillez principalement.

Variable de prédiction, prédicteur

Cest le plus générique des termes. Il ny a aucune implication pour être manipulé, observé, catégorique ou numérique. Cela nimplique pas de causalité.

Une variable prédictive est simplement utilisée pour expliquer ou prédire la valeur de la variable de réponse. Utilisé principalement dans la régression.

Variable indépendante

Jai vu la variable indépendante (IV) utilisée de différentes manières.

1. Cela implique la causalité: la variable indépendante affecte la variable dépendante. Cet usage est prédominant dans les modèles ANOVA où la variable indépendante est manipulée par lexpérimentateur. Sil est manipulé, il est généralement catégorique et les sujets sont assignés aléatoirement à des conditions.

2. Cela nimplique pas de causalité, mais cest une variable prédictive clé pour répondre à la question de recherche. En dautres termes, cest dans le modèle parce que le chercheur est intéressé à comprendre sa relation avec la variable dépendante. En d’autres termes, ce n’est pas une variable de contrôle.

3. Cela nimplique pas la causalité ou limportance de la variable pour la question de recherche. Mais il nest pas corrélé (indépendant) de tous les autres prédicteurs.

Honnêtement, je nai vu que récemment quelquun définir le terme variable indépendante de cette façon. Les variables de prédiction ne peuvent pas être des variables indépendantes si elles sont corrélées. Cela ma surpris, mais il est bon de savoir que certaines personnes le pensent quand elles utilisent le terme.

Variable explicative

Une variable prédictive dans un modèle où le point principal nest pas de prédire la variable de réponse, mais pour expliquer une relation entre X et Y.

Variable de contrôle

Une variable prédictive qui pourrait être liée à ou affecter la variable dépendante, mais pas vraiment intéressante pour la question de recherche.

Covariable

Généralement une variable prédictive continue. Utilisé à la fois dans ANCOVA (analyse de la covariance) et dans la régression. Certaines personnes lutilisent pour désigner toutes les variables prédictives de la régression, mais cela signifie en réalité des prédicteurs continus. Lajout dune covariable à lANOVA (analyse de la variance) la transforme en ANCOVA (analyse de la covariance).

Parfois, la covariable implique que la variable est une variable de contrôle (par opposition à une variable indépendante), mais pas toujours.

Et parfois les gens utilisent une covariable pour désigner une variable de contrôle, numérique ou catégorique.

Celui-ci est tellement déroutant quil a son propre article sur les termes statistiques confus.

Variable de confusion, facteur de confusion

Ces termes sont utilisés différemment dans différents domaines. Dans la conception expérimentale, il s’agit d’une variable dont l’effet ne peut être distingué de l’effet d’une variable indépendante.

Dans les champs d’observation, il s’agit d’une des deux situations. La première est une variable qui est tellement corrélée à une variable indépendante qu’il est difficile de séparer leurs effets sur la variable de réponse. La seconde est une variable qui provoque l’effet de la variable indépendante sur la réponse.

La distinction dans ces interprétations est légère mais importante.

Variable dexposition

Cest un terme pour variable indépendante dans certains domaines, en particulier lépidémiologie. Cest la variable prédictive clé.

Facteur de risque

Un autre terme épidémiologique pour une variable prédictive. Contrairement au terme «facteur» répertorié ci-dessous, il nimplique pas de variable catégorielle.

Facteur

Variable prédictive catégorielle. Il peut indiquer ou non une relation de cause à effet avec le variable de réponse (cela dépend de la conception de létude, pas de lanalyse).

Les variables indépendantes de lANOVA sont presque toujours appelées facteurs. Dans la régression, elles sont souvent appelées variables indicatrices, prédicteurs catégoriels ou variables fictives . Ce sont tous la même chose dans ce contexte.

De plus, notez que Factor a complètement dautres significations dans les statistiques, il a donc aussi son propre article sur les termes statistiques confus.

Fonctionnalité

Utilisé dans lapprentissage automatique et les modèles prédictifs, il sagit simplement dune variable prédictive.

Variable de regroupement

Identique à un facteur.

Facteur fixe

Variable prédictive catégorielle dans laquelle les valeurs spécifiques des catégories sont intentionnelles et importantes, souvent choisies par lexpérimentateur. Les exemples incluent experi traitements mentaux ou catégories démographiques, telles que le sexe et la race.

Si vous ne faites pas un modèle mixte (et vous devriez savoir si vous lêtes), tous vos facteurs sont des facteurs fixes. Pour une explication plus approfondie des facteurs fixes et aléatoires, voir Spécification des facteurs fixes et aléatoires dans les modèles mixtes ou multi-niveaux

Facteur aléatoire

Variable prédictive catégorielle dans laquelle les valeurs spécifiques de les catégories ont été attribuées au hasard. Généralement utilisé dans la modélisation mixte. Les exemples incluent des sujets ou des blocs aléatoires.

Pour une explication plus approfondie des facteurs fixes et aléatoires, voir Spécification de facteurs fixes et aléatoires dans des modèles mixtes ou multi-niveaux

Variable de blocage

Ce terme est généralement utilisé dans la conception expérimentale, mais je lai également vu dans les essais contrôlés randomisés.

Une variable de blocage est une variable qui indique un bloc expérimental: un cluster ou une unité expérimentale qui restreint la randomisation complète et cela aboutit souvent à des valeurs de réponse similaires parmi les membres du bloc.

Les variables de blocage peuvent être des facteurs fixes ou aléatoires. Elles ne sont jamais continues.

Variable fictive

Une variable catégorielle qui a été codée fictivement. Le codage fictif (également appelé codage dindicateur) est généralement utilisé dans les modèles de régression, mais pas dans lANOVA. Une variable fictive ne peut avoir que deux valeurs: 0 et 1. Lorsquune variable catégorielle a plus de deux valeurs, elle est recodée en plusieurs variables fictives.

Variable indicatrice

Identique à dummy

Le message à emporter

Chaque fois que vous utilisez des termes techniques dans un rapport, un article ou une conversation, il est toujours judicieux de définir vos termes. Ceci est particulièrement important dans les statistiques, qui sont utilisées dans de très nombreux domaines, chacun ajoutant ses propres subtilités à la terminologie.

Série de termes statistiques déroutants

Termes statistiques déroutants # 1 : Les nombreux noms de variables indépendantes

Termes statistiques déroutants n ° 2: alpha et bêta

Terme statistique déroutant n ° 4: régression hiérarchique vs modèle hiérarchique

Interprétation des coefficients de régression linéaire: un aperçu de la sortie
Apprenez à comprendre les coefficients de cette régression en parcourant la sortie dun modèle qui comprend des prédicteurs numériques et interaction.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *