Termini statistici confusi n. 1: i molti nomi di variabili indipendenti

Modelli statistici, come modelli lineari generali (regressione lineare, ANOVA, MANOVA), modelli misti lineari e modelli lineari generalizzati (logistica, Poisson, regressione, ecc.) Hanno tutte la stessa forma generale.

Sul lato sinistro dellequazione cè una o più variabili di risposta, Y. Sul lato destro cè una o più variabili predittive, X e i loro coefficienti B. Le variabili sul lato destro possono avere molte forme e sono chiamate con molti nomi.

Ci sono sottili distinzioni nel significato di questi nomi. Sfortunatamente, però, ci sono due pratiche che li rendono più confusi del necessario.

Primo, sono spesso usati in modo intercambiabile. Quindi qualcuno può usare “variabile predittore” e “variabile indipendente” in modo intercambiabile e unaltra persona no. Quindi lascoltatore potrebbe leggere le sottili distinzioni che loratore potrebbe non sottintendere.

In secondo luogo, gli stessi termini sono usati in modo diverso in diversi campi o situazioni di ricerca. Quindi, se sei un epidemiologo che fa ricerca su variabili per lo più osservate, probabilmente sei stato addestrato con significati leggermente diversi per alcuni di questi termini rispetto a se fossi uno psicologo che fa ricerca sperimentale.

Ancora peggio, i pacchetti software statistici utilizzano nomi diversi per concetti simili, anche tra le proprie procedure. Questa ricerca dellaccuratezza spesso genera confusione. (È già abbastanza difficile senza cambiare le parole!).

Ecco alcuni termini comuni che si riferiscono tutti a una variabile in un modello che si propone di influenzare o prevedere unaltra variabile.

I Ti darò le diverse definizioni e implicazioni, ma è molto probabile che me ne manchino alcune. Se vedi un termine che significa qualcosa di diverso da come lo capisci, aggiungilo ai commenti. E per favore dicci in quale campo lavori principalmente.

Variabile predittore, predittore

Questo è il termine più generico. Non ci sono implicazioni per essere manipolati, osservati, categorici o numerici. Non implica la causalità.

Una variabile predittore viene semplicemente utilizzata per spiegare o prevedere il valore della variabile di risposta. Utilizzato prevalentemente nella regressione.

Variabile indipendente

Ho visto Variabile indipendente (IV) utilizzata in modi diversi.

1. Implica la causalità: la variabile indipendente influenza la variabile dipendente. Questo utilizzo è predominante nei modelli ANOVA in cui la variabile indipendente viene manipolata dallo sperimentatore. Se viene manipolato, è generalmente categoriale e i soggetti vengono assegnati in modo casuale alle condizioni.

2. Non implica la causalità, ma è una variabile predittiva chiave per rispondere alla domanda di ricerca. In altre parole, è nel modello perché il ricercatore è interessato a comprendere la sua relazione con la variabile dipendente. In altre parole, non è una variabile di controllo.

3. Non implica la causalità o limportanza della variabile per la domanda di ricerca. Ma non è correlato (indipendente) da tutti gli altri predittori.

Onestamente, solo di recente ho visto qualcuno definire il termine Variabile indipendente in questo modo. Le variabili predittore non possono essere variabili indipendenti se sono affatto correlate. Mi ha sorpreso, ma è bello sapere che alcune persone intendono questo quando usano il termine.

Variabile esplicativa

Una variabile predittiva in un modello in cui il punto principale non è prevedere la variabile di risposta, ma per spiegare una relazione tra X e Y.

Variabile di controllo

Una variabile predittore che potrebbe essere correlata o influenzare la variabile dipendente, ma non di proprio interesse la domanda di ricerca.

Covariate

Generalmente una variabile predittiva continua. Utilizzato sia in ANCOVA (analisi della covarianza) che in regressione. Alcune persone lo usano per fare riferimento a tutte le variabili predittive nella regressione, ma in realtà significa predittori continui. Laggiunta di una covariata ad ANOVA (analisi della varianza) la trasforma in ANCOVA (analisi della covarianza).

A volte la covariata implica che la variabile è una variabile di controllo (al contrario di una variabile indipendente), ma non sempre.

E a volte le persone usano covariate per indicare la variabile di controllo, numerica o categorica.

Questa è così confusa che ha il proprio articolo sui termini statistici confusi.

Confounding Variable, Confounder

Questi termini vengono utilizzati in modo diverso nei diversi campi. Nella progettazione sperimentale, è usato per indicare una variabile il cui effetto non può essere distinto dalleffetto di una variabile indipendente.

Nei campi di osservazione, è usato per indicare una delle due situazioni. La prima è una variabile che è così correlata con una variabile indipendente che è difficile distinguere i loro effetti sulla variabile di risposta. La seconda è una variabile che causa leffetto della variabile indipendente sulla risposta.

La distinzione in queste interpretazioni è lieve ma importante.

Variabile di esposizione

Questo è un termine per variabile indipendente in alcuni campi, in particolare lepidemiologia. È la variabile predittiva chiave.

Fattore di rischio

Un altro termine epidemiologico per una variabile predittiva. A differenza del termine “Fattore” elencato di seguito, non implica una variabile categoriale.

Fattore

Una variabile predittiva categoriale. Può o meno indicare una relazione di causa / effetto con il variabile di risposta (questo dipende dal disegno dello studio, non dallanalisi).

Le variabili indipendenti in ANOVA sono quasi sempre chiamate fattori. Nella regressione, vengono spesso indicate come variabili indicatore, predittori categoriali o variabili fittizie . Sono tutti la stessa cosa in questo contesto.

Inoltre, tieni presente che Factor ha significati completamente altri in statistica, quindi anchesso ha il suo articolo Confusing Statistical Terms.

Funzionalità

Utilizzata nei modelli di machine learning e predittivi, questa è semplicemente una variabile predittiva.

Variabile di raggruppamento

Uguale a un fattore.

Fattore fisso

Una variabile predittore categoriale in cui i valori specifici delle categorie sono intenzionali e importanti, spesso scelti dallo sperimentatore. Gli esempi includono lesperienza trattamenti mentali o categorie demografiche, come sesso e razza.

Se non stai seguendo un modello misto (e dovresti sapere se lo sei), tutti i tuoi fattori sono fattori fissi. Per una spiegazione più approfondita dei fattori fissi e casuali, vedere Specifica di fattori fissi e casuali in modelli misti o multilivello

Fattore casuale

Una variabile predittore categoriale in cui i valori specifici di le categorie sono state assegnate in modo casuale. Generalmente utilizzato nella modellazione mista. Gli esempi includono soggetti o blocchi casuali.

Per una spiegazione più approfondita dei fattori fissi e casuali, vedere Specifica di fattori fissi e casuali in modelli misti o multilivello

Variabile di blocco

Questo termine è generalmente utilizzato nella progettazione sperimentale, ma lho anche visto in prove controllate randomizzate.

Una variabile di blocco è una variabile che indica un blocco sperimentale: un cluster o ununità sperimentale che limita la randomizzazione completa e questo spesso si traduce in valori di risposta simili tra i membri del blocco.

Le variabili di blocco possono essere fattori fissi o casuali. Non sono mai continue.

Variabile fittizia

Una variabile categorica che è stata codificata in modo fittizio. La codifica fittizia (chiamata anche codifica dellindicatore) viene solitamente utilizzata nei modelli di regressione, ma non ANOVA. Una variabile fittizia può avere solo due valori: 0 e 1. Quando una variabile categoriale ha più di due valori, viene ricodificata in più variabili fittizie.

Variabile indicatore

Uguale a dummy variabile.

Il messaggio da portare via

Ogni volta che utilizzi termini tecnici in un rapporto, un articolo o una conversazione, è sempre una buona idea definire i tuoi termini. Ciò è particolarmente importante nelle statistiche, che vengono utilizzate in molti, molti campi, ognuno dei quali aggiunge le proprie sottigliezze alla terminologia.

Serie di termini statistici confusi

Termini statistici confusi n. 1 : I molti nomi di variabili indipendenti

Termini statistici confusi n. 2: alfa e beta

Termine statistico confuso n. 4: regressione gerarchica vs. modello gerarchico

Interpretazione dei coefficienti di regressione lineare: una panoramica delloutput
Impara lapproccio per comprendere i coefficienti in quella regressione mentre esaminiamo loutput di un modello che include predittori numerici e categoriali e un interazione.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *