Förvirrande statistiska termer # 1: De många namnen på oberoende variabler

Statistiska modeller, såsom allmänna linjära modeller (linjär regression, ANOVA, MANOVA), linjära blandade modeller och generaliserade linjära modeller (logistik, Poisson, regression, etc.) har alla samma allmänna form.

På vänster sida av ekvationen finns en eller flera svarsvariabler, Y. På höger sida finns en eller flera prediktorvariabler, X , och deras koefficienter, B. Variablerna på höger sida kan ha många former och kallas av många namn.

Det finns subtila skillnader i betydelsen av dessa namn. Tyvärr finns det dock två metoder som gör dem mer förvirrande än vad de behöver vara.

För det första används de ofta omväxlande. Så någon kan använda ”prediktorvariabel” och ”oberoende variabel” utbytbart och en annan person kanske inte. Så lyssnaren kan läsa in de subtila skillnader som talaren kanske inte antyder.

För det andra används samma termer på olika sätt inom olika fält eller forskningssituationer. Så om du är en epidemiolog som forskar på mest observerade variabler har du förmodligen blivit utbildad med lite olika betydelser för några av dessa termer än om du är en psykolog som gör experimentell forskning.

Ännu värre, statistiska programvarupaket använder olika namn för liknande koncept, även bland sina egna procedurer. Denna strävan efter noggrannhet ger ofta förvirring. (Det är svårt nog utan att byta ord!).

Här är några vanliga termer som alla hänvisar till en variabel i en modell som föreslås påverka eller förutsäga en annan variabel.

I Jag kommer att ge dig olika definitioner och konsekvenser, men det är mycket troligt att jag saknar några. Om du ser ett begrepp som betyder något annat än du förstår det, vänligen lägg till det i kommentarerna. Och berätta för oss vilket fält du huvudsakligen arbetar inom.

Predictor Variable, Predictor

Detta är den mest generiska av termerna. Det finns inga konsekvenser för att manipuleras, observeras, kategoriskt eller numeriskt. Det innebär inte kausalitet.

En prediktorvariabel används helt enkelt för att förklara eller förutsäga värdet på svarsvariabeln. Används främst i regression.

Oberoende variabel

Jag har sett Independent Variable (IV) använts på olika sätt.

1. Det innebär kausalitet: den oberoende variabeln påverkar den beroende variabeln. Denna användning är dominerande i ANOVA-modeller där den oberoende variabeln manipuleras av experimentet. Om det manipuleras är det i allmänhet kategoriskt och ämnen tilldelas slumpmässigt villkor.

2. Det innebär inte kausalitet, men det är en viktig prediktorvariabel för att svara på forskningsfrågan. Med andra ord ligger det i modellen eftersom forskaren är intresserad av att förstå dess förhållande till den beroende variabeln. Med andra ord är det inte en kontrollvariabel.

3. Det innebär inte kausalitet eller variabelns betydelse för forskningsfrågan. Men det är okorrelerat (oberoende) av alla andra förutsägare.

Ärligt talat såg jag nyligen någon definiera termen Independent Variable på detta sätt. Predictor-variabler kan inte vara oberoende variabler om de alls är korrelerade. Det förvånade mig, men det är bra att veta att vissa människor menar detta när de använder termen.

Förklaringsvariabel

En prediktorvariabel i en modell där huvudpunkten inte är att förutsäga svarsvariabeln, men för att förklara förhållandet mellan X och Y.

Kontrollvariabel

En prediktorvariabel som kan relateras till eller påverka den beroende variabeln, men inte riktigt intressant för forskningsfrågan.

Kovariat

Generellt en kontinuerlig prediktorvariabel. Används i både ANCOVA (analys av kovarians) och regression. Vissa använder detta för att hänvisa till alla prediktorvariabler i regression, men det betyder verkligen kontinuerliga prediktorer. Att lägga till ett kovariat i ANOVA (analys av varians) gör det till ANCOVA (analys av kovarians).

Ibland innebär kovariat att variabeln är en kontrollvariabel (i motsats till en oberoende variabel), men inte alltid.

Och ibland använder människor kovariat för att mena kontrollvariabler, antingen numeriska eller kategoriska.

Den här är så förvirrande att den fick sin egen artikel om förvirrande statistiska termer.

Confounding Variable, Confounder

Dessa termer används olika i olika fält. I experimentell design betyder det en variabel vars effekt inte kan särskiljas från effekten av en oberoende variabel.

I observationsfält används den för en av två situationer. Den första är en variabel som är så korrelerad med en oberoende variabel att det är svårt att skilja deras effekter på svarsvariabeln. Den andra är en variabel som orsakar den oberoende variabelns effekt på svaret.

Skillnaden i dessa tolkningar är liten men viktig.

Exponeringsvariabel

Detta är en term för oberoende variabel inom vissa områden, särskilt epidemiologi. Det är den viktigaste prediktorvariabeln.

Riskfaktor

Ytterligare en epidemiologisk term för en prediktorvariabel. Till skillnad från termen ”Faktor” listad nedan innebär det inte en kategorisk variabel.

Faktor

En kategorisk prediktorvariabel. Den kan eller kanske inte indikerar en orsak / effekt-relation till responsvariabel (detta beror på studiens design, inte analysen).

Oberoende variabler i ANOVA kallas nästan alltid faktorer. I regression kallas de ofta indikatorvariabler, kategoriska prediktorer eller dummyvariabler . De är alla samma sak i det här sammanhanget.

Observera också att Factor har helt andra betydelser i statistik, så att den också fick sin egen förvirrande artikel om statistiska termer.

Feature

Används i maskininlärnings- och prediktiva modeller, detta är helt enkelt en prediktorvariabel.

Grupperingsvariabel

Samma som en faktor.

Fast faktor

En kategorisk prediktorvariabel där de specifika värdena för kategorierna är avsiktliga och viktiga, ofta valda av experimentet. Exempel inkluderar experi mentala behandlingar eller demografiska kategorier, som kön och ras.

Om du inte gör en blandad modell (och du borde veta om du är) är alla dina faktorer fasta faktorer. För en mer ingående förklaring av fasta och slumpmässiga faktorer, se Specificera fasta och slumpmässiga faktorer i blandade eller flernivåmodeller

Slumpmässig faktor

En kategorisk prediktorvariabel där de specifika värdena för kategorierna slumpmässigt tilldelades. Används vanligtvis i blandad modellering. Exempel inkluderar ämnen eller slumpmässiga block.

För en mer ingående förklaring av fasta och slumpmässiga faktorer, se Specificera fasta och slumpmässiga faktorer i blandade eller flernivåmodeller

Blockeringsvariabel

Denna term används vanligtvis i experimentell design, men jag har också sett den i randomiserade kontrollerade försök.

En blockeringsvariabel är en variabel som indikerar ett experimentblock: ett kluster eller en experimentenhet som begränsar fullständig randomisering och som ofta resulterar i liknande svarvärden bland medlemmarna i blocket.

Blockeringsvariabler kan vara antingen fasta eller slumpmässiga faktorer. De är aldrig kontinuerliga.

Dummyvariabel

En kategorisk variabel som har dummykodats. Dummy-kodning (även kallad indikatorkodning) används vanligtvis i regressionsmodeller, men inte ANOVA. En dummyvariabel kan bara ha två värden: 0 och 1. När en kategorivariabel har mer än två värden, omkodas den till flera dummyvariabler.

Indikatorvariabel

Samma som dummy variabel.

Meddelandet Take Away

När du använder tekniska termer i en rapport, en artikel eller en konversation är det alltid en bra idé att definiera dina termer. Detta är särskilt viktigt i statistiken, som används i många, många fält, var och en lägger till sina egna finesser till terminologin.

Förvirrande statistiska termer serie

Förvirrande statistiska termer # 1 : De många namnen på oberoende variabler

Förvirrande statistiska termer # 2: alfa och beta

Förvirrande statistisk term nr 4: hierarkisk regression mot hierarkisk modell

Tolkning av linjära regressionskoefficienter: En genomgång av utdata
Lär dig tillvägagångssättet för att förstå koefficienter i den regressionen när vi går igenom produktionen av en modell som innehåller numeriska och kategoriska prediktorer och en interaktion.

Lämna ett svar

Din e-postadress kommer inte publiceras. Obligatoriska fält är märkta *