Förvirrande statistiska termer # 1: De många namnen på oberoende variabler
Statistiska modeller, såsom allmänna linjära modeller (linjär regression, ANOVA, MANOVA), linjära blandade modeller och generaliserade linjära modeller (logistik, Poisson, regression, etc.) har alla samma allmänna form.
På vänster sida av ekvationen finns en eller flera svarsvariabler, Y. På höger sida finns en eller flera prediktorvariabler, X , och deras koefficienter, B. Variablerna på höger sida kan ha många former och kallas av många namn.
Det finns subtila skillnader i betydelsen av dessa namn. Tyvärr finns det dock två metoder som gör dem mer förvirrande än vad de behöver vara.
För det första används de ofta omväxlande. Så någon kan använda ”prediktorvariabel” och ”oberoende variabel” utbytbart och en annan person kanske inte. Så lyssnaren kan läsa in de subtila skillnader som talaren kanske inte antyder.
För det andra används samma termer på olika sätt inom olika fält eller forskningssituationer. Så om du är en epidemiolog som forskar på mest observerade variabler har du förmodligen blivit utbildad med lite olika betydelser för några av dessa termer än om du är en psykolog som gör experimentell forskning.
Ännu värre, statistiska programvarupaket använder olika namn för liknande koncept, även bland sina egna procedurer. Denna strävan efter noggrannhet ger ofta förvirring. (Det är svårt nog utan att byta ord!).
Här är några vanliga termer som alla hänvisar till en variabel i en modell som föreslås påverka eller förutsäga en annan variabel.
I Jag kommer att ge dig olika definitioner och konsekvenser, men det är mycket troligt att jag saknar några. Om du ser ett begrepp som betyder något annat än du förstår det, vänligen lägg till det i kommentarerna. Och berätta för oss vilket fält du huvudsakligen arbetar inom.
Predictor Variable, Predictor
Detta är den mest generiska av termerna. Det finns inga konsekvenser för att manipuleras, observeras, kategoriskt eller numeriskt. Det innebär inte kausalitet.
En prediktorvariabel används helt enkelt för att förklara eller förutsäga värdet på svarsvariabeln. Används främst i regression.
Oberoende variabel
Jag har sett Independent Variable (IV) använts på olika sätt.
1. Det innebär kausalitet: den oberoende variabeln påverkar den beroende variabeln. Denna användning är dominerande i ANOVA-modeller där den oberoende variabeln manipuleras av experimentet. Om det manipuleras är det i allmänhet kategoriskt och ämnen tilldelas slumpmässigt villkor.
2. Det innebär inte kausalitet, men det är en viktig prediktorvariabel för att svara på forskningsfrågan. Med andra ord ligger det i modellen eftersom forskaren är intresserad av att förstå dess förhållande till den beroende variabeln. Med andra ord är det inte en kontrollvariabel.
3. Det innebär inte kausalitet eller variabelns betydelse för forskningsfrågan. Men det är okorrelerat (oberoende) av alla andra förutsägare.
Ärligt talat såg jag nyligen någon definiera termen Independent Variable på detta sätt. Predictor-variabler kan inte vara oberoende variabler om de alls är korrelerade. Det förvånade mig, men det är bra att veta att vissa människor menar detta när de använder termen.
Förklaringsvariabel
En prediktorvariabel i en modell där huvudpunkten inte är att förutsäga svarsvariabeln, men för att förklara förhållandet mellan X och Y.
Kontrollvariabel
En prediktorvariabel som kan relateras till eller påverka den beroende variabeln, men inte riktigt intressant för forskningsfrågan.
Kovariat
Generellt en kontinuerlig prediktorvariabel. Används i både ANCOVA (analys av kovarians) och regression. Vissa använder detta för att hänvisa till alla prediktorvariabler i regression, men det betyder verkligen kontinuerliga prediktorer. Att lägga till ett kovariat i ANOVA (analys av varians) gör det till ANCOVA (analys av kovarians).
Ibland innebär kovariat att variabeln är en kontrollvariabel (i motsats till en oberoende variabel), men inte alltid.
Och ibland använder människor kovariat för att mena kontrollvariabler, antingen numeriska eller kategoriska.
Den här är så förvirrande att den fick sin egen artikel om förvirrande statistiska termer.
Confounding Variable, Confounder
Dessa termer används olika i olika fält. I experimentell design betyder det en variabel vars effekt inte kan särskiljas från effekten av en oberoende variabel.
I observationsfält används den för en av två situationer. Den första är en variabel som är så korrelerad med en oberoende variabel att det är svårt att skilja deras effekter på svarsvariabeln. Den andra är en variabel som orsakar den oberoende variabelns effekt på svaret.
Skillnaden i dessa tolkningar är liten men viktig.
Exponeringsvariabel
Detta är en term för oberoende variabel inom vissa områden, särskilt epidemiologi. Det är den viktigaste prediktorvariabeln.
Riskfaktor
Ytterligare en epidemiologisk term för en prediktorvariabel. Till skillnad från termen ”Faktor” listad nedan innebär det inte en kategorisk variabel.
Faktor
En kategorisk prediktorvariabel. Den kan eller kanske inte indikerar en orsak / effekt-relation till responsvariabel (detta beror på studiens design, inte analysen).
Oberoende variabler i ANOVA kallas nästan alltid faktorer. I regression kallas de ofta indikatorvariabler, kategoriska prediktorer eller dummyvariabler . De är alla samma sak i det här sammanhanget.
Observera också att Factor har helt andra betydelser i statistik, så att den också fick sin egen förvirrande artikel om statistiska termer.
Feature
Används i maskininlärnings- och prediktiva modeller, detta är helt enkelt en prediktorvariabel.
Grupperingsvariabel
Samma som en faktor.
Fast faktor
En kategorisk prediktorvariabel där de specifika värdena för kategorierna är avsiktliga och viktiga, ofta valda av experimentet. Exempel inkluderar experi mentala behandlingar eller demografiska kategorier, som kön och ras.
Om du inte gör en blandad modell (och du borde veta om du är) är alla dina faktorer fasta faktorer. För en mer ingående förklaring av fasta och slumpmässiga faktorer, se Specificera fasta och slumpmässiga faktorer i blandade eller flernivåmodeller
Slumpmässig faktor
En kategorisk prediktorvariabel där de specifika värdena för kategorierna slumpmässigt tilldelades. Används vanligtvis i blandad modellering. Exempel inkluderar ämnen eller slumpmässiga block.
För en mer ingående förklaring av fasta och slumpmässiga faktorer, se Specificera fasta och slumpmässiga faktorer i blandade eller flernivåmodeller
Blockeringsvariabel
Denna term används vanligtvis i experimentell design, men jag har också sett den i randomiserade kontrollerade försök.
En blockeringsvariabel är en variabel som indikerar ett experimentblock: ett kluster eller en experimentenhet som begränsar fullständig randomisering och som ofta resulterar i liknande svarvärden bland medlemmarna i blocket.
Blockeringsvariabler kan vara antingen fasta eller slumpmässiga faktorer. De är aldrig kontinuerliga.
Dummyvariabel
En kategorisk variabel som har dummykodats. Dummy-kodning (även kallad indikatorkodning) används vanligtvis i regressionsmodeller, men inte ANOVA. En dummyvariabel kan bara ha två värden: 0 och 1. När en kategorivariabel har mer än två värden, omkodas den till flera dummyvariabler.
Indikatorvariabel
Samma som dummy variabel.
Meddelandet Take Away
När du använder tekniska termer i en rapport, en artikel eller en konversation är det alltid en bra idé att definiera dina termer. Detta är särskilt viktigt i statistiken, som används i många, många fält, var och en lägger till sina egna finesser till terminologin.
Förvirrande statistiska termer serie
Förvirrande statistiska termer # 1 : De många namnen på oberoende variabler