Forvirrende statistiske termer nr. 1: De mange navnene på uavhengige variabler
Statistiske modeller, som generelle lineære modeller (lineær regresjon, ANOVA, MANOVA), lineære blandede modeller og generaliserte lineære modeller (logistikk, Poisson, regresjon, etc.) har alle den samme generelle formen.
På venstre side av ligningen er en eller flere responsvariabler, Y. På høyre side er en eller flere prediktorvariabler, X , og deres koeffisienter, B. Variablene på høyre side kan ha mange former og kalles med mange navn.
Det er subtile skiller i betydningen av disse navnene. Dessverre er det imidlertid to fremgangsmåter som gjør dem mer forvirrende enn de trenger å være.
For det første brukes de ofte om hverandre. Så noen kan bruke «prediktorvariabel» og «uavhengig variabel» om hverandre, og en annen person ikke. Så lytteren kan lese om de subtile skillene som høyttaleren kanskje ikke antyder.
For det andre brukes de samme begrepene forskjellig i forskjellige felt eller forskningssituasjoner. Så hvis du er en epidemiolog som forsker på mest observerte variabler, har du sannsynligvis blitt opplært med litt forskjellige betydninger av noen av disse begrepene enn hvis du er en psykolog som gjør eksperimentell forskning.
Enda verre, statistiske programvarepakker bruker forskjellige navn for lignende konsepter, selv blant sine egne prosedyrer. Denne jakten på nøyaktighet gir ofte forvirring. (Det er vanskelig nok uten å bytte ord!).
Her er noen vanlige termer som alle refererer til en variabel i en modell som er foreslått å påvirke eller forutsi en annen variabel.
I Jeg gir deg de forskjellige definisjonene og implikasjonene, men det er veldig sannsynlig at jeg mangler noen. Hvis du ser et begrep som betyr noe annet enn du forstår det, kan du legge det til i kommentarene. Og fortell oss hvilket felt du primært jobber med.
Predictor Variable, Predictor
Dette er den mest generiske av begrepene. Det er ingen implikasjoner for å bli manipulert, observert, kategorisk eller numerisk. Det innebærer ikke kausalitet.
En prediktorvariabel brukes ganske enkelt for å forklare eller forutsi verdien av responsvariabelen. Brukes hovedsakelig i regresjon.
Uavhengig variabel
Jeg har sett Uavhengig variabel (IV) brukt på forskjellige måter.
1. Det innebærer kausalitet: den uavhengige variabelen påvirker den avhengige variabelen. Denne bruken er dominerende i ANOVA-modeller der den uavhengige variabelen manipuleres av eksperimentatoren. Hvis det manipuleres, er det generelt kategorisk, og fag blir tilfeldig tildelt forhold.
2. Det innebærer ikke kausalitet, men det er en viktig prediktorvariabel for å svare på forskningsspørsmålet. Det ligger med andre ord i modellen fordi forskeren er interessert i å forstå forholdet til den avhengige variabelen. Med andre ord er det ikke en kontrollvariabel.
3. Det innebærer ikke kausalitet eller variabelens betydning for forskningsspørsmålet. Men det er ukorrelert (uavhengig) av alle andre prediktorer.
Ærlig talt så jeg nylig noen definere begrepet Independent Variable på denne måten. Prediktorvariabler kan ikke være uavhengige variabler hvis de i det hele tatt er korrelert. Det overrasket meg, men det er godt å vite at noen mennesker mener dette når de bruker begrepet.
Forklarende variabel
En prediktorvariabel i en modell der hovedpoenget ikke er å forutsi responsvariabelen, men for å forklare et forhold mellom X og Y.
Kontrollvariabel
En prediktorvariabel som kan være relatert til eller påvirke den avhengige variabelen, men som egentlig ikke er av interesse for forskningsspørsmålet.
Kovariat
Generelt en kontinuerlig prediktorvariabel. Brukes i både ANCOVA (analyse av kovarians) og regresjon. Noen bruker dette for å referere til alle prediktorvariabler i regresjon, men det betyr egentlig kontinuerlige prediktorer. Å legge et kovariat til ANOVA (analyse av varians) gjør det til ANCOVA (analyse av kovarians).
Noen ganger innebærer kovariat at variabelen er en kontrollvariabel (i motsetning til en uavhengig variabel), men ikke alltid.
Og noen ganger bruker folk kovariat for å bety kontrollvariabler, enten numeriske eller kategoriske.
Denne er så forvirrende at den fikk sin egen Confusing Statistical Terms artikkel.
Confounding Variable, Confounder
Disse begrepene brukes forskjellig i forskjellige felt. I eksperimentell design betyr det en variabel hvis effekt ikke kan skilles fra effekten av en uavhengig variabel.
I observasjonsfelt brukes den til å bety en av to situasjoner. Den første er en variabel som er så korrelert med en uavhengig variabel at det er vanskelig å skille ut effekten av responsvariabelen. Den andre er en variabel som forårsaker den uavhengige variabelens effekt på responsen.
Skillet i disse tolkningene er lite, men viktig.
Eksponeringsvariabel
Dette er et begrep for uavhengig variabel på noen felt, særlig epidemiologi. Det er den viktigste prediktorvariabelen.
Risikofaktor
Et annet epidemiologisk begrep for en prediktorvariabel. I motsetning til begrepet «Faktor» oppført nedenfor, innebærer det ikke en kategorisk variabel.
Faktor
En kategorisk prediktorvariabel. Det kan eller ikke kan indikere et årsak / virkningsforhold til responsvariabel (dette avhenger av studiedesignet, ikke analysen).
Uavhengige variabler i ANOVA kalles nesten alltid faktorer. I regresjon blir de ofte referert til som indikatorvariabler, kategoriske prediktorer eller dummyvariabler . De er alle de samme tingene i denne sammenhengen.
Vær også oppmerksom på at Factor har helt andre betydninger i statistikk, så også den fikk sin egen forvirrende artikkel om statistiske vilkår.
Feature
Brukes i maskinlæring og prediktive modeller, dette er ganske enkelt en prediktorvariabel.
Grupperingsvariabel
Samme som en faktor.
Fast faktor
En kategorisk prediktorvariabel der de spesifikke verdiene i kategoriene er forsettlige og viktige, ofte valgt av eksperimentatoren. Eksempler inkluderer eksperi mentale behandlinger eller demografiske kategorier, som kjønn og rase.
Hvis du ikke gjør en blandet modell (og du bør vite om du er), er alle faktorene dine faste faktorer. For en grundigere forklaring av faste og tilfeldige faktorer, se Spesifisere faste og tilfeldige faktorer i blandede eller flernivåmodeller
Tilfeldig faktor
En kategorisk prediktorvariabel der de spesifikke verdiene av kategoriene ble tilfeldig tildelt. Vanligvis brukt i blandet modellering. Eksempler inkluderer emner eller tilfeldige blokker.
For mer grundig forklaring av faste og tilfeldige faktorer, se Spesifisere faste og tilfeldige faktorer i blandede eller flernivåmodeller
Blokkeringsvariabel
Dette begrepet brukes vanligvis i eksperimentell design, men jeg har også sett det i randomiserte kontrollerte studier.
En blokkeringsvariabel er en variabel som indikerer en eksperimentell blokk: en klynge eller eksperimentell enhet som begrenser fullstendig randomisering og som ofte resulterer i lignende responsverdier blant medlemmer av blokken.
Blokkeringsvariabler kan være enten faste eller tilfeldige faktorer. De er aldri kontinuerlige.
Dummyvariabel
En kategorisk variabel som har blitt dummykodet. Dummy-koding (også kalt indikatorkoding) brukes vanligvis i regresjonsmodeller, men ikke ANOVA. En dummyvariabel kan bare ha to verdier: 0 og 1. Når en kategorisk variabel har mer enn to verdier, blir den kodet om til flere dummyvariabler.
Indikatorvariabel
Samme som dummy variabel.
The Take Away Message
Når du bruker tekniske uttrykk i en rapport, en artikkel eller en samtale, er det alltid lurt å definere begrepene dine. Dette er spesielt viktig i statistikken, som brukes i mange, mange felt, som hver legger til sine egne finesser i terminologien.
Forvirrende statistiske vilkårserie
Forvirrende statistiske termer # 1 : De mange navnene på uavhengige variabler