Forvirrende statistiske termer nr. 1: De mange navnene på uavhengige variabler

november 25, 2020

Forvirrende statistiske termer nr. 1: De mange navnene på uavhengige variabler

Statistiske modeller, som generelle lineære modeller (lineær regresjon, ANOVA, MANOVA), lineære blandede modeller og generaliserte lineære modeller (logistikk, Poisson, regresjon, etc.) har alle den samme generelle formen.

På venstre side av ligningen er en eller flere responsvariabler, Y. På høyre side er en eller flere prediktorvariabler, X , og deres koeffisienter, B. Variablene på høyre side kan ha mange former og kalles med mange navn.

Det er subtile skiller i betydningen av disse navnene. Dessverre er det imidlertid to fremgangsmåter som gjør dem mer forvirrende enn de trenger å være.

For det første brukes de ofte om hverandre. Så noen kan bruke «prediktorvariabel» og «uavhengig variabel» om hverandre, og en annen person ikke. Så lytteren kan lese om de subtile skillene som høyttaleren kanskje ikke antyder.

For det andre brukes de samme begrepene forskjellig i forskjellige felt eller forskningssituasjoner. Så hvis du er en epidemiolog som forsker på mest observerte variabler, har du sannsynligvis blitt opplært med litt forskjellige betydninger av noen av disse begrepene enn hvis du er en psykolog som gjør eksperimentell forskning.

Enda verre, statistiske programvarepakker bruker forskjellige navn for lignende konsepter, selv blant sine egne prosedyrer. Denne jakten på nøyaktighet gir ofte forvirring. (Det er vanskelig nok uten å bytte ord!).

Her er noen vanlige termer som alle refererer til en variabel i en modell som er foreslått å påvirke eller forutsi en annen variabel.

I Jeg gir deg de forskjellige definisjonene og implikasjonene, men det er veldig sannsynlig at jeg mangler noen. Hvis du ser et begrep som betyr noe annet enn du forstår det, kan du legge det til i kommentarene. Og fortell oss hvilket felt du primært jobber med.

Predictor Variable, Predictor

Dette er den mest generiske av begrepene. Det er ingen implikasjoner for å bli manipulert, observert, kategorisk eller numerisk. Det innebærer ikke kausalitet.

En prediktorvariabel brukes ganske enkelt for å forklare eller forutsi verdien av responsvariabelen. Brukes hovedsakelig i regresjon.

Uavhengig variabel

Jeg har sett Uavhengig variabel (IV) brukt på forskjellige måter.

1. Det innebærer kausalitet: den uavhengige variabelen påvirker den avhengige variabelen. Denne bruken er dominerende i ANOVA-modeller der den uavhengige variabelen manipuleres av eksperimentatoren. Hvis det manipuleres, er det generelt kategorisk, og fag blir tilfeldig tildelt forhold.

2. Det innebærer ikke kausalitet, men det er en viktig prediktorvariabel for å svare på forskningsspørsmålet. Det ligger med andre ord i modellen fordi forskeren er interessert i å forstå forholdet til den avhengige variabelen. Med andre ord er det ikke en kontrollvariabel.

3. Det innebærer ikke kausalitet eller variabelens betydning for forskningsspørsmålet. Men det er ukorrelert (uavhengig) av alle andre prediktorer.

Ærlig talt så jeg nylig noen definere begrepet Independent Variable på denne måten. Prediktorvariabler kan ikke være uavhengige variabler hvis de i det hele tatt er korrelert. Det overrasket meg, men det er godt å vite at noen mennesker mener dette når de bruker begrepet.

Forklarende variabel

En prediktorvariabel i en modell der hovedpoenget ikke er å forutsi responsvariabelen, men for å forklare et forhold mellom X og Y.

Kontrollvariabel

En prediktorvariabel som kan være relatert til eller påvirke den avhengige variabelen, men som egentlig ikke er av interesse for forskningsspørsmålet.

Kovariat

Generelt en kontinuerlig prediktorvariabel. Brukes i både ANCOVA (analyse av kovarians) og regresjon. Noen bruker dette for å referere til alle prediktorvariabler i regresjon, men det betyr egentlig kontinuerlige prediktorer. Å legge et kovariat til ANOVA (analyse av varians) gjør det til ANCOVA (analyse av kovarians).

Noen ganger innebærer kovariat at variabelen er en kontrollvariabel (i motsetning til en uavhengig variabel), men ikke alltid.

Og noen ganger bruker folk kovariat for å bety kontrollvariabler, enten numeriske eller kategoriske.

Denne er så forvirrende at den fikk sin egen Confusing Statistical Terms artikkel.

Confounding Variable, Confounder

Disse begrepene brukes forskjellig i forskjellige felt. I eksperimentell design betyr det en variabel hvis effekt ikke kan skilles fra effekten av en uavhengig variabel.

I observasjonsfelt brukes den til å bety en av to situasjoner. Den første er en variabel som er så korrelert med en uavhengig variabel at det er vanskelig å skille ut effekten av responsvariabelen. Den andre er en variabel som forårsaker den uavhengige variabelens effekt på responsen.

Skillet i disse tolkningene er lite, men viktig.

Eksponeringsvariabel

Dette er et begrep for uavhengig variabel på noen felt, særlig epidemiologi. Det er den viktigste prediktorvariabelen.

Risikofaktor

Et annet epidemiologisk begrep for en prediktorvariabel. I motsetning til begrepet «Faktor» oppført nedenfor, innebærer det ikke en kategorisk variabel.

Faktor

En kategorisk prediktorvariabel. Det kan eller ikke kan indikere et årsak / virkningsforhold til responsvariabel (dette avhenger av studiedesignet, ikke analysen).

Uavhengige variabler i ANOVA kalles nesten alltid faktorer. I regresjon blir de ofte referert til som indikatorvariabler, kategoriske prediktorer eller dummyvariabler . De er alle de samme tingene i denne sammenhengen.

Vær også oppmerksom på at Factor har helt andre betydninger i statistikk, så også den fikk sin egen forvirrende artikkel om statistiske vilkår.

Feature

Brukes i maskinlæring og prediktive modeller, dette er ganske enkelt en prediktorvariabel.

Grupperingsvariabel

Samme som en faktor.

Fast faktor

En kategorisk prediktorvariabel der de spesifikke verdiene i kategoriene er forsettlige og viktige, ofte valgt av eksperimentatoren. Eksempler inkluderer eksperi mentale behandlinger eller demografiske kategorier, som kjønn og rase.

Hvis du ikke gjør en blandet modell (og du bør vite om du er), er alle faktorene dine faste faktorer. For en grundigere forklaring av faste og tilfeldige faktorer, se Spesifisere faste og tilfeldige faktorer i blandede eller flernivåmodeller

Tilfeldig faktor

En kategorisk prediktorvariabel der de spesifikke verdiene av kategoriene ble tilfeldig tildelt. Vanligvis brukt i blandet modellering. Eksempler inkluderer emner eller tilfeldige blokker.

For mer grundig forklaring av faste og tilfeldige faktorer, se Spesifisere faste og tilfeldige faktorer i blandede eller flernivåmodeller

Blokkeringsvariabel

Dette begrepet brukes vanligvis i eksperimentell design, men jeg har også sett det i randomiserte kontrollerte studier.

En blokkeringsvariabel er en variabel som indikerer en eksperimentell blokk: en klynge eller eksperimentell enhet som begrenser fullstendig randomisering og som ofte resulterer i lignende responsverdier blant medlemmer av blokken.

Blokkeringsvariabler kan være enten faste eller tilfeldige faktorer. De er aldri kontinuerlige.

Dummyvariabel

En kategorisk variabel som har blitt dummykodet. Dummy-koding (også kalt indikatorkoding) brukes vanligvis i regresjonsmodeller, men ikke ANOVA. En dummyvariabel kan bare ha to verdier: 0 og 1. Når en kategorisk variabel har mer enn to verdier, blir den kodet om til flere dummyvariabler.

Indikatorvariabel

Samme som dummy variabel.

The Take Away Message

Når du bruker tekniske uttrykk i en rapport, en artikkel eller en samtale, er det alltid lurt å definere begrepene dine. Dette er spesielt viktig i statistikken, som brukes i mange, mange felt, som hver legger til sine egne finesser i terminologien.

Forvirrende statistiske vilkårserie

Forvirrende statistiske termer # 1 : De mange navnene på uavhengige variabler

Forvirrende statistiske termer nr. 2: Alpha og Beta

Forvirrende statistisk begrep nr. 4: Hierarkisk regresjon vs. hierarkisk modell

Tolke lineære regresjonskoeffisienter: En gjennomgang av utgang

Lær tilnærmingen for å forstå koeffisienter i den regresjonen når vi går gjennom utdata fra en modell som inkluderer numeriske og kategoriske prediktorer og en interaksjon.

admin