Forvirrende statistiske udtryk nr. 1: De mange navne på uafhængige variabler
Statistiske modeller, såsom generelle lineære modeller (lineær regression, ANOVA, MANOVA), lineære blandede modeller og generaliserede lineære modeller (logistisk, Poisson, regression osv.) Har alle den samme generelle form.
På venstre side af ligningen er en eller flere responsvariabler, Y. På højre side er en eller flere forudsigelsesvariabler, X , og deres koefficienter, B. Variablerne på højre side kan have mange former og kaldes med mange navne.
Der er subtile forskelle i betydningen af disse navne. Desværre er der dog to fremgangsmåder, der gør dem mere forvirrende, end de har brug for.
For det første bruges de ofte om hinanden. Så nogen bruger muligvis “forudsigelsesvariabel” og “uafhængig variabel”, og en anden person måske ikke. Så lytteren læser muligvis ind i de subtile forskelle, som højttaleren måske ikke antyder.
For det andet bruges de samme udtryk forskelligt inden for forskellige områder eller forskningssituationer. Så hvis du er en epidemiolog, der forsker i mest observerede variabler, er du sandsynligvis blevet uddannet med lidt forskellige betydninger for nogle af disse termer, end hvis du er en psykolog, der laver eksperimentel forskning.
Endnu værre, statistiske softwarepakker bruger forskellige navne til lignende koncepter, selv blandt deres egne procedurer. Denne søgen efter nøjagtighed skaber ofte forvirring. (Det er svært nok uden at skifte ord!).
Her er nogle almindelige udtryk, der alle henviser til en variabel i en model, der foreslås at påvirke eller forudsige en anden variabel.
I Jeg giver dig de forskellige definitioner og implikationer, men det er meget sandsynligt, at jeg mangler nogle. Hvis du ser et udtryk, der betyder noget andet, end du forstår det, skal du tilføje det til kommentarerne. Og fortæl os venligst hvilket felt du primært arbejder inden for.
Predictor Variable, Predictor
Dette er den mest generiske af termerne. Der er ingen implikationer for at blive manipuleret, observeret, kategorisk eller numerisk. Det indebærer ikke kausalitet.
En forudsigelsesvariabel bruges simpelthen til at forklare eller forudsige værdien af responsvariablen. Brugt overvejende i regression.
Uafhængig variabel
Jeg har set Uafhængig variabel (IV) brugt forskellige måder.
1. Det indebærer kausalitet: den uafhængige variabel påvirker den afhængige variabel. Denne brug er overvejende i ANOVA-modeller, hvor den uafhængige variabel manipuleres af eksperimentatoren. Hvis det manipuleres, er det generelt kategorisk, og emner tildeles tilfældigt til betingelser.
2. Det indebærer ikke kausalitet, men det er en vigtig forudsigelsesvariabel til besvarelse af forskningsspørgsmålet. Med andre ord er det i modellen, fordi forskeren er interesseret i at forstå sit forhold til den afhængige variabel. Med andre ord er det ikke en kontrolvariabel.
3. Det indebærer ikke kausalitet eller variabelens betydning for forskningsspørgsmålet. Men det er ukorreleret (uafhængigt) af alle andre forudsigere.
Helt ærligt så jeg først for nylig nogen definere udtrykket uafhængig variabel på denne måde. Predictor-variabler kan ikke være uafhængige variabler, hvis de overhovedet er korrelerede. Det overraskede mig, men det er godt at vide, at nogle mennesker mener dette, når de bruger udtrykket.
Forklarende variabel
En forudsigelsesvariabel i en model, hvor hovedpunktet ikke er at forudsige svarvariablen, men for at forklare et forhold mellem X og Y.
Kontrolvariabel
En forudsigelsesvariabel, der kunne være relateret til eller påvirke den afhængige variabel, men ikke rigtig af interesse for forskningsspørgsmålet.
Kovariat
Generelt en kontinuerlig forudsigelsesvariabel. Anvendes i både ANCOVA (analyse af kovarians) og regression. Nogle mennesker bruger dette til at henvise til alle forudsigelsesvariabler i regression, men det betyder virkelig kontinuerlige forudsigere. Tilføjelse af et kovariat til ANOVA (analyse af varians) gør det til ANCOVA (analyse af kovarians).
Nogle gange indebærer kovariat, at variablen er en kontrolvariabel (i modsætning til en uafhængig variabel), men ikke altid.
Og nogle gange bruger folk kovariat til at betyde kontrolvariabler, enten numeriske eller kategoriske.
Denne er så forvirrende, at den fik sin egen forvirrende artikel om statistiske udtryk.
Confounding Variable, Confounder
Disse udtryk bruges forskelligt i forskellige felter. I eksperimentelt design betyder det en variabel, hvis virkning ikke kan skelnes fra effekten af en uafhængig variabel.
I observationsfelter betyder det en af to situationer. Den første er en variabel, der er så korreleret med en uafhængig variabel, at det er svært at adskille deres virkninger på responsvariablen. Den anden er en variabel, der forårsager den uafhængige variabels effekt på svaret.
Sondringen i disse fortolkninger er lille, men vigtig.
Eksponeringsvariabel
Dette er et udtryk for uafhængig variabel inden for nogle områder, især epidemiologi. Det er den vigtigste forudsigelsesvariabel.
Risikofaktor
Et andet epidemiologisk udtryk for en forudsigelsesvariabel. I modsætning til udtrykket “Faktor”, der er anført nedenfor, betyder det ikke en kategorisk variabel.
Faktor
En kategorisk forudsigelsesvariabel. Den kan måske eller måske ikke indikere en årsag / virkning-relation til responsvariabel (dette afhænger af undersøgelsesdesignet, ikke analysen).
Uafhængige variabler i ANOVA kaldes næsten altid faktorer. I regression kaldes de ofte indikatorvariabler, kategoriske forudsigere eller dummyvariabler . De er alle de samme ting i denne sammenhæng.
Vær også opmærksom på, at Factor har helt andre betydninger i statistik, så også den fik sin egen forvirrende artikel om statistiske vilkår.
Brugt i maskinlæring og forudsigelige modeller er dette simpelthen en forudsigelsesvariabel.
Grupperingsvariabel
Samme som en faktor.
Fast faktor
En kategorisk forudsigelsesvariabel, hvor de specifikke værdier for kategorierne er forsætlige og vigtige, ofte valgt af eksperimentet. Eksempler inkluderer eksperi mentale behandlinger eller demografiske kategorier, såsom køn og race.
Hvis du ikke laver en blandet model (og du bør vide, om du er), er alle dine faktorer faste faktorer. For en mere detaljeret forklaring af faste og tilfældige faktorer, se Specificering af faste og tilfældige faktorer i blandede eller multiniveaumodeller
Tilfældig faktor
En kategorisk forudsigelsesvariabel, hvor de specifikke værdier af kategorierne blev tilfældigt tildelt. Generelt brugt i blandet modellering. Eksempler inkluderer emner eller tilfældige blokke.
For en mere grundig forklaring af faste og tilfældige faktorer, se Specificering af faste og tilfældige faktorer i blandede eller multiniveaumodeller
Blokerende variabel
Dette udtryk bruges generelt i eksperimentelt design, men jeg har også set det i randomiserede kontrollerede forsøg.
En blokerende variabel er en variabel, der indikerer en eksperimentel blok: en klynge eller eksperimentel enhed, der begrænser fuldstændig randomisering, og det resulterer ofte i lignende responsværdier blandt medlemmer af blokken.
Blokerende variabler kan være enten faste eller tilfældige faktorer. De er aldrig sammenhængende.
Dummy-variabel
En kategorisk variabel, der er dummy-kodet. Dummy-kodning (også kaldet indikatorkodning) bruges normalt i regressionsmodeller, men ikke ANOVA. En dummyvariabel kan kun have to værdier: 0 og 1. Når en kategorisk variabel har mere end to værdier, omkodes den til flere dummyvariabler.
Indikatorvariabel
Samme som dummy variabel.
Meddelelsen Take Away
Når du bruger tekniske udtryk i en rapport, en artikel eller en samtale, er det altid en god ide at definere dine vilkår. Dette er især vigtigt i statistikker, som bruges i mange, mange felter, som hver især tilføjer deres egne finesser til terminologien.
Forvirrende statistiske termer serie
Forvirrende statistiske udtryk # 1 : De mange navne på uafhængige variabler