Verwarrende statistische termen # 1: de vele namen van onafhankelijke variabelen
Statistische modellen, zoals algemene lineaire modellen (lineaire regressie, ANOVA, MANOVA), lineaire gemengde modellen en gegeneraliseerde lineaire modellen (logistiek, Poisson, regressie, etc.) hebben allemaal dezelfde algemene vorm.
Aan de linkerkant van de vergelijking staat een of meer responsvariabelen, Y. Aan de rechterkant is een of meer voorspellende variabelen, X , en hun coëfficiënten, B. De variabelen aan de rechterkant kunnen vele vormen hebben en worden door veel namen aangeroepen.
Er zijn subtiele verschillen in de betekenis van deze namen. Helaas zijn er echter twee methoden die ze verwarrender maken dan nodig is.
Ten eerste worden ze vaak door elkaar gebruikt. Iemand kan dus “voorspellende variabele” en “onafhankelijke variabele” door elkaar gebruiken en een andere persoon niet. Het kan dus zijn dat de luisteraar de subtiele verschillen leest die de spreker misschien niet impliceert.
Ten tweede worden dezelfde termen op verschillende terreinen of onderzoekssituaties gebruikt. Dus als je een epidemioloog bent die onderzoek doet naar veelal waargenomen variabelen, ben je waarschijnlijk getraind met iets andere betekenissen dan sommige van deze termen dan wanneer je een psycholoog bent die experimenteel onderzoek doet.
Erger nog, statistische softwarepakketten gebruiken verschillende namen voor vergelijkbare concepten, zelfs binnen hun eigen procedures. Deze zoektocht naar nauwkeurigheid leidt vaak tot verwarring. (Het is al moeilijk genoeg zonder de woorden te wisselen!).
Hier zijn enkele veelgebruikte termen die allemaal verwijzen naar een variabele in een model waarvan wordt voorgesteld dat deze een andere variabele beïnvloedt of voorspelt.
I Ik zal je de verschillende definities en implicaties geven, maar het is zeer waarschijnlijk dat ik er enkele mis. Als je een term ziet die iets anders betekent dan je hem begrijpt, voeg deze dan toe aan de opmerkingen. En vertel ons alstublieft in welk vakgebied u hoofdzakelijk werkt.
Predictor Variable, Predictor
Dit is de meest algemene term. Er zijn geen implicaties voor gemanipuleerd, geobserveerd, categorisch of numeriek. Het impliceert geen causaliteit.
Een voorspellende variabele wordt eenvoudigweg gebruikt voor het verklaren of voorspellen van de waarde van de responsvariabele. Voornamelijk gebruikt bij regressie.
Onafhankelijke variabele
Ik heb gezien dat Independent Variable (IV) op verschillende manieren werd gebruikt.
1. Het impliceert causaliteit: de onafhankelijke variabele beïnvloedt de afhankelijke variabele. Dit gebruik is overheersend in ANOVA-modellen waarbij de onafhankelijke variabele wordt gemanipuleerd door de onderzoeker. Als het wordt gemanipuleerd, is het over het algemeen categorisch en worden de onderwerpen willekeurig toegewezen aan voorwaarden.
2. Het impliceert geen causaliteit, maar het is een belangrijke voorspellende variabele voor het beantwoorden van de onderzoeksvraag. Met andere woorden, het zit in het model omdat de onderzoeker geïnteresseerd is in het begrijpen van de relatie met de afhankelijke variabele. Met andere woorden, het is geen controlevariabele.
3. Het impliceert geen causaliteit of het belang van de variabele voor de onderzoeksvraag. Maar het is niet gecorreleerd (onafhankelijk) van alle andere voorspellers.
Eerlijk gezegd heb ik pas onlangs iemand de term Independent Variable op deze manier zien definiëren. Voorspellende variabelen kunnen geen onafhankelijke variabelen zijn als ze überhaupt gecorreleerd zijn. Het verbaasde me, maar het is goed om te weten dat sommige mensen dit menen wanneer ze de term gebruiken.
Verklarende variabele
Een voorspellende variabele in een model waarvan het belangrijkste niet is om te voorspellen de responsvariabele, maar om een relatie tussen X en Y te verklaren.
Controlevariabele
Een voorspellende variabele die gerelateerd zou kunnen zijn aan of invloed zou kunnen hebben op de afhankelijke variabele, maar niet echt van belang is voor de onderzoeksvraag.
Covariaat
Over het algemeen een continue voorspellende variabele. Gebruikt in zowel ANCOVA (analyse van covariantie) als regressie. Sommige mensen gebruiken dit om naar alle voorspellende variabelen in regressie te verwijzen, maar het betekent in feite continue voorspellers. Door een covariaat toe te voegen aan ANOVA (analyse van variantie) wordt het ANCOVA (analyse van covariantie).
Soms impliceert covariaat dat de variabele een controlevariabele is (in tegenstelling tot een onafhankelijke variabele), maar niet altijd.
En soms gebruiken mensen covariaat om controlevariabele aan te duiden, numeriek of categorisch.
Deze is zo verwarrend dat het zijn eigen artikel over verwarrende statistische termen heeft.
Confounding Variable, Confounder
Deze termen worden in verschillende velden op verschillende manieren gebruikt. In experimenteel ontwerp wordt hiermee een variabele bedoeld waarvan het effect niet kan worden onderscheiden van het effect van een onafhankelijke variabele.
In observatievelden wordt er een van twee situaties mee bedoeld. De eerste is een variabele die zo gecorreleerd is met een onafhankelijke variabele dat het moeilijk is om hun effecten op de responsvariabele te scheiden. De tweede is een variabele die het effect van de onafhankelijke variabele op de respons veroorzaakt.
Het onderscheid in die interpretaties is klein maar belangrijk.
Blootstellingsvariabele
Dit is een term voor onafhankelijke variabelen op sommige gebieden, met name epidemiologie. Het is de belangrijkste voorspellende variabele.
Risicofactor
Nog een epidemiologische term voor een voorspellende variabele. In tegenstelling tot de term Factor die hieronder wordt vermeld, impliceert het geen categorische variabele.
Factor
Een categorische voorspellende variabele. Deze kan al dan niet een oorzaak / gevolg-relatie aangeven met de responsvariabele (dit hangt af van de onderzoeksopzet, niet van de analyse).
Onafhankelijke variabelen in ANOVA worden bijna altijd factoren genoemd. Bij regressie worden ze vaak indicatorvariabelen, categorische voorspellers of dummy-variabelen genoemd Ze zijn allemaal hetzelfde in deze context.
Houd er ook rekening mee dat Factor volledig andere betekenissen heeft in statistieken, dus het heeft ook een eigen artikel over verwarrende statistische termen.
Feature
Gebruikt in machine learning en voorspellende modellen, dit is gewoon een voorspellende variabele.
Groeperingsvariabele
Hetzelfde als een factor.
Vaste factor
Een categorische voorspellende variabele waarin de specifieke waarden van de categorieën opzettelijk en belangrijk zijn, vaak gekozen door de onderzoeker. Voorbeelden zijn mentale behandelingen of demografische categorieën, zoals geslacht en ras.
Als u geen gemengd model volgt (en u moet weten of u dat wel bent), zijn al uw factoren vaste factoren. Voor een meer grondige uitleg van vaste en willekeurige factoren, zie Specificatie van vaste en willekeurige factoren in gemengde of multi-level modellen
Willekeurige factor
Een categorische voorspellende variabele waarin de specifieke waarden van de categorieën werden willekeurig toegewezen. Over het algemeen gebruikt in gemengde modellering. Voorbeelden zijn onder meer onderwerpen of willekeurige blokken.
Voor een meer grondige uitleg van vaste en willekeurige factoren, zie Vaste en willekeurige factoren specificeren in gemengde of multi-level modellen
Blokkerende variabele
Deze term wordt over het algemeen gebruikt in experimenteel ontwerp, maar ik heb hem ook gezien in gerandomiseerde gecontroleerde onderzoeken.
Een blokkerende variabele is een variabele die een experimenteel blok aangeeft: een cluster of experimentele eenheid die beperkt volledige randomisatie en dat resulteert vaak in vergelijkbare responswaarden onder leden van het blok.
Blokkeervariabelen kunnen vaste of willekeurige factoren zijn. Ze zijn nooit continu.
Dummy-variabele
Een categorische variabele die dummy-gecodeerd is. Dummy-codering (ook wel indicatorcodering genoemd) wordt meestal gebruikt in regressiemodellen, maar niet in ANOVA. Een dummyvariabele kan slechts twee waarden hebben: 0 en 1. Wanneer een categorische variabele meer dan twee waarden heeft, wordt deze opnieuw gecodeerd in meerdere dummyvariabelen.
Indicatorvariabele
Zelfde als dummy variabele.
The Take Away Message
Wanneer je technische termen gebruikt in een rapport, een artikel of een gesprek, is het altijd een goed idee om je termen te definiëren. Dit is vooral belangrijk in statistieken, die in veel, vele velden worden gebruikt, die elk hun eigen subtiliteiten aan de terminologie toevoegen.
Serie verwarrende statistische termen
Verwarrende statistische termen # 1 : De vele namen van onafhankelijke variabelen