Verwarrende statistische termen # 1: de vele namen van onafhankelijke variabelen

november 25, 2020

Verwarrende statistische termen # 1: de vele namen van onafhankelijke variabelen

Statistische modellen, zoals algemene lineaire modellen (lineaire regressie, ANOVA, MANOVA), lineaire gemengde modellen en gegeneraliseerde lineaire modellen (logistiek, Poisson, regressie, etc.) hebben allemaal dezelfde algemene vorm.

Aan de linkerkant van de vergelijking staat een of meer responsvariabelen, Y. Aan de rechterkant is een of meer voorspellende variabelen, X , en hun coëfficiënten, B. De variabelen aan de rechterkant kunnen vele vormen hebben en worden door veel namen aangeroepen.

Er zijn subtiele verschillen in de betekenis van deze namen. Helaas zijn er echter twee methoden die ze verwarrender maken dan nodig is.

Ten eerste worden ze vaak door elkaar gebruikt. Iemand kan dus “voorspellende variabele” en “onafhankelijke variabele” door elkaar gebruiken en een andere persoon niet. Het kan dus zijn dat de luisteraar de subtiele verschillen leest die de spreker misschien niet impliceert.

Ten tweede worden dezelfde termen op verschillende terreinen of onderzoekssituaties gebruikt. Dus als je een epidemioloog bent die onderzoek doet naar veelal waargenomen variabelen, ben je waarschijnlijk getraind met iets andere betekenissen dan sommige van deze termen dan wanneer je een psycholoog bent die experimenteel onderzoek doet.

Erger nog, statistische softwarepakketten gebruiken verschillende namen voor vergelijkbare concepten, zelfs binnen hun eigen procedures. Deze zoektocht naar nauwkeurigheid leidt vaak tot verwarring. (Het is al moeilijk genoeg zonder de woorden te wisselen!).

Hier zijn enkele veelgebruikte termen die allemaal verwijzen naar een variabele in een model waarvan wordt voorgesteld dat deze een andere variabele beïnvloedt of voorspelt.

I Ik zal je de verschillende definities en implicaties geven, maar het is zeer waarschijnlijk dat ik er enkele mis. Als je een term ziet die iets anders betekent dan je hem begrijpt, voeg deze dan toe aan de opmerkingen. En vertel ons alstublieft in welk vakgebied u hoofdzakelijk werkt.

Predictor Variable, Predictor

Dit is de meest algemene term. Er zijn geen implicaties voor gemanipuleerd, geobserveerd, categorisch of numeriek. Het impliceert geen causaliteit.

Een voorspellende variabele wordt eenvoudigweg gebruikt voor het verklaren of voorspellen van de waarde van de responsvariabele. Voornamelijk gebruikt bij regressie.

Onafhankelijke variabele

Ik heb gezien dat Independent Variable (IV) op verschillende manieren werd gebruikt.

1. Het impliceert causaliteit: de onafhankelijke variabele beïnvloedt de afhankelijke variabele. Dit gebruik is overheersend in ANOVA-modellen waarbij de onafhankelijke variabele wordt gemanipuleerd door de onderzoeker. Als het wordt gemanipuleerd, is het over het algemeen categorisch en worden de onderwerpen willekeurig toegewezen aan voorwaarden.

2. Het impliceert geen causaliteit, maar het is een belangrijke voorspellende variabele voor het beantwoorden van de onderzoeksvraag. Met andere woorden, het zit in het model omdat de onderzoeker geïnteresseerd is in het begrijpen van de relatie met de afhankelijke variabele. Met andere woorden, het is geen controlevariabele.

3. Het impliceert geen causaliteit of het belang van de variabele voor de onderzoeksvraag. Maar het is niet gecorreleerd (onafhankelijk) van alle andere voorspellers.

Eerlijk gezegd heb ik pas onlangs iemand de term Independent Variable op deze manier zien definiëren. Voorspellende variabelen kunnen geen onafhankelijke variabelen zijn als ze überhaupt gecorreleerd zijn. Het verbaasde me, maar het is goed om te weten dat sommige mensen dit menen wanneer ze de term gebruiken.

Verklarende variabele

Een voorspellende variabele in een model waarvan het belangrijkste niet is om te voorspellen de responsvariabele, maar om een relatie tussen X en Y te verklaren.

Controlevariabele

Een voorspellende variabele die gerelateerd zou kunnen zijn aan of invloed zou kunnen hebben op de afhankelijke variabele, maar niet echt van belang is voor de onderzoeksvraag.

Covariaat

Over het algemeen een continue voorspellende variabele. Gebruikt in zowel ANCOVA (analyse van covariantie) als regressie. Sommige mensen gebruiken dit om naar alle voorspellende variabelen in regressie te verwijzen, maar het betekent in feite continue voorspellers. Door een covariaat toe te voegen aan ANOVA (analyse van variantie) wordt het ANCOVA (analyse van covariantie).

Soms impliceert covariaat dat de variabele een controlevariabele is (in tegenstelling tot een onafhankelijke variabele), maar niet altijd.

En soms gebruiken mensen covariaat om controlevariabele aan te duiden, numeriek of categorisch.

Deze is zo verwarrend dat het zijn eigen artikel over verwarrende statistische termen heeft.

Confounding Variable, Confounder

Deze termen worden in verschillende velden op verschillende manieren gebruikt. In experimenteel ontwerp wordt hiermee een variabele bedoeld waarvan het effect niet kan worden onderscheiden van het effect van een onafhankelijke variabele.

In observatievelden wordt er een van twee situaties mee bedoeld. De eerste is een variabele die zo gecorreleerd is met een onafhankelijke variabele dat het moeilijk is om hun effecten op de responsvariabele te scheiden. De tweede is een variabele die het effect van de onafhankelijke variabele op de respons veroorzaakt.

Het onderscheid in die interpretaties is klein maar belangrijk.

Blootstellingsvariabele

Dit is een term voor onafhankelijke variabelen op sommige gebieden, met name epidemiologie. Het is de belangrijkste voorspellende variabele.

Risicofactor

Nog een epidemiologische term voor een voorspellende variabele. In tegenstelling tot de term Factor die hieronder wordt vermeld, impliceert het geen categorische variabele.

Factor

Een categorische voorspellende variabele. Deze kan al dan niet een oorzaak / gevolg-relatie aangeven met de responsvariabele (dit hangt af van de onderzoeksopzet, niet van de analyse).

Onafhankelijke variabelen in ANOVA worden bijna altijd factoren genoemd. Bij regressie worden ze vaak indicatorvariabelen, categorische voorspellers of dummy-variabelen genoemd Ze zijn allemaal hetzelfde in deze context.

Houd er ook rekening mee dat Factor volledig andere betekenissen heeft in statistieken, dus het heeft ook een eigen artikel over verwarrende statistische termen.

Feature

Gebruikt in machine learning en voorspellende modellen, dit is gewoon een voorspellende variabele.

Groeperingsvariabele

Hetzelfde als een factor.

Vaste factor

Een categorische voorspellende variabele waarin de specifieke waarden van de categorieën opzettelijk en belangrijk zijn, vaak gekozen door de onderzoeker. Voorbeelden zijn mentale behandelingen of demografische categorieën, zoals geslacht en ras.

Als u geen gemengd model volgt (en u moet weten of u dat wel bent), zijn al uw factoren vaste factoren. Voor een meer grondige uitleg van vaste en willekeurige factoren, zie Specificatie van vaste en willekeurige factoren in gemengde of multi-level modellen

Willekeurige factor

Een categorische voorspellende variabele waarin de specifieke waarden van de categorieën werden willekeurig toegewezen. Over het algemeen gebruikt in gemengde modellering. Voorbeelden zijn onder meer onderwerpen of willekeurige blokken.

Voor een meer grondige uitleg van vaste en willekeurige factoren, zie Vaste en willekeurige factoren specificeren in gemengde of multi-level modellen

Blokkerende variabele

Deze term wordt over het algemeen gebruikt in experimenteel ontwerp, maar ik heb hem ook gezien in gerandomiseerde gecontroleerde onderzoeken.

Een blokkerende variabele is een variabele die een experimenteel blok aangeeft: een cluster of experimentele eenheid die beperkt volledige randomisatie en dat resulteert vaak in vergelijkbare responswaarden onder leden van het blok.

Blokkeervariabelen kunnen vaste of willekeurige factoren zijn. Ze zijn nooit continu.

Dummy-variabele

Een categorische variabele die dummy-gecodeerd is. Dummy-codering (ook wel indicatorcodering genoemd) wordt meestal gebruikt in regressiemodellen, maar niet in ANOVA. Een dummyvariabele kan slechts twee waarden hebben: 0 en 1. Wanneer een categorische variabele meer dan twee waarden heeft, wordt deze opnieuw gecodeerd in meerdere dummyvariabelen.

Indicatorvariabele

Zelfde als dummy variabele.

The Take Away Message

Wanneer je technische termen gebruikt in een rapport, een artikel of een gesprek, is het altijd een goed idee om je termen te definiëren. Dit is vooral belangrijk in statistieken, die in veel, vele velden worden gebruikt, die elk hun eigen subtiliteiten aan de terminologie toevoegen.

Serie verwarrende statistische termen

Verwarrende statistische termen # 1 : De vele namen van onafhankelijke variabelen

Verwarrende statistische termen # 2: Alfa en bèta

Verwarrende statistische term # 4: hiërarchische regressie versus hiërarchisch model

Lineaire regressiecoëfficiënten interpreteren: een doorloopuitvoer

Leer de benadering voor het begrijpen van coëfficiënten in die regressie terwijl we door de uitvoer lopen van een model dat numerieke en categorische voorspellers en een interactie.

admin