Termeni statistici confuzi # 1: Numele numeroase ale variabilelor independente
Modele statistice, cum ar fi modele liniare generale (regresie liniară, ANOVA, MANOVA), modele mixte liniare și modele liniare generalizate (logistică, Poisson, regresie etc.) toate au aceeași formă generală.
În partea stângă a ecuației este una sau mai multe variabile de răspuns, Y. În partea dreaptă este una sau mai multe variabile predictive, X , și coeficienții lor, B. Variabilele din partea dreaptă pot avea multe forme și sunt numite cu multe nume.
Există semnificații subtile în semnificațiile acestor nume. Din păcate, totuși, există două practici care le fac mai confuze decât trebuie să fie.
În primul rând, acestea sunt adesea folosite în mod interschimbabil. Deci, cineva poate folosi „variabila predictor” și „variabilă independentă” interschimbabil, iar o altă persoană nu. Deci, ascultătorul poate citi diferențele subtile pe care vorbitorul nu le implică.
În al doilea rând, aceiași termeni sunt folosiți diferit în diferite domenii sau situații de cercetare. Deci, dacă sunteți un epidemiolog care face cercetări în principal asupra variabilelor observate, probabil că ați fost instruit cu semnificații ușor diferite față de unii dintre acești termeni decât dacă sunteți un psiholog care face cercetări experimentale.
Și mai rău, pachetele software statistice folosesc nume diferite pentru concepte similare, chiar și între propriile proceduri. Această căutare a preciziei face deseori confuzie. (Este destul de greu fără a schimba cuvintele!).
Iată câțiva termeni comuni care se referă la o variabilă dintr-un model care se propune să afecteze sau să prezică o altă variabilă.
I Vă voi oferi diferitele definiții și implicații, dar este foarte probabil să îmi lipsească unele. Dacă vedeți un termen care înseamnă ceva diferit decât îl înțelegeți, vă rugăm să îl adăugați la comentarii. Și vă rugăm să ne spuneți în ce domeniu lucrați în principal.
Variabila predictor, Predictor
Acesta este cel mai generic dintre termeni. Nu există implicații pentru a fi manipulat, observat, categoric sau numeric. Nu implică cauzalitate.
O variabilă predictivă este utilizată pur și simplu pentru explicarea sau prezicerea valorii variabilei de răspuns. Folosit predominant în regresie.
Variabila independentă
Am văzut Variabila independentă (IV) folosind diferite moduri.
1. Aceasta implică cauzalitate: variabila independentă afectează variabila dependentă. Această utilizare este predominantă în modelele ANOVA în care variabila independentă este manipulată de experimentator. Dacă este manipulat, este în general categoric, iar subiecții sunt alocați în mod aleatoriu condițiilor.
2. Nu implică cauzalitate, dar este o variabilă predictivă cheie pentru a răspunde la întrebarea de cercetare. Cu alte cuvinte, se află în model, deoarece cercetătorul este interesat să înțeleagă relația sa cu variabila dependentă. Cu alte cuvinte, nu este o variabilă de control.
3. Nu implică cauzalitatea sau importanța variabilei pentru întrebarea cercetării. Dar este necorelat (independent) de toți ceilalți predictori.
Sincer, abia recent am văzut pe cineva definind termenul Variabilă independentă în acest fel. Variabilele predictive nu pot fi variabile independente dacă sunt deloc corelate. M-a surprins, dar este bine să știu că unii oameni vor să spună acest lucru atunci când folosesc termenul.
Variabilă explicativă
O variabilă predictor într-un model în care punctul principal nu este să prevadă variabila de răspuns, dar pentru a explica o relație între X și Y.
Variabila de control
O variabilă predictor care ar putea fi legată sau afectând variabila dependentă, dar nu chiar interesantă pentru întrebarea de cercetare.
Covariate
În general, o variabilă predictivă continuă. Folosit atât în ANCOVA (analiza covarianței), cât și în regresie. Unii oameni folosesc acest lucru pentru a se referi la toate variabilele predictive în regresie, dar înseamnă cu adevărat predictori continui. Adăugarea unei covariate la ANOVA (analiza varianței) o transformă în ANCOVA (analiza covarianței).
Uneori covariata implică faptul că variabila este o variabilă de control (spre deosebire de o variabilă independentă), dar nu întotdeauna.
Și uneori oamenii folosesc covariate pentru a însemna variabila de control, fie numerică, fie categorică.
Aceasta este atât de confuză încât are propriul articol privind Termeni statistici confuzi.
Variabilă de confuzie, confundator
Acești termeni sunt utilizați diferit în diferite câmpuri. În proiectarea experimentală, este utilizată pentru a însemna o variabilă al cărei efect nu poate fi distins de efectul unei variabile independente.
În câmpuri observaționale, este folosit pentru a însemna una din cele două situații. Prima este o variabilă care este atât de corelată cu o variabilă independentă încât este dificil să le separi efectele asupra variabilei de răspuns. A doua este o variabilă care determină efectul variabilei independente asupra răspunsului.
Distincția dintre aceste interpretări este ușoară, dar importantă.
Variabila de expunere
Acesta este un termen pentru variabila independentă în unele domenii, în special epidemiologie. Este variabila predictor cheie.
Factorul de risc
Un alt termen de epidemiologie pentru o variabilă predictor. Spre deosebire de termenul „Factor” enumerat mai jos, acesta nu implică o variabilă categorică.
Factor
O variabilă predictivă categorică. Poate indica sau nu o relație cauză / efect cu variabilă de răspuns (aceasta depinde de proiectarea studiului, nu de analiză).
Variabilele independente din ANOVA sunt aproape întotdeauna numite factori. În regresie, ele sunt adesea denumite variabile indicator, predictori categorici sau variabile inexact . Toate sunt același lucru în acest context.
De asemenea, vă rugăm să rețineți că Factor are cu totul alte semnificații în statistici, deci și el a primit propriul articol privind Termenii statistici confuzi.
Utilizat în învățarea automată și în modelele predictive, aceasta este pur și simplu o variabilă predictivă.
Variabila de grupare
La fel ca un factor.
Factor fix
O variabilă predictivă categorică în care valorile specifice ale categoriilor sunt intenționate și importante, deseori alese de experimentator. Exemplele includ experiența tratamente mentale sau categorii demografice, cum ar fi sexul și rasa.
Dacă nu faceți un model mixt (și ar trebui să știți dacă sunteți), toți factorii dvs. sunt factori fixi. Pentru o explicație mai detaliată a factorilor fixi și aleatori, consultați Specificarea factorilor fixi și aleatori în modelele mixte sau multi-nivel
Factorul aleatoriu
O variabilă predictivă categorică în care valorile specifice ale categoriile au fost alocate aleatoriu. Utilizat în general în modelarea mixtă. Exemplele includ subiecți sau blocuri aleatorii.
Pentru o explicație mai amănunțită a factorilor fixi și aleatori, consultați Specificarea factorilor fixi și aleatori în modele mixte sau multi-nivel
Variabilă de blocare
Acest termen este folosit în general în proiectarea experimentală, dar l-am văzut și în studii randomizate controlate.
O variabilă de blocare este o variabilă care indică un bloc experimental: un cluster sau o unitate experimentală care restricționează randomizarea completă și acest lucru duce adesea la valori de răspuns similare în rândul membrilor blocului.
Variabilele de blocare pot fi factori fixi sau aleatori. Nu sunt niciodată continue.
Variabilă fictivă
O variabilă categorică care a fost codificată fictiv. Codificarea fictivă (numită și codarea indicatorului) este de obicei utilizată în modelele de regresie, dar nu și ANOVA. O variabilă fictivă poate avea doar două valori: 0 și 1. Când o variabilă categorică are mai mult de două valori, aceasta este recodificată în mai multe variabile fictive.
Variabilă indicator
La fel ca fictiv variabilă.
Mesajul Take Away
Ori de câte ori folosiți termeni tehnici într-un raport, un articol sau o conversație, este întotdeauna o idee bună să vă definiți termenii. Acest lucru este deosebit de important în statistici, care este utilizat în multe, multe domenii, fiecare dintre ele adăugând propriile subtilități la terminologie.
Seria de termeni statistici confuzi
Termenii statistici confuzi # 1 : Multe nume de variabile independente