Mylące pojęcia statystyczne # 1: Wiele nazw niezależnych zmiennych
Modele statystyczne, takie jak ogólne modele liniowe (regresja liniowa, ANOVA, MANOVA), liniowe modele mieszane i uogólnione modele liniowe (logistyczne, Poissona, regresja itp.) Mają tę samą ogólną postać.
Po lewej stronie równania znajduje się jedna lub więcej zmiennych odpowiedzi, Y. Po prawej stronie znajduje się jedna lub więcej zmiennych predykcyjnych, X i ich współczynniki, B. Zmienne po prawej stronie mogą mieć wiele form i są nazywane wieloma nazwami.
Znaczenia tych nazw są subtelne. Niestety, istnieją dwie praktyki, które sprawiają, że są one bardziej zagmatwane, niż powinny.
Po pierwsze, często są używane zamiennie. Więc ktoś może używać „zmiennej predykcyjnej” i „zmiennej niezależnej” zamiennie, a inna osoba nie. Zatem słuchacz może czytać subtelne rozróżnienia, których mówca może nie sugerować.
Po drugie, te same terminy są używane inaczej w różnych dziedzinach lub sytuacjach badawczych. Więc jeśli jesteś epidemiologiem, który prowadzi badania nad najczęściej obserwowanymi zmiennymi, prawdopodobnie zostałeś przeszkolony z nieco innymi znaczeniami niektórych z tych terminów niż jeśli jesteś psychologiem, który prowadzi badania eksperymentalne.
Co gorsza, Pakiety oprogramowania statystycznego używają różnych nazw podobnych pojęć, nawet w swoich własnych procedurach. Ta pogoń za dokładnością często wprowadza zamieszanie. (Jest to wystarczająco trudne bez zamiany słów!).
Oto kilka popularnych terminów, które wszystkie odnoszą się do zmiennej w modelu, która ma wpływać lub przewidywać inną zmienną.
I Podam ci różne definicje i implikacje, ale jest bardzo prawdopodobne, że brakuje mi niektórych. Jeśli zobaczysz termin, który oznacza coś innego, niż go rozumiesz, dodaj go do komentarzy. I proszę powiedz nam, w której dziedzinie głównie pracujesz.
Zmienna predykcyjna, zmienna predykcyjna
Jest to najbardziej ogólne z terminów. Nie ma żadnych implikacji dla bycia manipulowanym, obserwowanym, kategorycznym lub liczbowym. Nie implikuje to związku przyczynowego.
Zmienna predykcyjna służy po prostu do wyjaśniania lub przewidywania wartości zmiennej odpowiedzi. Używany głównie w regresji.
Zmienna niezależna
Widziałem, jak zmienna niezależna (IV) jest używana na różne sposoby.
1. Implikuje przyczynowość: zmienna niezależna wpływa na zmienną zależną. To użycie dominuje w modelach ANOVA, w których zmienną niezależną manipuluje eksperymentator. Jeśli jest zmanipulowany, jest generalnie kategoryczny, a tematy są losowo przypisywane do warunków.
2. Nie oznacza to związku przyczynowego, ale jest kluczową zmienną predykcyjną dla odpowiedzi na pytanie badawcze. Innymi słowy, znajduje się w modelu, ponieważ badacza interesuje zrozumienie jej związku ze zmienną zależną. Innymi słowy, nie jest to zmienna kontrolna.
3. Nie implikuje to związku przyczynowego ani znaczenia zmiennej dla pytania badawczego. Ale jest nieskorelowana (niezależna) od wszystkich innych predyktorów.
Szczerze mówiąc, dopiero niedawno widziałem, jak ktoś definiuje w ten sposób termin Zmienna niezależna. Zmienne predykcyjne nie mogą być zmiennymi niezależnymi, jeśli są w ogóle skorelowane. Zaskoczyło mnie to, ale dobrze jest wiedzieć, że niektórzy ludzie mają to na myśli, kiedy używają tego terminu.
Zmienna wyjaśniająca
Zmienna predykcyjna w modelu, w którym głównym celem nie jest przewidywanie zmienną odpowiedzi, ale w celu wyjaśnienia związku między X i Y.
Zmienna kontrolna
Zmienna predykcyjna, która może być związana ze zmienną zależną lub na nią wpływać, ale tak naprawdę nie jest interesująca dla pytanie badawcze.
Współzmienna
Generalnie ciągła zmienna predykcyjna. Używany zarówno w ANCOVA (analiza kowariancji), jak i regresji. Niektórzy używają tego w odniesieniu do wszystkich predyktorów zmiennych w regresji, ale tak naprawdę oznacza to ciągłe predyktory. Dodanie zmiennej towarzyszącej do ANOVA (analiza wariancji) zamienia ją w ANCOVA (analizę kowariancji).
Czasami zmienna towarzysząca oznacza, że zmienna jest zmienną kontrolną (w przeciwieństwie do zmiennej niezależnej), ale nie zawsze.
Czasami ludzie używają zmiennej współzmiennej do oznaczenia zmiennej kontrolnej, numerycznej lub kategorialnej.
Ta jest tak zagmatwana, że ma swój własny artykuł o Mylących terminach statystycznych.
Zmienna myląca, czynnik zakłócający
Te terminy są używane w różny sposób w różnych dziedzinach. W projekcie eksperymentalnym jest używany do oznaczania zmiennej, której skutku nie można odróżnić od wpływu zmiennej niezależnej.
W polach obserwacyjnych jest używany do oznaczania jednej z dwóch sytuacji. Pierwsza to zmienna, która jest tak skorelowana ze zmienną niezależną, że trudno jest wyodrębnić ich wpływ na zmienną odpowiedzi. Druga to zmienna, która powoduje wpływ zmiennej niezależnej na odpowiedź.
Różnica w tych interpretacjach jest niewielka, ale ważna.
Zmienna narażenia
Jest to termin określający zmienną niezależną w niektórych dziedzinach, szczególnie w epidemiologii. Jest to kluczowa zmienna predykcyjna.
Czynnik ryzyka
Kolejny termin epidemiologiczny dla zmiennej predykcyjnej. W przeciwieństwie do terminu „Czynnik” wymienionego poniżej, nie oznacza on zmiennej kategorialnej.
Czynnik
Predyktor jakościowy. Może, ale nie musi, wskazywać na związek przyczynowo-skutkowy z zmienna odpowiedzi (zależy to od projektu badania, a nie od analizy).
Zmienne niezależne w ANOVA prawie zawsze nazywane są czynnikami. W regresji często określa się je jako zmienne wskaźnikowe, predyktory jakościowe lub zmienne fikcyjne . W tym kontekście wszystkie są tym samym.
Zwróć też uwagę, że czynnik ma zupełnie inne znaczenie w statystykach, dlatego też ma swój własny artykuł Mylące pojęcia statystyczne.
Funkcja
Używana w modelach uczenia maszynowego i predykcyjnych, jest to po prostu zmienna predykcyjna.
Zmienna grupująca
Taka sama jak czynnik.
Czynnik stały
Kategoryczna zmienna predykcyjna, w której określone wartości kategorii są zamierzone i ważne, często wybierane przez eksperymentatora. Przykłady obejmują eksperymenty terapia psychiczna lub kategorie demograficzne, takie jak płeć i rasa.
Jeśli nie stosujesz modelu mieszanego (i powinieneś wiedzieć, czy tak jest), wszystkie czynniki są czynnikami stałymi. Aby uzyskać dokładniejsze wyjaśnienie czynników stałych i losowych, zobacz Określanie stałych i losowych czynników w modelach mieszanych lub wielopoziomowych
Czynnik losowy
Predykcyjna zmienna jakościowa, w której określone wartości kategorie zostały przydzielone losowo. Zwykle używany w modelowaniu mieszanym. Przykłady obejmują tematy lub losowe bloki.
Aby uzyskać dokładniejsze wyjaśnienie czynników stałych i losowych, zobacz Określanie stałych i losowych czynników w modelach mieszanych lub wielopoziomowych.
Zmienna blokująca
Termin ten jest ogólnie używany w projektowaniu eksperymentów, ale widziałem go także w badaniach z randomizacją.
Zmienna blokująca to zmienna wskazująca blok eksperymentalny: klaster lub jednostkę eksperymentalną, która ogranicza pełną randomizację, co często skutkuje podobnymi wartościami odpowiedzi wśród członków bloku.
Zmienne blokujące mogą być czynnikami stałymi lub losowymi. Nigdy nie są ciągłe.
Fikcyjna zmienna
Zmienna kategorialna, która została zakodowana fikcyjnie. Kodowanie fikcyjne (zwane także kodowaniem wskaźnika) jest zwykle używane w modelach regresji, ale nie w ANOVA. Zmienna fikcyjna może mieć tylko dwie wartości: 0 i 1. Gdy zmienna kategorialna ma więcej niż dwie wartości, jest przekodowywana na wiele zmiennych fikcyjnych.
Zmienna wskaźnikowa
Taka sama jak fikcyjna zmienna.
Wiadomość Take Away
Ilekroć używasz terminów technicznych w raporcie, artykule lub rozmowie, zawsze dobrze jest zdefiniować te terminy. Jest to szczególnie ważne w statystykach, które są używane w wielu, wielu dziedzinach, z których każdy dodaje własne subtelności do terminologii.
Mylące terminy statystyczne
Mylące terminy statystyczne # 1 : Wiele nazw niezależnych zmiennych