Verwirrende statistische Begriffe Nr. 1: Die vielen Namen unabhängiger Variablen

Statistische Modelle wie allgemeine lineare Modelle (lineare Regression, ANOVA, MANOVA), lineare gemischte Modelle und verallgemeinerte lineare Modelle (logistisch, Poisson, Regression usw.) haben alle dieselbe allgemeine Form.

Auf der linken Seite der Gleichung befinden sich eine oder mehrere Antwortvariablen Y. Auf der rechten Seite befinden sich eine oder mehrere Prädiktorvariablen X. und ihre Koeffizienten B. Die Variablen auf der rechten Seite können viele Formen haben und werden mit vielen Namen bezeichnet.

Die Bedeutungen dieser Namen unterscheiden sich geringfügig. Leider gibt es zwei Methoden, die sie verwirrender machen als nötig.

Erstens werden sie häufig synonym verwendet. So kann jemand „Prädiktorvariable“ und „unabhängige Variable“ austauschbar verwenden und eine andere Person möglicherweise nicht. Der Hörer liest also möglicherweise die subtilen Unterscheidungen ein, die der Sprecher möglicherweise nicht impliziert.

Zweitens werden dieselben Begriffe in verschiedenen Bereichen oder Forschungssituationen unterschiedlich verwendet. Wenn Sie also ein Epidemiologe sind, der an den meist beobachteten Variablen forscht, wurden Sie wahrscheinlich mit etwas anderen Bedeutungen als einige dieser Begriffe geschult, als wenn Sie ein Psychologe sind, der experimentelle Forschung betreibt.

Schlimmer noch, statistische Softwarepakete verwenden unterschiedliche Namen für ähnliche Konzepte, selbst unter ihren eigenen Verfahren. Dieses Streben nach Genauigkeit führt oft zu Verwirrung. (Es ist schwer genug, ohne die Wörter zu wechseln!)

Hier sind einige gebräuchliche Begriffe, die sich alle auf eine Variable in einem Modell beziehen, von dem vorgeschlagen wird, dass sie eine andere Variable beeinflusst oder vorhersagt.

I. Ich werde Ihnen die verschiedenen Definitionen und Implikationen geben, aber es ist sehr wahrscheinlich, dass mir einige fehlen. Wenn Sie einen Begriff sehen, der etwas anderes bedeutet als Sie verstehen, fügen Sie ihn bitte den Kommentaren hinzu. Und bitte teilen Sie uns mit, in welchem Bereich Sie hauptsächlich arbeiten.

Prädiktorvariable, Prädiktor

Dies ist der allgemeinste Begriff. Es gibt keine Auswirkungen darauf, manipuliert, beobachtet, kategorisch oder numerisch zu sein. Dies impliziert keine Kausalität.

Eine Prädiktorvariable wird einfach zum Erklären oder Vorhersagen des Werts der Antwortvariablen verwendet. Wird hauptsächlich in der Regression verwendet.

Unabhängige Variable

Ich habe gesehen, dass die unabhängige Variable (IV) auf unterschiedliche Weise verwendet wurde.

1. Dies impliziert Kausalität: Die unabhängige Variable beeinflusst die abhängige Variable. Diese Verwendung ist in ANOVA-Modellen vorherrschend, in denen die unabhängige Variable vom Experimentator manipuliert wird. Wenn es manipuliert wird, ist es im Allgemeinen kategorisch und die Probanden werden zufällig Bedingungen zugewiesen.

2. Es impliziert keine Kausalität, ist jedoch eine wichtige Prädiktorvariable für die Beantwortung der Forschungsfrage. Mit anderen Worten, es befindet sich im Modell, weil der Forscher daran interessiert ist, seine Beziehung zur abhängigen Variablen zu verstehen. Mit anderen Worten, es ist keine Steuervariable.

3. Dies impliziert weder die Kausalität noch die Bedeutung der Variablen für die Forschungsfrage. Aber es ist nicht korreliert (unabhängig) von allen anderen Prädiktoren.

Ehrlich gesagt habe ich erst kürzlich jemanden gesehen, der den Begriff unabhängige Variable auf diese Weise definiert. Prädiktorvariablen können keine unabhängigen Variablen sein, wenn sie überhaupt korreliert sind. Es hat mich überrascht, aber es ist gut zu wissen, dass einige Leute dies meinen, wenn sie den Begriff verwenden.

Erklärende Variable

Eine Prädiktorvariable in einem Modell, bei dem der Hauptpunkt nicht die Vorhersage ist die Antwortvariable, aber um eine Beziehung zwischen X und Y zu erklären.

Steuervariable

Eine Prädiktorvariable, die mit der abhängigen Variablen in Beziehung stehen oder diese beeinflussen könnte, aber nicht wirklich von Interesse ist die Forschungsfrage.

Covariate

Im Allgemeinen eine kontinuierliche Prädiktorvariable. Wird sowohl in der ANCOVA (Analyse der Kovarianz) als auch in der Regression verwendet. Einige Leute verwenden dies, um sich auf alle Prädiktorvariablen in der Regression zu beziehen, aber es bedeutet wirklich kontinuierliche Prädiktoren. Durch Hinzufügen einer Kovariate zu ANOVA (Varianzanalyse) wird diese zu ANCOVA (Kovarianzanalyse).

Manchmal impliziert die Kovariate, dass die Variable eine Kontrollvariable ist (im Gegensatz zu einer unabhängigen Variablen), aber nicht immer.

Und manchmal verwenden Menschen Kovariate, um entweder numerische oder kategoriale Kontrollvariablen zu bezeichnen.

Diese ist so verwirrend, dass sie einen eigenen Artikel über verwirrende statistische Begriffe enthält.

Confounding Variable, Confounder

Diese Begriffe werden in verschiedenen Bereichen unterschiedlich verwendet. Im experimentellen Design bedeutet es eine Variable, deren Wirkung nicht von der Wirkung einer unabhängigen Variablen unterschieden werden kann.

In Beobachtungsfeldern bedeutet es eine von zwei Situationen. Die erste ist eine Variable, die so mit einer unabhängigen Variablen korreliert ist, dass es schwierig ist, ihre Auswirkungen auf die Antwortvariable zu trennen. Die zweite Variable ist eine Variable, die die Auswirkung der unabhängigen Variablen auf die Antwort verursacht.

Die Unterscheidung in diesen Interpretationen ist geringfügig, aber wichtig.

Expositionsvariable

Dies ist ein Begriff für eine unabhängige Variable in einigen Bereichen, insbesondere in der Epidemiologie. Dies ist die wichtigste Prädiktorvariable.

Risikofaktor

Ein weiterer epidemiologischer Begriff für eine Prädiktorvariable. Im Gegensatz zu dem unten aufgeführten Begriff „Faktor“ impliziert er keine kategoriale Variable.

Faktor

Eine kategoriale Prädiktorvariable. Er kann eine Ursache-Wirkungs-Beziehung mit dem anzeigen oder nicht Antwortvariable (dies hängt vom Studiendesign ab, nicht von der Analyse).

Unabhängige Variablen in ANOVA werden fast immer als Faktoren bezeichnet. In der Regression werden sie häufig als Indikatorvariablen, kategoriale Prädiktoren oder Dummy-Variablen bezeichnet In diesem Zusammenhang sind sie alle gleich.

Beachten Sie außerdem, dass der Faktor in der Statistik völlig andere Bedeutungen hat, sodass auch er einen eigenen Artikel über verwirrende statistische Begriffe hat.

Feature

Wird in maschinellen Lern- und Vorhersagemodellen verwendet und ist einfach eine Prädiktorvariable.

Gruppierungsvariable

Entspricht einem Faktor.

Fester Faktor

Eine kategoriale Prädiktorvariable, bei der die spezifischen Werte der Kategorien beabsichtigt und wichtig sind und häufig vom Experimentator ausgewählt werden. Beispiele hierfür sind Experimente mentale Behandlungen oder demografische Kategorien wie Geschlecht und Rasse.

Wenn Sie kein gemischtes Modell verwenden (und Sie sollten wissen, ob Sie es sind), sind alle Ihre Faktoren feste Faktoren. Eine ausführlichere Erläuterung fester und zufälliger Faktoren finden Sie unter Festlegen fester und zufälliger Faktoren in gemischten oder mehrstufigen Modellen.

Zufallsfaktor

Eine kategoriale Prädiktorvariable, in der die spezifischen Werte von Die Kategorien wurden zufällig vergeben. Wird im Allgemeinen bei der gemischten Modellierung verwendet. Beispiele hierfür sind Themen oder zufällige Blöcke.

Eine ausführlichere Erläuterung fester und zufälliger Faktoren finden Sie unter Festlegen fester und zufälliger Faktoren in gemischten oder mehrstufigen Modellen.

Blockierungsvariable

Dieser Begriff wird im Allgemeinen im experimentellen Design verwendet, aber ich habe ihn auch in randomisierten kontrollierten Studien gesehen.

Eine blockierende Variable ist eine Variable, die einen experimentellen Block angibt: ein Cluster oder eine experimentelle Einheit, die schränkt die vollständige Randomisierung ein und führt häufig zu ähnlichen Antwortwerten unter den Mitgliedern des Blocks.

Blockierungsvariablen können entweder feste oder zufällige Faktoren sein. Sie sind niemals fortlaufend.

Dummy-Variable

Eine kategoriale Variable, die Dummy-codiert wurde. Dummy-Codierung (auch Indikatorkodierung genannt) wird normalerweise in Regressionsmodellen verwendet, nicht jedoch in ANOVA. Eine Dummy-Variable kann nur zwei Werte haben: 0 und 1. Wenn eine kategoriale Variable mehr als zwei Werte hat, wird sie in mehrere Dummy-Variablen umcodiert.

Indikatorvariable

Wie Dummy Variable.

Die Nachricht zum Mitnehmen

Wenn Sie technische Begriffe in einem Bericht, einem Artikel oder einer Konversation verwenden, ist es immer eine gute Idee, Ihre Begriffe zu definieren. Dies ist besonders wichtig in der Statistik, die in vielen, vielen Bereichen verwendet wird, von denen jeder seine eigenen Feinheiten zur Terminologie hinzufügt.

Verwirrende statistische Begriffe Serie

Verwirrende statistische Begriffe # 1 : Die vielen Namen unabhängiger Variablen

Verwirrende statistische Begriffe Nr. 2: Alpha und Beta

Verwirrende statistische Begriffe Nr. 4: Hierarchische Regression vs. hierarchisches Modell

Interpretieren linearer Regressionskoeffizienten: Ein Durchgang durch die Ausgabe
Lernen Sie den Ansatz zum Verständnis der Koeffizienten in dieser Regression, während wir durch die Ausgabe eines Modells gehen, das numerische und kategoriale Prädiktoren und einen enthält Interaktion.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.