5 Beispiele für bimodale Verteilungen (von denen keine menschliche Größe ist)
Von all den seltsamen Dingen über die Statistikausbildung in der In den USA (und in anderen Ländern, soweit ich weiß) unterrichten wir Kinder über die bimodale Verteilung. Eine bimodale Verteilung ist ein Datensatz mit zwei Peaks (Modi), die mindestens so weit voneinander entfernt sind wie die Summe der Standardabweichungen. Es sieht folgendermaßen aus:
Es ist eine wichtige Verteilung, über die Sie Bescheid wissen müssen, denn wenn Ihre Daten so aussehen, sind Ihre Berechnungen für den Durchschnitt völlig nutzlos. Für die obige Verteilung würden wir beispielsweise einen Durchschnitt von (um) Null erhalten, was uns fast nichts über die Daten selbst sagen würde und beide Peaks vollständig verfehlen würde. So weit, ist es gut. Wenn dies jedoch in Statistikklassen gelehrt wird, ist das Beispiel der „realen Welt“, das den meisten Kindern gegeben wird, die menschliche Größe … und die menschliche Größe ist nicht bimodal. Schade.
Angesichts des Beginns des Schuljahres Alles in allem dachte ich, es wäre ein guter Zeitpunkt, den Lehrern einige neue Beispiele zur Verfügung zu stellen. Abhängig von dem zugrunde liegenden Datensatz, den Sie möglicherweise verwenden, können einige dieser Beispiele die „Peaks“ nicht durch die Länge der kombinierten Standardabweichungen trennen ”Cutoff entweder… ..aber zumindest wirst du auf neue Weise falsch liegen. Das muss für etwas zählen, oder?
- Einstiegsgehälter für Anwälte Im Durchschnitt machen es neue Anwälte gut. In Wirklichkeit gibt es große Gewinner und Verlierer im gesamten Spiel „Nach Abschluss des Studiums einen guten Job bekommen“. Dies zeigt sich in den Gehaltsverteilungen. Lesen Sie hier die Beschwerde über das Gesetz.
- Buchpreise Die Buchpreise gruppieren sich Unterschiedliche Preispunkte, je nachdem, ob Sie Taschenbücher oder Hardcover betrachten, wie God Plays Dice erklärt. Wenn die Lücke zwischen Taschenbuch und Hardcover für Sie nicht groß genug ist, stellen Sie sich vor, Sie könnten Preisdaten für jedes auf Amazon.com verfügbare Buch abrufen Am Ende stehen zwei Modi zur Verfügung, einer für normale Bücher und einer für Lehrbücher.
- Spitzenzeiten im Restaurant Wenn Sie ein Histogramm darüber erstellen, wann jeder Kunde an einem bestimmten Tag ein Restaurant betreten hat, sind Sie am Ende mit einer bimodalen Verteilung um 2 Punkte: Mittag- und Abendessen. Diese Art von Histogramm wird in der Regel auch angezeigt, wenn Sie die Straßennutzung (Hauptverkehrszeiten am Morgen und Nachmittag) und den Wasser- / Stromverbrauch in Wohngebieten (vor und nach der Arbeit) abbilden.
- Geschwindigkeitsbegrenzungen Bei dieser konnte ich eigentlich nicht viele Daten finden, Aber ich vermute, wenn Sie alle Geschwindigkeitsbegrenzungen auf jeder Meile Straße in den USA (oder vielleicht nur in Ihrem Bundesstaat) festgelegt haben, würde sich Ihre Verteilung um 30/35 und dann wieder um 60/65 gruppieren. Grundsätzlich Autobahnen oder normale Straßen. Diese Verteilung hätte auch die zusätzliche Falte des Schrägstellens, je nachdem, ob wir kilometerlange Straßen oder die Anzahl der Straßen verwendet haben, aber das ist eine ganz andere Sache.
- Krankheitsbilder Es gibt einen ziemlich faszinierenden zweiteiligen Blog-Beitrag von Jules J Berman, der hier und hier über bimodale Krebsmuster spricht. Grundsätzlich handelt es sich um Krebsarten, die ähnlich aussehen, aber eher unterschiedliche Altersgruppen betreffen. Zum Beispiel trifft Karposis Sarkom junge Männer mit AIDS und ältere Männer, die kein AIDS haben, und Berman argumentiert, dass das Sehen dieser Muster uns wichtige Hinweise auf die Krankheiten selbst geben sollte. Mögliche Erklärungen aus Bermans Beitrag: 1. Mehrere Umweltursachen für unterschiedliche Altersgruppen 2. Mehrere genetische Ursachen mit unterschiedlichen Latenzen 3. Mehrere unter einem Namen klassifizierte Krankheiten 4. Fehlerhafte oder unzureichende Daten 5. Kombinationen von 1,2,3 und 4.
Bimodale Verteilungen sind auch ein guter Grund, warum die Regel Nummer eins bei der Datenanalyse darin besteht, IMMER einen kurzen Blick auf ein Diagramm Ihrer Daten zu werfen, bevor Sie etwas unternehmen. Wie Sie den obigen Beispielen entnehmen können, enthalten die Peaks fast immer ihre eigenen wichtigen Informationen und müssen sowohl einzeln als auch zusammen verstanden werden, um überhaupt verstanden zu werden.
Also, was ist Ihr bevorzugter Nicht-Mensch? Höhenbeispiel?