Beantwortung des Geburtstagsproblems in der Statistik
Das Geburtstagsproblem in der Statistik fragt, wie viele Personen Sie in einer Gruppe benötigen, um eine 50% ige Chance zu haben, dass mindestens zwei Personen einen Geburtstag teilen? Denken Sie einen Moment darüber nach. Die Antwort überrascht viele Menschen. Wir werden in Kürze darauf zurückkommen.
In diesem Beitrag werde ich nicht nur das Geburtstagsparadoxon beantworten, sondern Ihnen auch zeigen, wie Sie die Wahrscheinlichkeiten für jede Größengruppe berechnen und eine Computersimulation ausführen und erklären Sie, warum die Antwort auf das Geburtstagsproblem so überraschend ist.
Berechnen der Wahrscheinlichkeiten für das Geburtstagsproblem
Viele Leute raten 183, weil das die Hälfte aller möglichen Geburtstage ist, was intuitiv erscheint. Leider funktioniert die Intuition nicht gut, um dieses Problem zu lösen. Kommen wir also gleich zur Berechnung der Wahrscheinlichkeiten für Personen, die Geburtstage teilen.
Für diese Berechnungen gehen wir von einigen Annahmen aus. Erstens werden wir das Schaltjahr ignorieren. Das vereinfacht die Mathematik und ändert die Ergebnisse nicht wesentlich. Wir gehen auch davon aus, dass alle Geburtstage mit gleicher Wahrscheinlichkeit auftreten.
Beginnen wir mit einer Person und fügen dann jeweils eine Person hinzu, um die Funktionsweise der Berechnungen zu veranschaulichen. Für diese Berechnungen ist es einfacher, die Wahrscheinlichkeit zu berechnen, dass niemand einen Geburtstag teilt. Wir nehmen dann diese Wahrscheinlichkeit und subtrahieren sie von eins, um die Wahrscheinlichkeit abzuleiten, dass mindestens zwei Personen einen Geburtstag teilen.
1 – Wahrscheinlichkeit, dass keine Übereinstimmung vorliegt = Wahrscheinlichkeit, dass mindestens eine Übereinstimmung vorliegt
Für die erste Person sind noch keine Geburtstage abgedeckt, was bedeutet, dass die Wahrscheinlichkeit 365/365 besteht, dass es keinen gemeinsamen Geburtstag gibt. Das macht Sinn. Wir haben nur eine Person.
Fügen wir nun die zweite Person hinzu. Die erste Person deckt einen möglichen Geburtstag ab, sodass die zweite Person eine 364/365-Chance hat, nicht am selben Tag zu teilen. Wir müssen die Wahrscheinlichkeiten der ersten beiden Personen multiplizieren und von einer subtrahieren.
Für die dritte Person die beiden vorherigen Leute decken zwei Daten ab. Daher hat die dritte Person eine Wahrscheinlichkeit von 363/365, keinen Geburtstag zu teilen.
Nun sehen Sie das Muster für die Berechnung der Wahrscheinlichkeit für eine bestimmte Anzahl von Personen. Hier ist die allgemeine Form der Gleichung:
In Verbindung stehender Beitrag: Wahrscheinlichkeitsgrundlagen
Darstellung des Geburtstagsproblems Wahrscheinlichkeiten
Mit Excel kann ich die Wahrscheinlichkeiten für jede Größengruppe berechnen und grafisch darstellen. Laden Sie meine Excel-Datei herunter: BirthdayProblem.
Wenn Sie die Wahrscheinlichkeiten bewerten, ist die Antwort auf das Geburtstagsproblem, dass Sie eine Gruppe benötigen von 23 Personen haben eine 50,73% ige Chance, dass Personen einen Geburtstag teilen! Die meisten Leute erwarten nicht, dass die Gruppe so klein ist. Beachten Sie auch in der Tabelle, dass eine Gruppe von 57 eine Wahrscheinlichkeit von 0,99 hat. Es ist praktisch garantiert!
Keine Sorge. Ich werde dieses überraschende Ergebnis in Kürze erklären. Lassen Sie uns zunächst die Antwort auf das Geburtstagsproblem von 23 mit einer anderen Methode überprüfen.
Simulation des Geburtstagsparadoxons
Mit Hilfe von Wahrscheinlichkeitsberechnungen erwarten wir, dass eine Gruppe von 23 Personen übereinstimmende Geburtstage von 50,73% hat der ganzen Zeit. Als Nächstes verwende ich ein statistisches Simulationsprogramm, um das Geburtstagsparadoxon zu simulieren und festzustellen, ob die tatsächlichen Wahrscheinlichkeiten mit den vorhergesagten Wahrscheinlichkeiten übereinstimmen. Für diese Simulation verwende ich Statistics101, ein Geschenkartikelprogramm, obwohl sie Spenden schätzen.
Das Programm enthält ein Beispielskript, das die Wahrscheinlichkeit für eine Gruppe von 25 ausgibt. Ich habe ihre geändert Skript, damit 100.000 Gruppen von 23 Personen gesammelt werden und jeder Person zufällig ein Geburtstag zugewiesen wird. Das Programm ermittelt, ob Geburtstage in jeder Gruppe von 23 Personen übereinstimmen, und berechnet dann den Prozentsatz der 100.000 Gruppen, die übereinstimmen. Basierend auf den Wahrscheinlichkeitsberechnungen erwarten wir, dass etwa 50% der Gruppen Übereinstimmungen haben. Ich lasse das Programm auch ein Histogramm der Anzahl der Übereinstimmungen innerhalb jeder Gruppe erstellen. Laden Sie mein Skript herunter: BirthdayProblem.
Die Simulationssoftware stellte fest, dass 50,586% der 100.000 Gruppen übereinstimmende Geburtstage hatten. Das liegt sehr nahe an der berechneten Wahrscheinlichkeit von 50,73%. Diese Simulation überprüft die Wahrscheinlichkeitsberechnungen.
Die folgende Grafik zeigt die Verteilung der Anzahl der Übereinstimmungen in diesen 23er-Gruppen.
Der am weitesten links stehende Balken zeigt an, dass 49,41% der Gruppen keine Übereinstimmungen haben. Die nächsten Balken zeigen, dass 37% eine Übereinstimmung haben, 11,4% zwei, 1,9% drei und 0,31% mehr als drei Übereinstimmungen.
Warum ist die Gruppengröße für das Geburtstagsproblem so klein?
Wie beim Monty Hall-Problem denken die meisten Menschen, dass die Antwort auf das Geburtstagsproblem überraschend ist und ihr Gehirn ein bisschen verletzt!Die Antwort ist jedoch völlig richtig, und wir haben sie mit zwei verschiedenen Methoden gefunden – Wahrscheinlichkeitsberechnungen und Computersimulation. Lassen Sie uns untersuchen, warum die Antwort nicht intuitiv ist.
Oft denken die Leute an ihren Geburtstag und die Wahrscheinlichkeit, dass jemand zu diesem bestimmten Datum passt. Das Problem besteht jedoch darin, dass zwei Personen einen Geburtstag teilen. Das heißt, Sie müssen alle möglichen Personenpaare vergleichen. Durch die Bewertung aller Paare steigt die Anzahl der Vergleiche schnell an – und darin liegt die Quelle der Verwirrung.
Die Formel für die Anzahl der Vergleiche zwischen Paaren von N Personen lautet: (N * (N-1)) / 2. Wie Sie in der folgenden Tabelle sehen können, vergleicht die Anzahl Schneebälle mit 253 für nur 23 Personen!
Zum Teilen eines Geburtstages hat jedes Paar eine feste Wahrscheinlichkeit von 0,0027 für die Übereinstimmung. Das ist niedrig für nur ein Paar. Wenn jedoch die Anzahl der Paare schnell zunimmt, steigt auch die Wahrscheinlichkeit einer Übereinstimmung. Bei 23 Personen müssen Sie 253 Paare vergleichen. Bei so vielen Vergleichen wird es schwierig, dass keines der Geburtstagspaare übereinstimmt.
Wenn 57 Personen anwesend sind, müssen 1.596 Paare verglichen werden, und es ist praktisch mit einer Wahrscheinlichkeit von 0,99 garantiert, dass mindestens ein Paar passt zu Geburtstagen.
Ich liebe solche Probleme, bei denen die Intuition Sie in die Irre führt, aber Mathe den Tag rettet!
Da es sich um Geburtstage handelt, kann ein Statistiker sagen, dass das Alter gerecht ist eine Zahl?