Besvarelse af fødselsdagsproblemet i statistik

Fødselsdagsproblemet i statistikker spørger, hvor mange mennesker har du brug for i en gruppe for at have en 50% chance for, at mindst to personer deler en fødselsdag? Gå videre og tænk over det et øjeblik. Svaret overrasker mange mennesker. Vi kommer snart til det.

I dette indlæg vil jeg ikke kun svare på fødselsdagsparadoxet, men jeg vil også vise dig, hvordan du beregner sandsynlighederne for enhver størrelsesgruppe, kører en computersimulering af det og forklar, hvorfor svaret på fødselsdagsproblemet er så overraskende.

Beregning af sandsynligheder for fødselsdagsproblemet

Mange gætter på 183, fordi det er halvdelen af alle mulige fødselsdage, hvilket synes intuitivt. Desværre fungerer intuition ikke godt til løsning af dette problem. Så lad os gå direkte til at beregne sandsynligheder for folk, der deler fødselsdage.

For disse beregninger tager vi et par antagelser. For det første ser vi bort fra skuddår. Det forenkler matematikken, og det ændrer ikke resultaterne meget. Vi antager også, at alle fødselsdage har samme sandsynlighed for at forekomme.

Lad os starte med en person og derefter tilføje personer ad gangen for at illustrere, hvordan beregningerne fungerer. For disse beregninger er det lettere at beregne sandsynligheden for, at ingen deler en fødselsdag. Vi tager derefter denne sandsynlighed og trækker hvis fra en for at udlede sandsynligheden for, at mindst to personer deler en fødselsdag.

1 – Sandsynligheden for ingen match = Sandsynligheden for mindst en kamp

For den første person er der ingen fødselsdage, der allerede er dækket, hvilket betyder, at der er en 365/365 chance for, at der ikke er en fælles fødselsdag. Det giver mening. Vi har kun én person.

Lad os nu tilføje den anden person. Den første person dækker en mulig fødselsdag, så den anden person har en 364/365 chance for ikke at dele samme dag. Vi er nødt til at multiplicere sandsynligheden for de to første personer og trække fra en.

For den tredje person er de to foregående folk dækker to datoer. Derfor har den tredje person sandsynligheden for 363/365 for ikke at dele en fødselsdag.

Nu ser du mønsteret for hvordan man beregner sandsynligheden for et givet antal mennesker. Her er den generelle form for ligningen:

Relateret indlæg: Sandsynlighedsfundamenter

Tegning af fødselsdagsproblemet Sandsynligheder

Ved hjælp af Excel kan jeg beregne og tegne sandsynlighederne for enhver størrelsesgruppe. Download min Excel-fil: Fødselsdagsproblem.

Ved at vurdere sandsynlighederne er svaret på fødselsdagsproblemet, at du har brug for en gruppe på 23 personer har 50,73% chance for at folk deler en fødselsdag! De fleste mennesker forventer ikke, at gruppen er så lille. Bemærk også på diagrammet, at en gruppe på 57 har en sandsynlighed på 0,99. Det er næsten garanteret!

Bare rolig. Jeg vil snart forklare dette overraskende resultat. Lad os først kontrollere fødselsdagsproblemets svar på 23 ved hjælp af en anden metode.

Simulering af fødselsdagsparadoxet

Ved hjælp af sandsynlighedsberegninger forventer vi, at en gruppe på 23 personer har matchende fødselsdage 50,73% af tiden. Dernæst bruger jeg et statistisk simuleringsprogram til at simulere fødselsdagsparadoxet og afgøre, om de faktiske sandsynligheder matcher de forudsagte sandsynligheder. Til denne simulering bruger jeg Statistics101, som er et gaveware-program, selvom de sætter pris på donationer.

Programmet leveres med et eksempel på script, der viser sandsynligheden for en gruppe på 25. Jeg har ændret deres script, så det samler 100.000 grupper på 23 personer og tilfældigt tildeler en fødselsdag til hver person. Programmet bestemmer, om fødselsdage matcher inden for hver gruppe på 23 og beregner derefter procentdelen af de 100.000 grupper, der har et match. Baseret på sandsynlighedsberegningerne forventer vi, at ca. 50% af grupperne har matches. Jeg får også programmet til at oprette et histogram over antallet af matches inden for hver gruppe. Download mit script: BirthdayProblem.

Simulationssoftwaren fandt ud af, at 50,586% af de 100.000 grupper havde matchende fødselsdage. Det er meget tæt på den beregnede sandsynlighed på 50,73%. Denne simulering verificerer sandsynlighedsberegningerne.

Grafen nedenfor viser fordelingen af antallet af matches i disse grupper på 23.

Linjen længst til venstre angiver, at 49,41% af grupperne ikke har nogen matches. De næste søjler viser, at 37% har et match, 11,4% har to, 1,9% har tre og 0,31% havde mere end tre matches.

Hvorfor er gruppestørrelsen så lille for fødselsdagsproblemet?

Ligesom Monty Hall-problemet synes de fleste, at svaret på fødselsdagsproblemet er overraskende, og det gør lidt ondt i hjernen!Svaret er dog helt korrekt, og vi fandt det ved hjælp af to forskellige metoder – sandsynlighedsberegninger og computersimulering. Lad os undersøge, hvorfor svaret er kontraintuitivt.

Ofte tænker folk på deres fødselsdag og sandsynligheden for, at nogen matcher den specifikke dato. Problemet spørger imidlertid om to personer, der deler en fødselsdag. Det betyder, at du skal sammenligne alle mulige par af personer. Vurdering af alle par får antallet af sammenligninger til at stige hurtigt – og deri ligger kilden til forvirring.

Formlen for antallet af sammenligninger mellem par af N-mennesker er: (N * (N-1)) / 2. Som du kan se i nedenstående tabel, sammenligner antallet snebolde med 253 for kun 23 personer!

For at dele en fødselsdag , har hvert par en fast sandsynlighed på 0,0027 for matchning. Det er lavt for kun et par. Da antallet af par øges hurtigt, øges sandsynligheden for en kamp. Med 23 personer skal du sammenligne 253 par. Med så mange sammenligninger bliver det svært for ingen af fødselsdagsparerne at matche.

Når der er 57 personer, er der 1.596 par at sammenligne, og det er næsten garanteret med en 0,99 sandsynlighed for, at mindst et par vil matche fødselsdage.

Jeg elsker problemer som denne, hvor intuition fører dig på afveje, men matematik redder dagen!

Fordi vi taler om fødselsdage, kan en statistiker sige, at alderen er lige et nummer?

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *