Å svare på bursdagsproblemet i statistikk
Bursdagsproblemet i statistikk spør hvor mange mennesker trenger du i en gruppe for å ha 50% sjanse for at minst to personer vil dele en bursdag? Gå videre og tenk på det et øyeblikk. Svaret overrasker mange mennesker. Vi kommer snart til det.
I dette innlegget vil jeg ikke bare svare på bursdagsparadokset, men jeg vil også vise deg hvordan du beregner sannsynlighetene for alle størrelsesgrupper, kjører en datasimulering av det, og forklar hvorfor svaret på bursdagsproblemet er så overraskende.
Beregning av sannsynligheter for bursdagsproblemet
Mange gjetter 183 fordi det er halvparten av alle mulige fødselsdager, noe som virker intuitivt. Dessverre fungerer intuisjon ikke bra for å løse dette problemet. Så, la oss gå direkte til å beregne sannsynligheten for folk som deler fødselsdager.
For disse beregningene tar vi noen forutsetninger. Først ser vi bort fra skuddåret. Det forenkler matematikken, og det endrer ikke resultatene så mye. Vi antar også at alle bursdager har like stor sannsynlighet for å forekomme.
La oss starte med en person, og deretter legge til personer om gangen for å illustrere hvordan beregningene fungerer. For disse beregningene er det lettere å beregne sannsynligheten for at ingen deler bursdag. Vi tar da sannsynligheten og trekker fra fra en for å utlede sannsynligheten for at minst to personer deler en bursdag.
1 – Sannsynlighet for ingen samsvar = Sannsynlighet for minst en kamp
For den første personen er det ingen fødselsdager allerede dekket, noe som betyr at det er en 365/365 sjanse for at det ikke er en felles bursdag. Det gir mening. Vi har bare én person.
La oss nå legge til den andre personen. Den første personen dekker en mulig bursdag, så den andre har 364/365 sjanse til ikke å dele samme dag. Vi må multiplisere sannsynlighetene for de to første personene og trekke fra en.
For tredje person, de to foregående folk dekker to datoer. Derfor har den tredje personen sannsynligheten for 363/365 for ikke å dele bursdag.
Nå ser du mønsteret for hvordan man beregner sannsynligheten for et gitt antall personer. Her er den generelle formen for ligningen:
Relatert innlegg: Sannsynlighetsgrunnleggende
Tegning av bursdagsproblemet Sannsynligheter
Ved hjelp av Excel kan jeg beregne og tegne sannsynlighetene for alle størrelsesgrupper. Last ned Excel-filen min: BirthdayProblem.
Ved å vurdere sannsynlighetene er svaret på bursdagsproblemet at du trenger en gruppe på 23 personer som har 50,73% sjanse for at folk deler bursdag! De fleste forventer ikke at gruppen skal være så liten. Legg også merke til i diagrammet at en gruppe på 57 har en sannsynlighet på 0,99. Det er praktisk talt garantert!
Ikke bekymre deg. Jeg kommer til å forklare dette overraskende resultatet om kort tid. La oss først verifisere bursdagsproblemets svar på 23 ved hjelp av en annen metode.
Simulering av bursdagsparadokset
Ved hjelp av sannsynlighetsberegninger forventer vi at en gruppe på 23 personer har matchende fødselsdager 50,73% av tiden. Deretter vil jeg bruke et statistisk simuleringsprogram for å simulere bursdagsparadokset og bestemme om de faktiske sannsynlighetene samsvarer med de forventede sannsynlighetene. For denne simuleringen bruker jeg Statistics101, som er et gaveprogram, selv om de setter pris på donasjoner.
Programmet leveres med et eksempel på skript som viser sannsynligheten for en gruppe på 25. Jeg har endret skript slik at det samler 100 000 grupper på 23 personer og tilfeldig tildeler en bursdag til hver person. Programmet avgjør om fødselsdager samsvarer med hver gruppe på 23, og beregner deretter prosentandelen av de 100 000 gruppene som har en kamp. Basert på sannsynlighetsberegningene, forventer vi at omtrent 50% av gruppene har kamper. Jeg får også programmet til å lage et histogram over antall treff i hver gruppe. Last ned skriptet mitt: BirthdayProblem.
Simuleringsprogramvaren fant at 50,586% av de 100 000 gruppene hadde matchende fødselsdager. Det er ekstremt nær den beregnede sannsynligheten på 50,73%. Denne simuleringen verifiserer sannsynlighetsberegningene.
Grafen nedenfor viser fordelingen av antall treff i disse gruppene på 23.
Linjen lengst til venstre indikerer at 49,41% av gruppene ikke har noen treff. De neste stolpene viser at 37% har en kamp, 11,4% har to, 1,9% har tre og 0,31% hadde mer enn tre treff.
Hvorfor er gruppestørrelsen så liten for bursdagsproblemet? / h2>
I likhet med Monty Hall-problemet, tror de fleste at svaret på bursdagsproblemet er overraskende, og det gjør vondt i hjernen deres!Svaret er imidlertid helt riktig, og vi fant det ved å bruke to forskjellige metoder – sannsynlighetsberegninger og datasimulering. La oss undersøke hvorfor svaret er motstridende.
Ofte vil folk tenke på bursdagen sin og sannsynligheten for at noen vil matche den spesifikke datoen. Problemet spør imidlertid om to personer som deler bursdag. Det betyr at du må sammenligne alle mulige par av individer. Å vurdere alle par fører til at antall sammenligninger øker raskt — og der ligger kilden til forvirring.
Formelen for antall sammenligninger mellom par N-folk er: (N * (N-1)) / 2. Som du kan se i tabellen nedenfor, sammenligner antallet snøballer med 253 for bare 23 personer!
For å dele en bursdag , har hvert par en fast sannsynlighet på 0,0027 for samsvar. Det er lavt for bare ett par. Når antallet par øker raskt, øker imidlertid sannsynligheten for en kamp. Med 23 personer, må du sammenligne 253 par. Med så mange sammenligninger blir det vanskelig for ingen av bursdagsparene å matche.
Når det er 57 personer, er det 1596 par å sammenligne, og det er praktisk talt garantert med 0,99 sannsynlighet for at minst ett par vil matche bursdager.
Jeg elsker problemer som dette der intuisjon fører deg på avveie, men matte redder dagen!
Fordi vi snakker om bursdager, kan en statistiker si at alderen er bare et nummer?