Svara på födelsedagsproblemet i statistik
Födelsedagsproblemet i statistiken frågar, hur många människor behöver du i en grupp för att ha 50% chans att minst två personer delar en födelsedag? Fortsätt och tänk på det en stund. Svaret överraskar många människor. Vi kommer snart till det.
I det här inlägget svarar jag inte bara på födelsedagsparadoxen, utan jag visar dig också hur du beräknar sannolikheterna för alla storlekar, kör en datorsimulering av det och förklara varför svaret på födelsedagsproblemet är så överraskande.
Beräkna sannolikheter för födelsedagsproblemet
Många gissar 183 eftersom det är hälften av alla möjliga födelsedagar, vilket verkar intuitivt. Tyvärr fungerar inte intuition bra för att lösa detta problem. Så, låt oss gå direkt till beräkning av sannolikheter för personer som delar födelsedagar.
För dessa beräkningar tar vi några antaganden. Först kommer vi att bortse från skottåret. Det förenklar matematiken och det förändrar inte resultatet så mycket. Vi antar också att alla födelsedagar har samma sannolikhet att de ska inträffa.
Låt oss börja med en person och sedan lägga till personer i taget åt gången för att illustrera hur beräkningarna fungerar. För dessa beräkningar är det lättare att beräkna sannolikheten att ingen delar en födelsedag. Vi tar sedan sannolikheten och drar ifrån en för att härleda sannolikheten för att minst två personer delar en födelsedag.
1 – Sannolikheten för ingen matchning = Sannolikheten för minst en matchning
För den första personen finns det inga födelsedagar redan täckta, vilket innebär att det finns en 365/365 chans att det inte finns en delad födelsedag. Det låter vettigt. Vi har bara en person.
Nu ska vi lägga till den andra personen. Den första personen täcker en möjlig födelsedag, så den andra personen har 364/365 chans att inte dela samma dag. Vi måste multiplicera sannolikheten för de två första personerna och subtrahera från en.
För den tredje personen, de två föregående människor täcker två datum. Därför har den tredje personen sannolikheten 363/365 för att inte dela en födelsedag.
Nu ser du mönstret för hur man beräknar sannolikheten för ett visst antal personer. Här är den allmänna formen av ekvationen:
Relaterat inlägg: Sannolikhetsgrunder
Graferar födelsedagsproblemet Sannolikheter
Med hjälp av Excel kan jag beräkna och diagram sannolikheterna för alla storlekar. Ladda ner min Excel-fil: BirthdayProblem.
Genom att bedöma sannolikheten är svaret på födelsedagsproblemet att du behöver en grupp av 23 personer har 50,73% chans att människor delar en födelsedag! De flesta människor förväntar sig inte att gruppen är så liten. Lägg också märke till i diagrammet att en grupp på 57 har en sannolikhet på 0,99. Det är praktiskt taget garanterat!
Oroa dig inte. Jag kommer att förklara detta överraskande resultat inom kort. Låt oss först verifiera födelsedagsproblemets svar på 23 med en annan metod.
Simulering av födelsedagsparadoxen
Med hjälp av sannolikhetsberäkningar förväntar vi oss att en grupp på 23 personer har matchande födelsedagar 50,73% av tiden. Därefter använder jag ett statistiskt simuleringsprogram för att simulera födelsedagsparadoxen och avgöra om de faktiska sannolikheterna matchar de förutsagda sannolikheterna. För den här simuleringen använder jag Statistics101, som är ett presentvaruprogram, även om de uppskattar donationer.
Programmet kommer med ett exempel på skript som visar sannolikheten för en grupp på 25. Jag har ändrat deras skript så att det samlar 100 000 grupper om 23 personer och slumpmässigt tilldelar varje person en födelsedag. Programmet avgör om födelsedagar matchar inom varje grupp om 23 och beräknar sedan procentandelen av de 100 000 grupper som har en matchning. Baserat på sannolikhetsberäkningarna förväntar vi oss att cirka 50% av grupperna har matchningar. Jag får också programmet att skapa ett histogram över antalet matchningar inom varje grupp. Ladda ner mitt skript: BirthdayProblem.
Simuleringsprogramvaran fann att 50,586% av 100 000 grupper hade matchande födelsedagar. Det är extremt nära den beräknade sannolikheten på 50,73%. Denna simulering verifierar sannolikhetsberäkningarna.
Diagrammet nedan visar fördelningen av antalet matchningar i dessa grupper om 23.
Det längst till vänster står för att 49,41% av grupperna inte har några matchningar. Nästa staplar visar att 37% har en matchning, 11,4% har två, 1,9% har tre och 0,31% hade mer än tre matchningar.
Varför är gruppstorleken så liten för födelsedagsproblemet?
Liksom Monty Hall-problemet tycker de flesta att svaret på födelsedagsproblemet är förvånande och det gör ont i hjärnan lite!Svaret är dock helt korrekt, och vi hittade det med två olika metoder – sannolikhetsberäkningar och datasimulering. Låt oss undersöka varför svaret är kontraintuitivt.
Ofta kommer människor att tänka på sin födelsedag och sannolikheten att någon matchar det specifika datumet. Problemet frågar dock om två personer som delar en födelsedag. Det betyder att du måste jämföra alla möjliga par av individer. Att bedöma alla par gör att antalet jämförelser ökar snabbt – och där ligger källan till förvirring.
Formeln för antalet jämförelser mellan par av N-människor är: (N * (N-1)) / 2. Som du kan se i tabellen nedan jämförs antalet snöbollar med 253 för endast 23 personer!
För att dela en födelsedag , har varje par en fast sannolikhet på 0,0027 för matchning. Det är lågt för bara ett par. Eftersom antalet par ökar snabbt ökar dock sannolikheten för en matchning. Med 23 personer måste du jämföra 253 par. Med så många jämförelser blir det svårt för ingen av födelsedagsparen att matcha.
När det är 57 personer finns det 1596 par att jämföra, och det är praktiskt taget garanterat med 0,99 sannolikhet att minst ett par kommer att matcha födelsedagar.
Jag älskar sådana problem där intuition leder dig vilse men matte räddar dagen!
Eftersom vi pratar om födelsedagar, kan en statistiker säga att ålder är bara ett nummer?