Eine intuitive (und kurze) Erklärung des Bayes-Theorems
Die Spamfilterung basierend auf einer schwarzen Liste ist fehlerhaft – sie ist zu restriktiv und falsch positiv zu schön. Die Bayessche Filterung gibt uns jedoch einen Mittelweg – wir verwenden Wahrscheinlichkeiten. Während wir die Wörter in einer Nachricht analysieren, können wir die Wahrscheinlichkeit berechnen, dass es sich um Spam handelt (anstatt eine Ja / Nein-Entscheidung zu treffen). Wenn eine Nachricht eine 99,9% ige Wahrscheinlichkeit hat, Spam zu sein, ist dies wahrscheinlich der Fall. Wenn der Filter mit immer mehr Nachrichten trainiert wird, werden die Wahrscheinlichkeiten aktualisiert, mit denen bestimmte Wörter zu Spam-Nachrichten führen. Erweiterte Bayessche Filter können mehrere Wörter hintereinander als weiteren Datenpunkt untersuchen.
Weiterführende Literatur
Über Bayes wird viel gesagt:
- Bayes Theorem auf Wikipedia
- Diskussion über das Codieren von Horror
- Der große Aufsatz über Bayes Theorem
Viel Spaß!
Andere Beiträge in dieser Reihe
- Eine kurze Einführung in die Wahrscheinlichkeit & Statistik
- Eine intuitive (und kurze) Erklärung von Bayes „Theorem
- Bayes-Theorem mit Verhältnissen verstehen
- Das Monty Hall-Problem verstehen
- Daten anhand des Durchschnitts analysieren
- Den Geburtstag verstehen Paradox