Co to jest Bayesian Spam Filtering?

Bayesowskie filtry antyspamowe obliczają prawdopodobieństwo, że wiadomość jest spamem w oparciu o jej zawartość. W przeciwieństwie do prostych filtrów opartych na zawartości, filtrowanie spamu Bayesa uczy się ze spamu i dobrej poczty, co powoduje bardzo silne, adaptacyjne i skuteczne podejście antyspamowe, które, co najważniejsze, nie zwraca prawie żadnych fałszywych alarmów.

Jak rozpoznajesz niechcianą pocztę e-mail?

Zastanów się, jak możesz wykryć spam. Często wystarczy szybkie spojrzenie. Wiesz, jak wygląda spam i wiesz, jak wygląda dobra poczta.

Prawdopodobieństwo, że spam wygląda jak dobra poczta, wynosi około … zero.

Nie można dostosować wielkości filtrów opartych na treści

Czy nie byłoby wspaniale, gdyby automatyczne filtry antyspamowe działały w ten sposób?

Ocenianie filtrów spamowych opartych na treściach spróbuj. Szukają słów i innych cech typowych dla spamu. Każdy charakterystyczny element ma przypisany wynik, a wynik spamu dla całej wiadomości jest obliczany na podstawie indywidualnych wyników. Niektóre filtry scoringowe również szukają cech prawdziwej poczty, obniżając końcowy wynik wiadomości.

Podejście filtrów scoringowych działa, ale ma również kilka wad:

Lista cech jest zbudowana na podstawie spamu (i dobrej poczty) dostępnego inżynierom filtra. Aby uzyskać dobry dostęp do typowego spamu, który ktoś może dostać, poczta musi być zbierana na setkach adresów e-mail. Osłabia to wydajność filtrów, zwłaszcza dlatego, że cechy dobrej poczty będą różne dla każdej osoby , ale nie jest to brane pod uwagę.
Charakterystyki, których należy szukać, są mniej lub więcej ustalone . Jeśli spamerzy podejmują wysiłek adaptacji (i sprawiają, że ich spam wygląda na dobrą pocztę do filtrów), charakterystyka filtrowania musi zostać zmieniona ręcznie - jeszcze większy wysiłek.
Wynik przypisany do każdego słowa jest prawdopodobnie oparty na dobrym oszacowaniu, ale nadal jest arbitralny. I podobnie jak lista cech, nie dostosowuje się ani do zmieniającego się świata spamu w ogóle, ani do indywidualnych potrzeb użytkownika.

Bayesian Spam Filters Tweak się, coraz lepiej

Bayesowskie filtry antyspamowe są także rodzajem filtrowania opartych na zawartości filtrów. Ich podejście eliminuje jednak problemy związane z prostym filtrowaniem spamu i robi to radykalnie. Ponieważ słabość filtrów scoringowych znajduje się na ręcznie zbudowanej liście cech i ich wyników, ta lista jest wyeliminowana.

Zamiast tego filtry antyspamowe Bayesa budują tę listę samodzielnie. Najlepiej, jeśli zaczniesz od (dużej) grupy e-maili, które zaklasyfikowałeś jako spam, i kolejnej porcji dobrej poczty. Filtry analizują zarówno wiarygodną pocztę, jak i spam, aby obliczyć prawdopodobieństwo różnych cech pojawiających się w spamie i dobrych pocztach.

W jaki sposób filtr antyspamowy Bayesian sprawdza wiadomość e-mail

Cechą, na którą może spojrzeć filtr antyspamowy Bayesa, może być:

słowa w treści wiadomości, oczywiście, i
jego nagłówki (nadawcy i ścieżki wiadomości, na przykład!), ale także
inne aspekty, takie jak kod HTML / CSS (jak kolory i inne formatowanie), a nawet
pary wyrazów, zwroty i
meta-informacja (gdzie pojawia się na przykład określone wyrażenie).

Jeśli na przykład słowo "kartezjański" nigdy nie pojawia się w spamie, ale często w otrzymywanym legalnym e-mailu, prawdopodobieństwo, że "kartezjański" wskazuje na spam, jest bliskie zeru. Z drugiej strony "Toner" pojawia się wyłącznie i często w spamie. "Toner" ma bardzo wysokie prawdopodobieństwo znalezienia się w spamie, niewiele poniżej 1 (100%).

Kiedy nadejdzie nowa wiadomość, jest analizowana przez filtr antyspamowy Bayesa, a prawdopodobieństwo, że kompletna wiadomość jest spamem, jest obliczane na podstawie indywidualnych cech.

Załóżmy, że wiadomość zawiera zarówno "kartezjański" i "toner". Z samych tych słów nie wiadomo jeszcze, czy mamy spam czy legit. Inne cechy (prawdopodobnie i najprawdopodobniej) wskazują na prawdopodobieństwo, które pozwoli filtrowi zaklasyfikować wiadomość jako spam lub dobrą pocztę.

Filtry spamu Bayesa mogą się uczyć automatycznie

Teraz, gdy mamy już klasyfikację, wiadomość może zostać użyta do dalszego szkolenia filtra. W tym przypadku prawdopodobieństwo "kartezjańskiego" oznaczania dobrej poczty jest obniżone (jeśli wiadomość zawierająca zarówno "kartezjański" i "toner" zostanie uznany za spam), lub prawdopodobieństwo "toneru" wskazującego na spam musi zostać ponownie rozważone.

Korzystając z tej techniki autoadaptacji, filtry Bayesa mogą uczyć się zarówno na własnych, jak i na podstawie decyzji użytkownika (jeśli ręcznie koryguje błędną ocenę za pomocą filtrów). Adaptowalność filtrowania Bayesa zapewnia także, że są one najbardziej efektywne dla indywidualnego użytkownika poczty e-mail. Podczas gdy spam większości ludzi może mieć podobną charakterystykę, prawidłowa poczta jest charakterystycznie inna dla wszystkich.

W jaki sposób spamerzy mogą uzyskać przeszłe filtry Bayesa?

Cechy legalnej poczty są tak samo ważne dla procesu filtrowania spamu Bayesa, jak i spamu. Jeśli filtry są specjalnie przygotowane dla każdego użytkownika, spamerzy będą mieli jeszcze więcej czasu, pracując nad filtrami spamowymi wszystkich (lub nawet większości ludzi), a filtry mogą dostosować się do niemal wszystkiego, co próbują spamerzy.

Spamerzy przejdą tylko przez dobrze wyszkolone filtry Bayesa, jeśli sprawią, że ich wiadomości spamowe będą wyglądały idealnie jak zwykły e-mail, który każdy może otrzymać.

Spamerzy zwykle nie wysyłają takich zwykłych wiadomości e-mail. Załóżmy, że to dlatego, że te e-maile nie działają jako wiadomości-śmieci.Prawdopodobnie nie będą tego robić, gdy zwykłe, nudne e-maile będą jedyną drogą do przekroczenia filtrów spamowych.

Jeśli jednak spamerzy przerzucą się na zwykłe e-maile, ponownie zobaczymy dużo spamu w naszych skrzynkach pocztowych, a e-maile mogą stać się tak frustrujące, jak w czasach przed-bayesowskich (lub nawet gorszych). Zniszczy też rynek dla większości rodzajów spamu, a zatem nie będzie trwał długo.

Silne wskaźniki mogą być pięcioma piętami achillesa filtra Bayesa

Jeden wyjątek może być postrzegany przez spamerów do przepuszczania przez filtry Bayesa nawet przy ich zwykłej treści. Z natury statystyk bayesowskich jedno słowo lub cecha, która bardzo często pojawia się w dobrej poczcie, może mieć tak duże znaczenie, że każda wiadomość może wyglądać jak spam, by zostać ocenionym przez filtr jako szynka.

Jeśli spamerzy znajdą sposób na określenie słów dobrego poczucia bezpieczeństwa, używając potwierdzenia odbioru HTML, aby zobaczyć, które wiadomości otworzyłeś, na przykład, mogą zawrzeć jeden z nich w wiadomościach śmieci i dotrzeć do ciebie nawet przez dobrze wyszkolony filtr Bayesian.

John Graham-Cumming próbował tego, pozwalając dwóm filtrom bayesowskim działać przeciwko sobie, "złemu", dostosowującemu się do tego, które komunikaty znajdują się w "dobrym" filtrze. Mówi, że to działa, chociaż proces ten jest czasochłonny i złożony. Nie sądzimy, że wiele z tego się wydarzy, przynajmniej nie na dużą skalę, a nie dostosowanych do indywidualnych cech e-maili. Spamerzy mogą (spróbować) wymyślić niektóre słowa kluczowe dla organizacji (może coś takiego jak "Almaden" dla niektórych osób w IBM?) Zamiast tego.

Zwykle spam zawsze (znacząco) różni się od zwykłej poczty lub nie będzie spamem.

The Bottom Line: Bayesian Filtering's Siła może być jego słabością

Bayesowskie filtry antyspamowe tofiltry oparte na treści że:

sąspecjalnie wyszkolony do rozpoznawania spamu i dobrej poczty e-mail poszczególnych użytkowników, dzięki czemu są wysoce skuteczne i trudne do przystosowania dla spamerów.
może ciągle i bez większego wysiłku lub ręcznej analizyprzystosować się do najnowszych sztuczek spamerów.
weź pod uwagę dobrą pocztę indywidualnego użytkownika i bardzo dobrzeniska liczba fałszywych alarmów.
Niestety, jeśli powoduje to ślepe zaufanie do bayesowskich filtrów antyspamowych, renderuje tookazjonalny błąd jeszcze poważniejszy. Przeciwny efektfałszywe negatywy (spam, który wygląda dokładnie tak, jak zwykła poczta) może przeszkadzać i niszczyć użytkowników.