For faster navigation, this Iframe is preloading the Wikiwand page for Bayesovské filtrování.

Bayesovské filtrování

Bayesovské filtrování (anglicky Bayesian filtering) je jednou z nejefektivnějších řešení boje proti e-mailovému spamu. Spam je problém, kterému dnes čelí většina uživatelů e-mailů a počty spamových emailů se denně zvyšují. Obvykle používané techniky anti-spamových softwarů jsou statické, to znamená, že spamerům stačí tyto techniky jen prozkoumat a najít cestu jak se jim vyhnout (například změnit titul zprávy). To dalo developerům novou výzvu. Namísto dosavadních statických metod bylo potřeba přijít na anti-spamovou techniku, která by se byla schopna přizpůsobit stále se měnícím spamerským taktikám. Odpověď byla nalezena v bayesovské matematice a vznikla technika bayesovského filtrování.

Princip bayesovského filtrování

[editovat | editovat zdroj]

Bayesovské filtrování je proces, který používá naivní bayesovský klasifikátor k identifikaci spamového e-mailu. Základní myšlenkou je, že většina událostí je mezi sebou závislá a pravděpodobnost jevu budoucí události může být odvozena z předcházejících jevů této události. To je možné aplikovat i na spam. Pokud nějaký kus textu je nalezen ve spamu a nikoliv v hamu, lze usoudit, že e-mail bude pravděpodobně spam.

Přizpůsobení bayesovských filtrů

[editovat | editovat zdroj]

Je důležité si povšimnout, že analýza potřebných e-mailů provedená bayesovským filtrem v určitém prostředí je na toto prostředí přizpůsobena. Například finanční ústavy mohou často používat slovo „hypotéka“ a při použití obecných pravidel by e-maily s tímto slovem byly označeny jako spam. Bayesovský filtr naučený konkrétně pro toto prostředí si všimne častého používání tohoto slova v potřebných zprávách a proto dosáhne lepších výsledků. Bayesovské filtrování je chytrý přístup ke třídění elektronické pošty, protože prozkoumá všechny aspekty zprávy, na rozdíl od pouhé kontroly obsahu zprávy. Například ne každý e-mail obsahující slova „zdarma“ nebo „peníze“ je spam. Bayesovská metoda by tyto slova sice do klasifikace zahrnula, ale podle věrohodného odesílatele by e-mail jako spam neklasifikovala.

Nevýhody bayesovských filtrů

[editovat | editovat zdroj]

Jednou z nevýhod je učení softwaru. Po instalaci je nutná perioda dvou týdnů, kdy se bayesovský filtr trénuje na zvyklostech prostředí, ve kterém se nachází. Po dokončení této fáze je software schopen rozlišit spam od ham zpráv a správně je klasifikovat, přitom je schopen se přizpůsobit novým spamovým technikám, které jsou mu představeny. Zatímco běžné filtry podle klíčových slov se budou chovat lépe v průběhu prvního měsíce, bayesovský filtr je s největší pravděpodobností již v dalším měsíci bude předčit.

Anti-spamové softwary s velmi základními bayesovskými schopnostmi, jako například spamový filtr Microsoft Outlook, nevytváří data přizpůsobená určitým prostředím, ale vydává standardní soubory s hamovými daty. Ačkoli tato metoda nevyžaduje učení aplikace, má dvě velké nevýhody: Soubor s hamovými daty je veřejně přístupný a může tedy být hacknutý profesionálními spamery. Takovýto soubor hamových dat je příliš obecný a nemůže tedy být tak účinný jako v případě, kdy probíhá učení pro určité prostředí.

Pro efektivní využití je nutné také provádět update posledních spamových technik pomocí souboru spamových dat. Díky tomu se lze ujistit, že bayesovský filtr zná nejnovější taktiky spamerů a dosáhne tak vysoké úspěšnosti detekce spamu. Jako příklad spamové techniky je možné uvést třeba přepis slova „zdarma“ na slovo „z-d-a-r-m-a“, které by u typického anti-spam filtru muselo být evidováno jako další textový řetězec.

Bayesovský filtr a vícejazyčnost

[editovat | editovat zdroj]

Bayesovská metoda je vícejazyčná, na rozdíl od většiny slov klíčových seznamů, které se dají použít pouze pro jeden jazyk. Bayesovský filtr také bere v potaz odlišné způsoby mluvy určitých jazyků a nářečí, to mu umožňuje lepší klasifikaci spamu. Bayesovský filtr je těžké obejít, na rozdíl od filtrování podle klíčových slov. Pokročilý spammer, který se chce dostat přes bayesovský filtr, musí použít méně slov, které by indikovaly zprávu jako spam, nebo použít více slov typického hamu. Druhý způsob, kdy se spammer pokouší najít požadovaná slova, je však nemožný, pokud chce spamovat větší skupinu různých lidí, protože hledat tato slova pro každou osobu by bylo velice časově náročné.

Externí odkazy

[editovat | editovat zdroj]
{{bottomLinkPreText}} {{bottomLinkText}}
Bayesovské filtrování
Listen to this article

This browser is not supported by Wikiwand :(
Wikiwand requires a browser with modern capabilities in order to provide you with the best reading experience.
Please download and use one of the following browsers:

This article was just edited, click to reload
This article has been deleted on Wikipedia (Why?)

Back to homepage

Please click Add in the dialog above
Please click Allow in the top-left corner,
then click Install Now in the dialog
Please click Open in the download dialog,
then click Install
Please click the "Downloads" icon in the Safari toolbar, open the first download in the list,
then click Install
{{::$root.activation.text}}

Install Wikiwand

Install on Chrome Install on Firefox
Don't forget to rate us

Tell your friends about Wikiwand!

Gmail Facebook Twitter Link

Enjoying Wikiwand?

Tell your friends and spread the love:
Share on Gmail Share on Facebook Share on Twitter Share on Buffer

Our magic isn't perfect

You can help our automatic cover photo selection by reporting an unsuitable photo.

This photo is visually disturbing This photo is not a good choice

Thank you for helping!


Your input will affect cover photo selection, along with input from other users.

X

Get ready for Wikiwand 2.0 🎉! the new version arrives on September 1st! Don't want to wait?