For faster navigation, this Iframe is preloading the Wikiwand page for Filtro bayesiano.

Filtro bayesiano

Esta página cita fontes, mas que não cobrem todo o conteúdo. Ajude a inserir referências (Encontre fontes: ABW  • CAPES  • Google (N • L • A)). (Dezembro de 2016)

O filtro bayesiano é o processo de usar métodos estatísticos para classificar documentos por categorias. O filtro de Bayes foi definido depois do documento de Paul Graham, A Plan for Spam,[1] e transformou-se num mecanismo popular para distinguir um e-mail ilegítimo conhecido como spam de um e-mail legítimo.

Muitos programas de e-mail modernos como Mozilla Thunderbird utilizam a filtragem de spams através de inferência por meio da aplicação do teorema de Bayes:

A probabilidade de um email ser um spam por conter determinada palavra é, por inferência bayesiana, igual à estatística de aparecimento daquela palavra em emails que sejam marcados pelo usuário como spam, multiplicada à estatística geral de spams por total de emails recebidos e dividida pela estatística geral de aparecimento daquela palavra.

Por exemplo, palavras comuns como "você", "eu", "casa" e "festa" aparecem com frequência em mensagens que sejam spam, todavia também aparecem com frequência em mensagens que não sejam spam. Mas no caso de outras expressões, como "viagra", "dinheiro fácil" e "preço imperdível", que são raras em emails comuns e comuns em mensagens de spam, é altamente provável que mensagens que as possuam sejam spams.

A inferência Bayesiana permite uma eficaz filtragem preditiva de mensagens através de palavras-chave com um número reduzido de falso positivos. Definindo um limiar conservador ainda assim mantêm-se grande parte das mensagens de spam fora da caixa de entrada, sendo bastante improvável que uma mensagem seja erroneamente enviada à caixa de spam; o que seria impossível com filtros simples.

Para que o filtro possa funcionar corretamente é necessário que se tenha um bom banco de dados para a inferência das probabilidades, com uma amostragem considerável de mensagens que sejam e que não sejam spam. No caso de clientes de email para desktop, como o Thunderbird, esse banco de dados é local e individual, sendo construído pouco a pouco pelo feedback do usuário. E no caso de grandes webmails, como o Gmail, esse banco de dados pode ser coletivo, construído pelo feedback de milhares de diferentes usuários de diversas partes do mundo, resultando em um banco de dados com melhor amostragem e por tanto mais eficaz. O que pode não ser de todo desejável, já que talvez um banco de dados com pequena amostragem porém específico atente melhor à necessidade individual de certos indivíduos; porém algoritmos mais complexos podem designar pesos para o feedback do usuário, preservando a especifidade.

Um dos reveses da filtragem bayesiana é o processamento de dados e a manutenção de um banco de dados que em sistemas limitados não pode ser possível levando ao uso de filtros mais simples. E para os que utilizam bancos de dados locais, o 'período de feedback' pode ser incômodo.

Referências

{{bottomLinkPreText}} {{bottomLinkText}}
Filtro bayesiano
Listen to this article

This browser is not supported by Wikiwand :(
Wikiwand requires a browser with modern capabilities in order to provide you with the best reading experience.
Please download and use one of the following browsers:

This article was just edited, click to reload
This article has been deleted on Wikipedia (Why?)

Back to homepage

Please click Add in the dialog above
Please click Allow in the top-left corner,
then click Install Now in the dialog
Please click Open in the download dialog,
then click Install
Please click the "Downloads" icon in the Safari toolbar, open the first download in the list,
then click Install
{{::$root.activation.text}}

Install Wikiwand

Install on Chrome Install on Firefox
Don't forget to rate us

Tell your friends about Wikiwand!

Gmail Facebook Twitter Link

Enjoying Wikiwand?

Tell your friends and spread the love:
Share on Gmail Share on Facebook Share on Twitter Share on Buffer

Our magic isn't perfect

You can help our automatic cover photo selection by reporting an unsuitable photo.

This photo is visually disturbing This photo is not a good choice

Thank you for helping!


Your input will affect cover photo selection, along with input from other users.

X

Get ready for Wikiwand 2.0 🎉! the new version arrives on September 1st! Don't want to wait?