Filtrage bayésien du spam - Définition

Source: Wikipédia sous licence CC-BY-SA 3.0.
La liste des auteurs de cet article est disponible ici.

Introduction

Le filtrage bayésien du pourriel (en référence à Thomas Bayes) est une technique statistique de détection du pourriel. Elle s'appuie sur la classification naïve bayésienne pour identifier les messages électroniques non désirés.

Le premier programme de filtrage du courrier électronique utilisant Bayes était le programme iFile de Jason Rennie, publié en 1996. Ce programme était utilisé pour classer le courrier en dossiers. La première publication académique sur le filtrage bayésien du pourriel a été faite par Sahami et al. en 1998. Des variantes de la technique de base ont été implémentées dans plusieurs travaux de recherche et produits logiciels. En 2002, les principes du filtrage bayésien ont été mis à la connaissance d'un plus grand public dans un article de Paul Graham.

Le filtrage bayésien du pourriel est devenu une méthode populaire pour départager le courrier indésirable (spam) du courrier légitime (ham). de nombreux agents de courriers électronique modernes mettent en œuvre des filtres bayésiens antipourriels. Les utilisateurs peuvent également installer des logiciels tiers spécialisé dans ce travail. Il est également possible de déployer ce type de filtres sur les serveurs à l'aide de logiciels spécialisés comme DSpam, SpamAssassin, SpamBayes, Bogofilter ou encore ASSP, et cette fonctionnalité est parfois intégrée au serveur de courrier lui-même.

Procédé

Certains mots ont des probabilités d'apparaître dans un pourriel et dans un courrier légitime. Par exemple, la plupart des gens rencontreront fréquemment le mot « Viagra » dans leurs pourriels, mais ils le rencontreront rarement dans leurs courriers légitimes. Le filtre ne connaît pas à l'avance ces probabilités, c'est pourquoi il lui faut un temps d'apprentissage pour les évaluer. L'apprentissage est à la charge de l'utilisateur, qui doit indiquer manuellement si un message est un pourriel ou non. Pour chaque mot de chaque message « appris », le filtre ajustera les probabilités de rencontrer ce mot dans un pourriel ou un courrier légitime et les stockera dans sa base de données. Par exemple, les filtres bayésiens ont de fortes chances d'avoir une forte probabilité de pourriel pour le mot « Viagra », mais une très faible probabilité pour les mots rencontrés dans les courriers légitimes, comme les noms des amis et des parents de l'utilisateur.

Après l'apprentissage, les probabilités des mots (également appelées fonctions de vraisemblance) sont utilisées pour calculer la probabilité qu'un message (l'ensemble de ces mots) soit un pourriel. Chaque mot du message, ou du moins chaque mot « intéressant » du message, contribue à la probabilité que le message soit un pourriel. Cette contribution est calculée en utilisant le théorème de Bayes. Une fois que le calcul pour le message en entier est terminé, on compare sa probabilité d'être un pourriel à une valeur arbitraire (95% par exemple) pour marquer ou non le message comme pourriel.

Comme dans n'importe quelle autre technique de filtrage du pourriel, les messages marqués comme pourriel peuvent être automatiquement déplacés dans un dossier « détritus », ou même supprimés sur le champ. Certains logiciels mettent en place des mécanismes de quarantaine qui définissent un intervalle de temps pendant lequel l'utilisateur a l'opportunité de réexaminer la décision du logiciel.

L'apprentissage initial peut souvent être affiné si jamais de mauvaises décisions du logiciel sont identifiées (faux positifs ou faux négatifs). Cela permet au logiciel de s'adapter à la nature évolutive du pourriel.

Certains filtres de spam combinent les résultats du filtrage bayésien du spam à d'autres méthodes heuristiques (règles prédéfinies concernant le contenu du message, examen de l'enveloppe du message, etc.), ce qui conduit à un filtrage encore plus précis, parfois aux dépens de l'adaptivité.

Page générée en 0.039 seconde(s) - site hébergé chez Contabo
Ce site fait l'objet d'une déclaration à la CNIL sous le numéro de dossier 1037632
A propos - Informations légales | Partenaire: HD-Numérique
Version anglaise | Version allemande | Version espagnole | Version portugaise