Comment mesurer et améliorer sa délivrabilité : outils, trucs et astuces
La détection des spam
1. UNIVERSITE DJILLALI LIABES SIDI BEL ABBES
FACULTE DES SCIENCES DE L’INGENIEUR
Département d’Informatique
Master 2
La détection des spams
2014-2015
1
2. Introduction générale
Data mining
Texte mining
Introduction sur le spam
Les catégories de spam
Les techniques anti spam
Les solutions logiciels anti spam
Conclusion
implémentation du projet
2
3. Les moyens de communication modernes ont connu ces dernières
années une expansion massive.
Les entreprises voient dans ces nouveaux outils la possibilité d’améliorer
de façon significative leur efficacité en communiquant toujours plus vite,
de façon plus efficace et à des coûts toujours plus faibles.
Parallèlement à cette frénésie s’est développé un véritable fléau : le
spam.
Le spam, connu en français sous les termes de « pourriel » ou « courrier indésirable »,
désigne une communication électronique non sollicitée.
La notion d'envoi de messages n'est pas nouvelle ; elle existait déjà sous la forme de
publicités via la boîte aux lettres postale (fax, appel automatique de messageries
téléphoniques...).
3
4. Définition
Ensemble de méthodes et de techniques qui permet d'extraire des
informations à partir d'une grande masse de données.
il s'agit du processus de sélection, exploration, modification et
modélisation de grandes bases de données
Le Data Mining correspond donc à l'ensemble des techniques et
des méthodes qui à partir de données permettent d'obtenir des
connaissances exploitables.
4
5. Les étapes du processus Data
Mining
Quel que soit le domaine d’application, une opération de datamining
suit globalement un processus en huit étapes :
Comprendre le domaine d'application
Sélection d'un ensemble de données.
Nettoyage des données.
Choix des fonctionnalités : classification, consolidation, association,
clustering.
Choix de(s) l'algorithme(s) d'extraction.
Data Mining: Recherche des motifs (patterns)
Evaluation des patterns et présentation, visualisation, transformation,
suppression
Utilisation de la connaissance extraite.
1
5
6. Les algorithmes de datamining
Les algorithmes qui utilisé dans Data mining sont :
Naïve Bayes
ID3 et C4.5
K-means
KNN «k-nearest neighbors»
EM pour Espérance-maximisation .
6
7. Les différents domaines
applications
Marketing direct: population à cibler (profession, habitation, région, …)
Gestion et analyse des marchés : Ex. Grande distribution : profils des
consommateurs etc…
Détection de fraudes: Télécommunications, ...
Gestion de stocks: Ex. quelle quantité demander, …
Analyse financière
Gestion et analyse de risque: Assurances, Banques
Compagnies aériennes
Médecine et pharmacie
7
8. Définition
technique permettant d’automatiser le traitement de gros volumes de
contenus texte pour en extraire les principales tendances et répertorier
de manière statistique les différents sujets évoqués.
le texte mining peut être utilisé pour analyser le contenu des e-mails
entrant ou les propos tenus sur des forums et médias sociaux.
8
9. Le processus du text mining
Le text mining débute par la modélisation des textes en vue de leur
préparation pour l’étape de Data mining
Le déroulement d’un processus Text Mining est tout à fait conforme à
celui d’un processus KDD (Knowledge Data Discovry). C'est-à-dire trois
phases distinctes :
Le traitement linguistique
La lexicométrie
Le traitement des données
9
10. Les étapes de TextMining
1.Sélection du corpus de documents
•Documents pré-classés
•Documents à classer
2.Extraction des termes
•lemmatisation
•Filtrage des termes extraits
3.Transformation
4.Classification
5.Visualisation des résultats
6.Interprétation des résultats
10
11. Les différents domaines
applications
Recherche d'information :
•Les moteurs de recherche tels Google ou Yahoo!.
Filtrage des communications :
•Beaucoup de gestionnaires de courriers électroniques sont
maintenant livrés avec un filtre anti-spam.
Applications de sécurité :
•Le système mondial des communications privées et
publiques exemple d'utilisation militaire .
11
12. L’historique de Spam est née en 1994 lorsque deux juristes
Américains effectuent le premier e-mailing de masse vers
quelques milliers de destinataires afin de promouvoir leur
société de conseil.
Introduction
12
13. Le spam mot signifie courriers indésirables. Les e-mails non
sollicités reçus par toute personne à son / sa boîte aux
lettres sont appelés spam. Ces courriers indésirables sont
généralement envoyés en masse pour la publicité et la
commercialisation
13
14. Nous sommes tous victimes de spam, qui vient
polluer notre messagerie de manière non
sollicitée.
Le lien "Spam" permet à la communauté de
contrôler le nombre de commentaires
indésirables laissés sur les vidéos envoyées ou
visionnées.
14
16. Le spam définit le courrier électronique non-sollicité et Le
contenu des emails spams peuvent variés
16
17. Les bases de données d'adresses
une campagne d'envoi de spams doit toucher plusieurs
millions d'utilisateurs.
Elle nécessite donc la constitution de gigantesques bases
de données d'adresses e-mails. Plusieurs stratégies sont
employées afin de constituer ces bases de données
17
18. L'envoi des e-mails de spam
l’envoi des email de spam est devenu facile avec des
logiciels et des scripts écris en php par contre dans les
années 90
18
19. Ordinateurs « zombies »
PC zombie est un ordinateur mal protégé qui a été infecté
par un cheval de Troie, ces ordinateurs sont, le plus
souvent, utilisés sans l'accord de l'utilisateur. Ces logiciels
rendent extrêmement simple l'envoi de spams .
19
20. Messages similaires et systèmes de règles
Afin d'être efficaces ; les e-mails de spam doivent être
envoyés en très grandes quantités. L'envoi d'aussi
grandes quantités de messages similaires est détectable
par les serveurs.
Cette méthode de détection est très efficace lorsque les
messages envoyés sont identiques.
20
21. Spam par image et le phishing
Le spam image est une forme
de spam dans laquelle le texte du
message est incorporé dans
une image, de manière à
contourner les systèmes de
filtrage
Une autre forme un peu
particulière de spam d'e-mail est
le _ phishing _. Elle consiste à
envoyer un e-mail à l'utilisateur
visant à le diriger vers un faux
site Web.
21
22. Spam de mots-clés
Pour améliorer le classement des pages, les spammeurs
utilisent ce que l'on appelle vulgairement le _ bourrage
de mots clés _ pour lesquelles le spammeur désire que
ses pages soient bien classées, sont insérées à la fois dans
le contenu de la page,
22
23. Camouflage et redirections
rendre le contenu ajouté invisible à l'utilisateur.
servir un contenu différent aux moteurs de recherche et
aux utilisateurs humains.
un contenu différent au moteur de recherche consiste à
rediriger l'utilisateur vers la page contenant le vrai
contenu du site Web.
23
24. Fermes de liens
Une ferme de liens (en
l'anglais link farm) est une
méthode utilisée pour
augmenter artificiellement
l'importance d'un site ou
d'un groupe de sites dans
les moteurs de recherche.
24
25. les types des spam
Les messages d’émail se composent de deux sections principales :
En tête : Structuré dans des champs tels que le sommaire,
l'expéditeur, Le récepteur, et d'autres informations sur le émail.
From: L'adresse d’émail de l'expéditeur du message.
To: Les adresses d’émail des récepteurs
CC : Les adresses d’émail des récepteurs du message.
Content type : Informations sur la façon dont le message doit être
montré,
Subject: le sujet ou un bref sommaire du contenu d’émail.
Date: L'heure et la date locales où le message a été à l'origine envoyé
Contenu : Le message lui-même en tant que texte non structuré.
25
26. Texte Spam
From: " Controle@Paypal-Verifications.fr "
To : Morsli nori (pseudo74@hotmail.fr)
Subject: Urgents Mettre à jour de vos informations personnelles Paypal.fr !
Date: Dim. 20/01/13 10:31
Content-Type: texte/plain
DRS : Direction Régional de PayPal
Cher (e) Client (e) PayPal :
En procédant sur le serveur à un contrôle concernant les paiements effectuées, nous avons relevé l'erreur
suivante :
Ce mois-ci en date du 04/01/2013 vos frais mensuels d'abonnement ont été prélever en double ( 32.75 * 2) un
montant de 67.50 Euro.
A cet effet, vous êtes priés de vous rendre sur l'espace abonnée et remblaie le formulaire de demande de remise
en cliquant sur le lien ci-dessous pour bénéficier d'une remise immédiate.
Appelez simplement ou Accéder votre formulaire en ligne en cliquant ici
Merci pour votre compréhension.
Aucune réclamation ne sera acceptée à défaut d'une réponse immédiate de votre part.
dés réception de votre fiche nous vous contacterons sur le numéro que vous allez fournir.
Très Cordialement,
Direction régional .
Tous vos emails en 1 clic avec l'application Mail sur i Phone et Android - En savoir plus.
26
28. Les techniques principaux
Liste noire RBL Jeffrey Posluns 2004
Une liste « noire » contient les adresses
électroniques, les domaines et les adresses IP
des expéditeurs (les serveurs qui ont déjà
envoyé les spams) dont le courrier doit être
bloqué.
28
29. Les techniques principaux
Liste blanche Jeffrey Posluns 2004
La liste « blanche » contient les adresses des
utilisateurs, les domaines et les adresses IP des
expéditeurs dont les messages ne peuvent pas
contenir de courrier indésirable
29
30. Les techniques principaux
Pattern : Richard O. Duda , Peter E. Hart
2001 : un ensemble de règles de bons sens
prévus pour identifier des caractéristiques
spécifiques de Spam , pattern est faible et t il est
difficile à penser quels mots les spammeurs
utiliseront.
Par exemple : Tous les emails qui contient les
mots : money, ou millionnaire… sont détectés
spams.
30
31. Les techniques principaux
Liste grise PRIGENT, Fabrice 2005
est une liste liée à la liste blanche et à la liste noire . Lorsqu’un message est
reçu, le serveur crée un triplet formé de :
l'adresse IP du serveur émetteur
l’adresse email de l’expéditeur
l’adresse email du destinataire
Si ce triplet est déjà connu, le message est acheminé. Sinon, le message est
temporairement rejeté .
31
32. Les techniques principaux
Vanne Thevenon, David 2002:
La vanne est probablement l'une des manières les plus sensibles de combattre le
Spam pour de petite taille aux fournisseurs de service moyens, car il n'arrête aucun
courrier légitime d'entrer dans le réseau.
32
33. Les techniques principaux
Adresse cachée Brian McWilliams 2004 : On doit cacher nos adresses des
emails. on peut les modifier ou bien on met les sur des images au lieu de texte
33
34. Les techniques principaux
Filtre Statistique Arnaud Doucet 2000 :
Utilise l’algorithme Bayésiens, Le filtre calcule des probabilités conditionnelles en
fonction des informations observées (situées dans une base de données); chaque mot
d'un message est évalué suivant les probabilités qu'il se trouve dans un message défini
comme indésirable ou non. Ce filtre est donc basé sur le théorème de Bayes.
L’idée principale de cet algorithme est qu’on doit calculer la
probabilité spam ou ham d’un émail dépend à ses informations
comme le sujet, l’adresse de l’éxpéditeur, et le contenu. .
34
35. Les techniques principaux
Comment calculer la probabilité qu'un message contenant un mot donné soit un spam
La formule utilise pour déterminer la probabilité est dérivée du théorème de Bayes. Il
s'agit, dans sa forme la plus générale, de :
35
36. comparaison entre les techniques
Observer
tout le
message
S’adapter
fréquemment
S’entrainer
par la base
de donnée
d’utilisateur
particulier
Multilanguag
e et
international
Defficile a
tromper
Liste noire Non Non Oui oui Non
Liste blanche Non Oui Oui Oui Non
Pattern Oui Non Oui Non Non
Vanne Non Non Non Oui oui
Adresse
cachée
Non Non Non Oui Non
Filtre
statistique
Oui Oui Oui Oui oui
36
37. Solutions logicielles
Des logiciels supplémentaires sont disponibles pour aider à filtrer encore
plus, en se référençant à des listes de spammeurs et de messages spams
connus.
Quelque logicels de filtrage: trend microScanMail, SpamAssasin,
MailInBlack, GFI MailEssentials
37