SlideShare una empresa de Scribd logo
1 de 38
Descargar para leer sin conexión
UNIVERSITE DJILLALI LIABES SIDI BEL ABBES
FACULTE DES SCIENCES DE L’INGENIEUR
Département d’Informatique
Master 2
La détection des spams
2014-2015
1
Introduction générale
Data mining
Texte mining
Introduction sur le spam
Les catégories de spam
Les techniques anti spam
Les solutions logiciels anti spam
Conclusion
implémentation du projet
2
Les moyens de communication modernes ont connu ces dernières
années une expansion massive.
Les entreprises voient dans ces nouveaux outils la possibilité d’améliorer
de façon significative leur efficacité en communiquant toujours plus vite,
de façon plus efficace et à des coûts toujours plus faibles.
Parallèlement à cette frénésie s’est développé un véritable fléau : le
spam.
Le spam, connu en français sous les termes de « pourriel » ou « courrier indésirable »,
désigne une communication électronique non sollicitée.
La notion d'envoi de messages n'est pas nouvelle ; elle existait déjà sous la forme de
publicités via la boîte aux lettres postale (fax, appel automatique de messageries
téléphoniques...).
3
Définition
Ensemble de méthodes et de techniques qui permet d'extraire des
informations à partir d'une grande masse de données.
il s'agit du processus de sélection, exploration, modification et
modélisation de grandes bases de données
Le Data Mining correspond donc à l'ensemble des techniques et
des méthodes qui à partir de données permettent d'obtenir des
connaissances exploitables.
4
Les étapes du processus Data
Mining
Quel que soit le domaine d’application, une opération de datamining
suit globalement un processus en huit étapes :
Comprendre le domaine d'application
Sélection d'un ensemble de données.
Nettoyage des données.
Choix des fonctionnalités : classification, consolidation, association,
clustering.
Choix de(s) l'algorithme(s) d'extraction.
Data Mining: Recherche des motifs (patterns)
Evaluation des patterns et présentation, visualisation, transformation,
suppression
Utilisation de la connaissance extraite.
1
5
Les algorithmes de datamining
Les algorithmes qui utilisé dans Data mining sont :
Naïve Bayes
ID3 et C4.5
K-means
KNN «k-nearest neighbors»
EM pour Espérance-maximisation .
6
Les différents domaines
applications
Marketing direct: population à cibler (profession, habitation, région, …)
Gestion et analyse des marchés : Ex. Grande distribution : profils des
consommateurs etc…
Détection de fraudes: Télécommunications, ...
Gestion de stocks: Ex. quelle quantité demander, …
Analyse financière
Gestion et analyse de risque: Assurances, Banques
Compagnies aériennes
Médecine et pharmacie
7
Définition
technique permettant d’automatiser le traitement de gros volumes de
contenus texte pour en extraire les principales tendances et répertorier
de manière statistique les différents sujets évoqués.
le texte mining peut être utilisé pour analyser le contenu des e-mails
entrant ou les propos tenus sur des forums et médias sociaux.
8
Le processus du text mining
Le text mining débute par la modélisation des textes en vue de leur
préparation pour l’étape de Data mining
Le déroulement d’un processus Text Mining est tout à fait conforme à
celui d’un processus KDD (Knowledge Data Discovry). C'est-à-dire trois
phases distinctes :
Le traitement linguistique
La lexicométrie
Le traitement des données
9
Les étapes de TextMining
1.Sélection du corpus de documents
•Documents pré-classés
•Documents à classer
2.Extraction des termes
•lemmatisation
•Filtrage des termes extraits
3.Transformation
4.Classification
5.Visualisation des résultats
6.Interprétation des résultats
10
Les différents domaines
applications
Recherche d'information :
•Les moteurs de recherche tels Google ou Yahoo!.
Filtrage des communications :
•Beaucoup de gestionnaires de courriers électroniques sont
maintenant livrés avec un filtre anti-spam.
Applications de sécurité :
•Le système mondial des communications privées et
publiques exemple d'utilisation militaire .
11
L’historique de Spam est née en 1994 lorsque deux juristes
Américains effectuent le premier e-mailing de masse vers
quelques milliers de destinataires afin de promouvoir leur
société de conseil.
Introduction
12
Le spam mot signifie courriers indésirables. Les e-mails non
sollicités reçus par toute personne à son / sa boîte aux
lettres sont appelés spam. Ces courriers indésirables sont
généralement envoyés en masse pour la publicité et la
commercialisation
13
 Nous sommes tous victimes de spam, qui vient
polluer notre messagerie de manière non
sollicitée.
 Le lien "Spam" permet à la communauté de
contrôler le nombre de commentaires
indésirables laissés sur les vidéos envoyées ou
visionnées.
14
Les catégories de spam
15
Le spam définit le courrier électronique non-sollicité et Le
contenu des emails spams peuvent variés
16
Les bases de données d'adresses
une campagne d'envoi de spams doit toucher plusieurs
millions d'utilisateurs.
Elle nécessite donc la constitution de gigantesques bases
de données d'adresses e-mails. Plusieurs stratégies sont
employées afin de constituer ces bases de données
17
L'envoi des e-mails de spam
l’envoi des email de spam est devenu facile avec des
logiciels et des scripts écris en php par contre dans les
années 90
18
Ordinateurs « zombies »
PC zombie est un ordinateur mal protégé qui a été infecté
par un cheval de Troie, ces ordinateurs sont, le plus
souvent, utilisés sans l'accord de l'utilisateur. Ces logiciels
rendent extrêmement simple l'envoi de spams .
19
Messages similaires et systèmes de règles
Afin d'être efficaces ; les e-mails de spam doivent être
envoyés en très grandes quantités. L'envoi d'aussi
grandes quantités de messages similaires est détectable
par les serveurs.
Cette méthode de détection est très efficace lorsque les
messages envoyés sont identiques.
20
Spam par image et le phishing
Le spam image est une forme
de spam dans laquelle le texte du
message est incorporé dans
une image, de manière à
contourner les systèmes de
filtrage
Une autre forme un peu
particulière de spam d'e-mail est
le _ phishing _. Elle consiste à
envoyer un e-mail à l'utilisateur
visant à le diriger vers un faux
site Web.
21
Spam de mots-clés
Pour améliorer le classement des pages, les spammeurs
utilisent ce que l'on appelle vulgairement le _ bourrage
de mots clés _ pour lesquelles le spammeur désire que
ses pages soient bien classées, sont insérées à la fois dans
le contenu de la page,
22
Camouflage et redirections
rendre le contenu ajouté invisible à l'utilisateur.
servir un contenu différent aux moteurs de recherche et
aux utilisateurs humains.
un contenu différent au moteur de recherche consiste à
rediriger l'utilisateur vers la page contenant le vrai
contenu du site Web.
23
Fermes de liens
Une ferme de liens (en
l'anglais link farm) est une
méthode utilisée pour
augmenter artificiellement
l'importance d'un site ou
d'un groupe de sites dans
les moteurs de recherche.
24
les types des spam
Les messages d’émail se composent de deux sections principales :
En tête : Structuré dans des champs tels que le sommaire,
l'expéditeur, Le récepteur, et d'autres informations sur le émail.
From: L'adresse d’émail de l'expéditeur du message.
To: Les adresses d’émail des récepteurs
CC : Les adresses d’émail des récepteurs du message.
Content type : Informations sur la façon dont le message doit être
montré,
Subject: le sujet ou un bref sommaire du contenu d’émail.
Date: L'heure et la date locales où le message a été à l'origine envoyé
Contenu : Le message lui-même en tant que texte non structuré.
25
Texte Spam
From: " Controle@Paypal-Verifications.fr "
To : Morsli nori (pseudo74@hotmail.fr)
Subject: Urgents Mettre à jour de vos informations personnelles Paypal.fr !
Date: Dim. 20/01/13 10:31
Content-Type: texte/plain
DRS : Direction Régional de PayPal
Cher (e) Client (e) PayPal :
En procédant sur le serveur à un contrôle concernant les paiements effectuées, nous avons relevé l'erreur
suivante :
Ce mois-ci en date du 04/01/2013 vos frais mensuels d'abonnement ont été prélever en double ( 32.75 * 2) un
montant de 67.50 Euro.
A cet effet, vous êtes priés de vous rendre sur l'espace abonnée et remblaie le formulaire de demande de remise
en cliquant sur le lien ci-dessous pour bénéficier d'une remise immédiate.
Appelez simplement ou Accéder votre formulaire en ligne en cliquant ici
Merci pour votre compréhension.
Aucune réclamation ne sera acceptée à défaut d'une réponse immédiate de votre part.
dés réception de votre fiche nous vous contacterons sur le numéro que vous allez fournir.
Très Cordialement,
Direction régional .
Tous vos emails en 1 clic avec l'application Mail sur i Phone et Android - En savoir plus.
26
Image Spam
from:"control@premier loan provider "
To : Morsli nori (pseudo74@hotmail.fr)
Subject: Earn money
Date: Dim. 20/08/10 10:31
Content-Type: image/plain
27
Les techniques principaux
Liste noire RBL Jeffrey Posluns 2004
Une liste « noire » contient les adresses
électroniques, les domaines et les adresses IP
des expéditeurs (les serveurs qui ont déjà
envoyé les spams) dont le courrier doit être
bloqué.
28
Les techniques principaux
Liste blanche Jeffrey Posluns 2004
La liste « blanche » contient les adresses des
utilisateurs, les domaines et les adresses IP des
expéditeurs dont les messages ne peuvent pas
contenir de courrier indésirable
29
Les techniques principaux
Pattern : Richard O. Duda , Peter E. Hart
2001 : un ensemble de règles de bons sens
prévus pour identifier des caractéristiques
spécifiques de Spam , pattern est faible et t il est
difficile à penser quels mots les spammeurs
utiliseront.
Par exemple : Tous les emails qui contient les
mots : money, ou millionnaire… sont détectés
spams.
30
Les techniques principaux
Liste grise PRIGENT, Fabrice 2005
est une liste liée à la liste blanche et à la liste noire . Lorsqu’un message est
reçu, le serveur crée un triplet formé de :
l'adresse IP du serveur émetteur
l’adresse email de l’expéditeur
l’adresse email du destinataire
Si ce triplet est déjà connu, le message est acheminé. Sinon, le message est
temporairement rejeté .
31
Les techniques principaux
Vanne Thevenon, David 2002:
La vanne est probablement l'une des manières les plus sensibles de combattre le
Spam pour de petite taille aux fournisseurs de service moyens, car il n'arrête aucun
courrier légitime d'entrer dans le réseau.
32
Les techniques principaux
Adresse cachée Brian McWilliams 2004 : On doit cacher nos adresses des
emails. on peut les modifier ou bien on met les sur des images au lieu de texte
33
Les techniques principaux
Filtre Statistique Arnaud Doucet 2000 :
Utilise l’algorithme Bayésiens, Le filtre calcule des probabilités conditionnelles en
fonction des informations observées (situées dans une base de données); chaque mot
d'un message est évalué suivant les probabilités qu'il se trouve dans un message défini
comme indésirable ou non. Ce filtre est donc basé sur le théorème de Bayes.
L’idée principale de cet algorithme est qu’on doit calculer la
probabilité spam ou ham d’un émail dépend à ses informations
comme le sujet, l’adresse de l’éxpéditeur, et le contenu. .
34
Les techniques principaux
Comment calculer la probabilité qu'un message contenant un mot donné soit un spam
La formule utilise pour déterminer la probabilité est dérivée du théorème de Bayes. Il
s'agit, dans sa forme la plus générale, de :
35
comparaison entre les techniques
Observer
tout le
message
S’adapter
fréquemment
S’entrainer
par la base
de donnée
d’utilisateur
particulier
Multilanguag
e et
international
Defficile a
tromper
Liste noire Non Non Oui oui Non
Liste blanche Non Oui Oui Oui Non
Pattern Oui Non Oui Non Non
Vanne Non Non Non Oui oui
Adresse
cachée
Non Non Non Oui Non
Filtre
statistique
Oui Oui Oui Oui oui
36
Solutions logicielles
Des logiciels supplémentaires sont disponibles pour aider à filtrer encore
plus, en se référençant à des listes de spammeurs et de messages spams
connus.
Quelque logicels de filtrage: trend microScanMail, SpamAssasin,
MailInBlack, GFI MailEssentials
37
38

Más contenido relacionado

La actualidad más candente

méthode push et méthode pull
méthode push et méthode pullméthode push et méthode pull
méthode push et méthode pullAmaniFarhati
 
Exposé segmentation
Exposé segmentationExposé segmentation
Exposé segmentationDonia Hammami
 
Conduire un appel d'offres sur un systeme informatique
Conduire un appel d'offres sur un systeme informatique Conduire un appel d'offres sur un systeme informatique
Conduire un appel d'offres sur un systeme informatique Echecs et Stratégie
 
Projet sur le Cloud Computing
Projet sur le Cloud ComputingProjet sur le Cloud Computing
Projet sur le Cloud ComputingTsubichi
 
Présentation projet de fin d'étude
Présentation projet de fin d'étudePrésentation projet de fin d'étude
Présentation projet de fin d'étudeDonia Hammami
 
Outils décisionnels : Data-Mining and Data-warehouse
Outils décisionnels : Data-Mining and Data-warehouseOutils décisionnels : Data-Mining and Data-warehouse
Outils décisionnels : Data-Mining and Data-warehouseBEL MRHAR Mohamed Amine
 
Seminaire datamining Ecole de Statistique et d'Economie Appliquée
Seminaire datamining Ecole de Statistique et d'Economie AppliquéeSeminaire datamining Ecole de Statistique et d'Economie Appliquée
Seminaire datamining Ecole de Statistique et d'Economie AppliquéeJean Roger Mably
 
BigData_TP4 : Cassandra
BigData_TP4 : CassandraBigData_TP4 : Cassandra
BigData_TP4 : CassandraLilia Sfaxi
 
Présentation PFE: Système de gestion des réclamations et interventions clients
Présentation PFE: Système de gestion des réclamations et interventions clientsPrésentation PFE: Système de gestion des réclamations et interventions clients
Présentation PFE: Système de gestion des réclamations et interventions clientsMohamed Ayoub OUERTATANI
 
Techniques du data mining
Techniques du data miningTechniques du data mining
Techniques du data miningDonia Hammami
 
02 - [ASP.NET Core] ASP.NET Core MVC
02 - [ASP.NET Core] ASP.NET Core MVC 02 - [ASP.NET Core] ASP.NET Core MVC
02 - [ASP.NET Core] ASP.NET Core MVC Cellenza
 
Exposé réseaux des neurones (NN) - (RN)
Exposé réseaux des neurones (NN) - (RN)Exposé réseaux des neurones (NN) - (RN)
Exposé réseaux des neurones (NN) - (RN)Soumia Elyakote HERMA
 

La actualidad más candente (20)

méthode push et méthode pull
méthode push et méthode pullméthode push et méthode pull
méthode push et méthode pull
 
Data Mining
Data MiningData Mining
Data Mining
 
Exposé segmentation
Exposé segmentationExposé segmentation
Exposé segmentation
 
Présentation PFE
Présentation PFEPrésentation PFE
Présentation PFE
 
Big data
Big dataBig data
Big data
 
Conduire un appel d'offres sur un systeme informatique
Conduire un appel d'offres sur un systeme informatique Conduire un appel d'offres sur un systeme informatique
Conduire un appel d'offres sur un systeme informatique
 
Projet sur le Cloud Computing
Projet sur le Cloud ComputingProjet sur le Cloud Computing
Projet sur le Cloud Computing
 
Présentation projet de fin d'étude
Présentation projet de fin d'étudePrésentation projet de fin d'étude
Présentation projet de fin d'étude
 
Outils décisionnels : Data-Mining and Data-warehouse
Outils décisionnels : Data-Mining and Data-warehouseOutils décisionnels : Data-Mining and Data-warehouse
Outils décisionnels : Data-Mining and Data-warehouse
 
Seminaire datamining Ecole de Statistique et d'Economie Appliquée
Seminaire datamining Ecole de Statistique et d'Economie AppliquéeSeminaire datamining Ecole de Statistique et d'Economie Appliquée
Seminaire datamining Ecole de Statistique et d'Economie Appliquée
 
Culture et Numérique
Culture et NumériqueCulture et Numérique
Culture et Numérique
 
Partie1BI-DW2019
Partie1BI-DW2019Partie1BI-DW2019
Partie1BI-DW2019
 
Les systèmes intelligents
Les systèmes intelligentsLes systèmes intelligents
Les systèmes intelligents
 
BigData_TP4 : Cassandra
BigData_TP4 : CassandraBigData_TP4 : Cassandra
BigData_TP4 : Cassandra
 
Présentation PFE: Système de gestion des réclamations et interventions clients
Présentation PFE: Système de gestion des réclamations et interventions clientsPrésentation PFE: Système de gestion des réclamations et interventions clients
Présentation PFE: Système de gestion des réclamations et interventions clients
 
Techniques du data mining
Techniques du data miningTechniques du data mining
Techniques du data mining
 
Présentation pfe
Présentation pfePrésentation pfe
Présentation pfe
 
02 - [ASP.NET Core] ASP.NET Core MVC
02 - [ASP.NET Core] ASP.NET Core MVC 02 - [ASP.NET Core] ASP.NET Core MVC
02 - [ASP.NET Core] ASP.NET Core MVC
 
Soutenance
Soutenance Soutenance
Soutenance
 
Exposé réseaux des neurones (NN) - (RN)
Exposé réseaux des neurones (NN) - (RN)Exposé réseaux des neurones (NN) - (RN)
Exposé réseaux des neurones (NN) - (RN)
 

Destacado (6)

Réseaux de neurones
Réseaux de neurones Réseaux de neurones
Réseaux de neurones
 
La classification des Emails utilisant le modèle MapReduce
La classification des Emails utilisant le modèle MapReduce La classification des Emails utilisant le modèle MapReduce
La classification des Emails utilisant le modèle MapReduce
 
Opinion Mining
Opinion MiningOpinion Mining
Opinion Mining
 
Opinion Mining
Opinion Mining Opinion Mining
Opinion Mining
 
Web sémantique
Web sémantique Web sémantique
Web sémantique
 
Introduction à Hadoop
Introduction à HadoopIntroduction à Hadoop
Introduction à Hadoop
 

Similar a La détection des spam

Emailez sans spammer
Emailez sans spammerEmailez sans spammer
Emailez sans spammerKevin Gallot
 
Quels sont les secrets d'un emailing réussi ?
Quels sont les secrets d'un emailing réussi ?Quels sont les secrets d'un emailing réussi ?
Quels sont les secrets d'un emailing réussi ?Kompass
 
Atelier emailing 2012
Atelier emailing 2012Atelier emailing 2012
Atelier emailing 2012SID-Networks
 
Sendinblue freelance fair tour
Sendinblue freelance fair tourSendinblue freelance fair tour
Sendinblue freelance fair tourErwan Tanguy
 
Presentation Projet Web
Presentation Projet WebPresentation Projet Web
Presentation Projet Webguest660a58
 
14h15 EMDay 2014 - Antiphishing et nouveautés Signal Spam 2014
14h15 EMDay 2014 - Antiphishing et nouveautés Signal Spam 201414h15 EMDay 2014 - Antiphishing et nouveautés Signal Spam 2014
14h15 EMDay 2014 - Antiphishing et nouveautés Signal Spam 2014Clic et Site
 
Accès à l'information, la vérifier et la produire.
Accès à l'information, la vérifier et la produire.Accès à l'information, la vérifier et la produire.
Accès à l'information, la vérifier et la produire.Coraia
 
MailInBlack : Email to Network
MailInBlack : Email to NetworkMailInBlack : Email to Network
MailInBlack : Email to Networkproximit
 
LES DANGERS DU PHISHING AVEC KASPERSKY
LES DANGERS DU PHISHING AVEC KASPERSKYLES DANGERS DU PHISHING AVEC KASPERSKY
LES DANGERS DU PHISHING AVEC KASPERSKYPROJECT SI
 
Les atteintes subies par les marques sur internet, NDDcamp Paris, Juin 2017
Les atteintes subies par les marques sur internet, NDDcamp Paris, Juin 2017Les atteintes subies par les marques sur internet, NDDcamp Paris, Juin 2017
Les atteintes subies par les marques sur internet, NDDcamp Paris, Juin 2017Solidnames
 
Sendinblue : la plateforme française pour l'emailing et la newsletter
Sendinblue : la plateforme française pour l'emailing et la newsletterSendinblue : la plateforme française pour l'emailing et la newsletter
Sendinblue : la plateforme française pour l'emailing et la newsletterErwan Tanguy
 
11577 mitb wp_0611_fr
11577 mitb wp_0611_fr11577 mitb wp_0611_fr
11577 mitb wp_0611_frHai Nguyen
 
La gestion du spam dans un système de marketing par courriel
La gestion du spam dans un système de marketing par courrielLa gestion du spam dans un système de marketing par courriel
La gestion du spam dans un système de marketing par courrielMichaël Massé
 
Emailing et Authentification : protégez votre marque et améliorez votre déliv...
Emailing et Authentification : protégez votre marque et améliorez votre déliv...Emailing et Authentification : protégez votre marque et améliorez votre déliv...
Emailing et Authentification : protégez votre marque et améliorez votre déliv...NP6
 
Atelier Email Marketing par Khadija Louati - Prodexo
Atelier Email Marketing par Khadija Louati - ProdexoAtelier Email Marketing par Khadija Louati - Prodexo
Atelier Email Marketing par Khadija Louati - ProdexoSocial media Club Tunisia
 
La veille de Né Kid du 07.04.11 : l'e-mailing
La veille de Né Kid du 07.04.11 : l'e-mailingLa veille de Né Kid du 07.04.11 : l'e-mailing
La veille de Né Kid du 07.04.11 : l'e-mailingNé Kid
 
L'antispam n'est pas un figurant !
L'antispam n'est pas un figurant !L'antispam n'est pas un figurant !
L'antispam n'est pas un figurant !NRC
 
Webinar Mailjet : Améliorer le taux d’ouverture de vos emails
Webinar Mailjet : Améliorer le taux d’ouverture de vos emailsWebinar Mailjet : Améliorer le taux d’ouverture de vos emails
Webinar Mailjet : Améliorer le taux d’ouverture de vos emailsMailjet
 
Comment mesurer et améliorer sa délivrabilité : outils, trucs et astuces
Comment mesurer et améliorer sa délivrabilité : outils, trucs et astucesComment mesurer et améliorer sa délivrabilité : outils, trucs et astuces
Comment mesurer et améliorer sa délivrabilité : outils, trucs et astucesFlorence consultant
 

Similar a La détection des spam (20)

Emailez sans spammer
Emailez sans spammerEmailez sans spammer
Emailez sans spammer
 
Quels sont les secrets d'un emailing réussi ?
Quels sont les secrets d'un emailing réussi ?Quels sont les secrets d'un emailing réussi ?
Quels sont les secrets d'un emailing réussi ?
 
Atelier emailing 2012
Atelier emailing 2012Atelier emailing 2012
Atelier emailing 2012
 
Sendinblue freelance fair tour
Sendinblue freelance fair tourSendinblue freelance fair tour
Sendinblue freelance fair tour
 
Presentation Projet Web
Presentation Projet WebPresentation Projet Web
Presentation Projet Web
 
Le point sur la délivrabilité
Le point sur la délivrabilitéLe point sur la délivrabilité
Le point sur la délivrabilité
 
14h15 EMDay 2014 - Antiphishing et nouveautés Signal Spam 2014
14h15 EMDay 2014 - Antiphishing et nouveautés Signal Spam 201414h15 EMDay 2014 - Antiphishing et nouveautés Signal Spam 2014
14h15 EMDay 2014 - Antiphishing et nouveautés Signal Spam 2014
 
Accès à l'information, la vérifier et la produire.
Accès à l'information, la vérifier et la produire.Accès à l'information, la vérifier et la produire.
Accès à l'information, la vérifier et la produire.
 
MailInBlack : Email to Network
MailInBlack : Email to NetworkMailInBlack : Email to Network
MailInBlack : Email to Network
 
LES DANGERS DU PHISHING AVEC KASPERSKY
LES DANGERS DU PHISHING AVEC KASPERSKYLES DANGERS DU PHISHING AVEC KASPERSKY
LES DANGERS DU PHISHING AVEC KASPERSKY
 
Les atteintes subies par les marques sur internet, NDDcamp Paris, Juin 2017
Les atteintes subies par les marques sur internet, NDDcamp Paris, Juin 2017Les atteintes subies par les marques sur internet, NDDcamp Paris, Juin 2017
Les atteintes subies par les marques sur internet, NDDcamp Paris, Juin 2017
 
Sendinblue : la plateforme française pour l'emailing et la newsletter
Sendinblue : la plateforme française pour l'emailing et la newsletterSendinblue : la plateforme française pour l'emailing et la newsletter
Sendinblue : la plateforme française pour l'emailing et la newsletter
 
11577 mitb wp_0611_fr
11577 mitb wp_0611_fr11577 mitb wp_0611_fr
11577 mitb wp_0611_fr
 
La gestion du spam dans un système de marketing par courriel
La gestion du spam dans un système de marketing par courrielLa gestion du spam dans un système de marketing par courriel
La gestion du spam dans un système de marketing par courriel
 
Emailing et Authentification : protégez votre marque et améliorez votre déliv...
Emailing et Authentification : protégez votre marque et améliorez votre déliv...Emailing et Authentification : protégez votre marque et améliorez votre déliv...
Emailing et Authentification : protégez votre marque et améliorez votre déliv...
 
Atelier Email Marketing par Khadija Louati - Prodexo
Atelier Email Marketing par Khadija Louati - ProdexoAtelier Email Marketing par Khadija Louati - Prodexo
Atelier Email Marketing par Khadija Louati - Prodexo
 
La veille de Né Kid du 07.04.11 : l'e-mailing
La veille de Né Kid du 07.04.11 : l'e-mailingLa veille de Né Kid du 07.04.11 : l'e-mailing
La veille de Né Kid du 07.04.11 : l'e-mailing
 
L'antispam n'est pas un figurant !
L'antispam n'est pas un figurant !L'antispam n'est pas un figurant !
L'antispam n'est pas un figurant !
 
Webinar Mailjet : Améliorer le taux d’ouverture de vos emails
Webinar Mailjet : Améliorer le taux d’ouverture de vos emailsWebinar Mailjet : Améliorer le taux d’ouverture de vos emails
Webinar Mailjet : Améliorer le taux d’ouverture de vos emails
 
Comment mesurer et améliorer sa délivrabilité : outils, trucs et astuces
Comment mesurer et améliorer sa délivrabilité : outils, trucs et astucesComment mesurer et améliorer sa délivrabilité : outils, trucs et astuces
Comment mesurer et améliorer sa délivrabilité : outils, trucs et astuces
 

La détection des spam

  • 1. UNIVERSITE DJILLALI LIABES SIDI BEL ABBES FACULTE DES SCIENCES DE L’INGENIEUR Département d’Informatique Master 2 La détection des spams 2014-2015 1
  • 2. Introduction générale Data mining Texte mining Introduction sur le spam Les catégories de spam Les techniques anti spam Les solutions logiciels anti spam Conclusion implémentation du projet 2
  • 3. Les moyens de communication modernes ont connu ces dernières années une expansion massive. Les entreprises voient dans ces nouveaux outils la possibilité d’améliorer de façon significative leur efficacité en communiquant toujours plus vite, de façon plus efficace et à des coûts toujours plus faibles. Parallèlement à cette frénésie s’est développé un véritable fléau : le spam. Le spam, connu en français sous les termes de « pourriel » ou « courrier indésirable », désigne une communication électronique non sollicitée. La notion d'envoi de messages n'est pas nouvelle ; elle existait déjà sous la forme de publicités via la boîte aux lettres postale (fax, appel automatique de messageries téléphoniques...). 3
  • 4. Définition Ensemble de méthodes et de techniques qui permet d'extraire des informations à partir d'une grande masse de données. il s'agit du processus de sélection, exploration, modification et modélisation de grandes bases de données Le Data Mining correspond donc à l'ensemble des techniques et des méthodes qui à partir de données permettent d'obtenir des connaissances exploitables. 4
  • 5. Les étapes du processus Data Mining Quel que soit le domaine d’application, une opération de datamining suit globalement un processus en huit étapes : Comprendre le domaine d'application Sélection d'un ensemble de données. Nettoyage des données. Choix des fonctionnalités : classification, consolidation, association, clustering. Choix de(s) l'algorithme(s) d'extraction. Data Mining: Recherche des motifs (patterns) Evaluation des patterns et présentation, visualisation, transformation, suppression Utilisation de la connaissance extraite. 1 5
  • 6. Les algorithmes de datamining Les algorithmes qui utilisé dans Data mining sont : Naïve Bayes ID3 et C4.5 K-means KNN «k-nearest neighbors» EM pour Espérance-maximisation . 6
  • 7. Les différents domaines applications Marketing direct: population à cibler (profession, habitation, région, …) Gestion et analyse des marchés : Ex. Grande distribution : profils des consommateurs etc… Détection de fraudes: Télécommunications, ... Gestion de stocks: Ex. quelle quantité demander, … Analyse financière Gestion et analyse de risque: Assurances, Banques Compagnies aériennes Médecine et pharmacie 7
  • 8. Définition technique permettant d’automatiser le traitement de gros volumes de contenus texte pour en extraire les principales tendances et répertorier de manière statistique les différents sujets évoqués. le texte mining peut être utilisé pour analyser le contenu des e-mails entrant ou les propos tenus sur des forums et médias sociaux. 8
  • 9. Le processus du text mining Le text mining débute par la modélisation des textes en vue de leur préparation pour l’étape de Data mining Le déroulement d’un processus Text Mining est tout à fait conforme à celui d’un processus KDD (Knowledge Data Discovry). C'est-à-dire trois phases distinctes : Le traitement linguistique La lexicométrie Le traitement des données 9
  • 10. Les étapes de TextMining 1.Sélection du corpus de documents •Documents pré-classés •Documents à classer 2.Extraction des termes •lemmatisation •Filtrage des termes extraits 3.Transformation 4.Classification 5.Visualisation des résultats 6.Interprétation des résultats 10
  • 11. Les différents domaines applications Recherche d'information : •Les moteurs de recherche tels Google ou Yahoo!. Filtrage des communications : •Beaucoup de gestionnaires de courriers électroniques sont maintenant livrés avec un filtre anti-spam. Applications de sécurité : •Le système mondial des communications privées et publiques exemple d'utilisation militaire . 11
  • 12. L’historique de Spam est née en 1994 lorsque deux juristes Américains effectuent le premier e-mailing de masse vers quelques milliers de destinataires afin de promouvoir leur société de conseil. Introduction 12
  • 13. Le spam mot signifie courriers indésirables. Les e-mails non sollicités reçus par toute personne à son / sa boîte aux lettres sont appelés spam. Ces courriers indésirables sont généralement envoyés en masse pour la publicité et la commercialisation 13
  • 14.  Nous sommes tous victimes de spam, qui vient polluer notre messagerie de manière non sollicitée.  Le lien "Spam" permet à la communauté de contrôler le nombre de commentaires indésirables laissés sur les vidéos envoyées ou visionnées. 14
  • 16. Le spam définit le courrier électronique non-sollicité et Le contenu des emails spams peuvent variés 16
  • 17. Les bases de données d'adresses une campagne d'envoi de spams doit toucher plusieurs millions d'utilisateurs. Elle nécessite donc la constitution de gigantesques bases de données d'adresses e-mails. Plusieurs stratégies sont employées afin de constituer ces bases de données 17
  • 18. L'envoi des e-mails de spam l’envoi des email de spam est devenu facile avec des logiciels et des scripts écris en php par contre dans les années 90 18
  • 19. Ordinateurs « zombies » PC zombie est un ordinateur mal protégé qui a été infecté par un cheval de Troie, ces ordinateurs sont, le plus souvent, utilisés sans l'accord de l'utilisateur. Ces logiciels rendent extrêmement simple l'envoi de spams . 19
  • 20. Messages similaires et systèmes de règles Afin d'être efficaces ; les e-mails de spam doivent être envoyés en très grandes quantités. L'envoi d'aussi grandes quantités de messages similaires est détectable par les serveurs. Cette méthode de détection est très efficace lorsque les messages envoyés sont identiques. 20
  • 21. Spam par image et le phishing Le spam image est une forme de spam dans laquelle le texte du message est incorporé dans une image, de manière à contourner les systèmes de filtrage Une autre forme un peu particulière de spam d'e-mail est le _ phishing _. Elle consiste à envoyer un e-mail à l'utilisateur visant à le diriger vers un faux site Web. 21
  • 22. Spam de mots-clés Pour améliorer le classement des pages, les spammeurs utilisent ce que l'on appelle vulgairement le _ bourrage de mots clés _ pour lesquelles le spammeur désire que ses pages soient bien classées, sont insérées à la fois dans le contenu de la page, 22
  • 23. Camouflage et redirections rendre le contenu ajouté invisible à l'utilisateur. servir un contenu différent aux moteurs de recherche et aux utilisateurs humains. un contenu différent au moteur de recherche consiste à rediriger l'utilisateur vers la page contenant le vrai contenu du site Web. 23
  • 24. Fermes de liens Une ferme de liens (en l'anglais link farm) est une méthode utilisée pour augmenter artificiellement l'importance d'un site ou d'un groupe de sites dans les moteurs de recherche. 24
  • 25. les types des spam Les messages d’émail se composent de deux sections principales : En tête : Structuré dans des champs tels que le sommaire, l'expéditeur, Le récepteur, et d'autres informations sur le émail. From: L'adresse d’émail de l'expéditeur du message. To: Les adresses d’émail des récepteurs CC : Les adresses d’émail des récepteurs du message. Content type : Informations sur la façon dont le message doit être montré, Subject: le sujet ou un bref sommaire du contenu d’émail. Date: L'heure et la date locales où le message a été à l'origine envoyé Contenu : Le message lui-même en tant que texte non structuré. 25
  • 26. Texte Spam From: " Controle@Paypal-Verifications.fr " To : Morsli nori (pseudo74@hotmail.fr) Subject: Urgents Mettre à jour de vos informations personnelles Paypal.fr ! Date: Dim. 20/01/13 10:31 Content-Type: texte/plain DRS : Direction Régional de PayPal Cher (e) Client (e) PayPal : En procédant sur le serveur à un contrôle concernant les paiements effectuées, nous avons relevé l'erreur suivante : Ce mois-ci en date du 04/01/2013 vos frais mensuels d'abonnement ont été prélever en double ( 32.75 * 2) un montant de 67.50 Euro. A cet effet, vous êtes priés de vous rendre sur l'espace abonnée et remblaie le formulaire de demande de remise en cliquant sur le lien ci-dessous pour bénéficier d'une remise immédiate. Appelez simplement ou Accéder votre formulaire en ligne en cliquant ici Merci pour votre compréhension. Aucune réclamation ne sera acceptée à défaut d'une réponse immédiate de votre part. dés réception de votre fiche nous vous contacterons sur le numéro que vous allez fournir. Très Cordialement, Direction régional . Tous vos emails en 1 clic avec l'application Mail sur i Phone et Android - En savoir plus. 26
  • 27. Image Spam from:"control@premier loan provider " To : Morsli nori (pseudo74@hotmail.fr) Subject: Earn money Date: Dim. 20/08/10 10:31 Content-Type: image/plain 27
  • 28. Les techniques principaux Liste noire RBL Jeffrey Posluns 2004 Une liste « noire » contient les adresses électroniques, les domaines et les adresses IP des expéditeurs (les serveurs qui ont déjà envoyé les spams) dont le courrier doit être bloqué. 28
  • 29. Les techniques principaux Liste blanche Jeffrey Posluns 2004 La liste « blanche » contient les adresses des utilisateurs, les domaines et les adresses IP des expéditeurs dont les messages ne peuvent pas contenir de courrier indésirable 29
  • 30. Les techniques principaux Pattern : Richard O. Duda , Peter E. Hart 2001 : un ensemble de règles de bons sens prévus pour identifier des caractéristiques spécifiques de Spam , pattern est faible et t il est difficile à penser quels mots les spammeurs utiliseront. Par exemple : Tous les emails qui contient les mots : money, ou millionnaire… sont détectés spams. 30
  • 31. Les techniques principaux Liste grise PRIGENT, Fabrice 2005 est une liste liée à la liste blanche et à la liste noire . Lorsqu’un message est reçu, le serveur crée un triplet formé de : l'adresse IP du serveur émetteur l’adresse email de l’expéditeur l’adresse email du destinataire Si ce triplet est déjà connu, le message est acheminé. Sinon, le message est temporairement rejeté . 31
  • 32. Les techniques principaux Vanne Thevenon, David 2002: La vanne est probablement l'une des manières les plus sensibles de combattre le Spam pour de petite taille aux fournisseurs de service moyens, car il n'arrête aucun courrier légitime d'entrer dans le réseau. 32
  • 33. Les techniques principaux Adresse cachée Brian McWilliams 2004 : On doit cacher nos adresses des emails. on peut les modifier ou bien on met les sur des images au lieu de texte 33
  • 34. Les techniques principaux Filtre Statistique Arnaud Doucet 2000 : Utilise l’algorithme Bayésiens, Le filtre calcule des probabilités conditionnelles en fonction des informations observées (situées dans une base de données); chaque mot d'un message est évalué suivant les probabilités qu'il se trouve dans un message défini comme indésirable ou non. Ce filtre est donc basé sur le théorème de Bayes. L’idée principale de cet algorithme est qu’on doit calculer la probabilité spam ou ham d’un émail dépend à ses informations comme le sujet, l’adresse de l’éxpéditeur, et le contenu. . 34
  • 35. Les techniques principaux Comment calculer la probabilité qu'un message contenant un mot donné soit un spam La formule utilise pour déterminer la probabilité est dérivée du théorème de Bayes. Il s'agit, dans sa forme la plus générale, de : 35
  • 36. comparaison entre les techniques Observer tout le message S’adapter fréquemment S’entrainer par la base de donnée d’utilisateur particulier Multilanguag e et international Defficile a tromper Liste noire Non Non Oui oui Non Liste blanche Non Oui Oui Oui Non Pattern Oui Non Oui Non Non Vanne Non Non Non Oui oui Adresse cachée Non Non Non Oui Non Filtre statistique Oui Oui Oui Oui oui 36
  • 37. Solutions logicielles Des logiciels supplémentaires sont disponibles pour aider à filtrer encore plus, en se référençant à des listes de spammeurs et de messages spams connus. Quelque logicels de filtrage: trend microScanMail, SpamAssasin, MailInBlack, GFI MailEssentials 37
  • 38. 38