SlideShare una empresa de Scribd logo
1 de 101
Descargar para leer sin conexión
Vandy BERTEN
Isabelle BOYDENS
Section Recherche
E-mail Address Reliability
Table des matières
Introduction Contexte
Difficultés et incertitudes
Protocoles et mécanismes
Syntaxe Contraintes syntaxiques générales et spécifiques
Méthodes traditionnelles
Propositions
Validation Existence d’une adresse
Contrôle de consultation
Matching Présomptions d’erreurs
Dédoublonnage
Bonnes pratiques
& Conclusions
Vandy Berten
Isabelle Boydens
netdna.webdesignerdepot.com
Introduction
Novembre 2013 - 4/96Intro – Syntaxe – – Validation – Matching – Conclusions
Introduction Contexte & enjeux
Organisation
On-line vs Batch
Exemples
Difficultés et incertitudes
Protocoles et mécanismes
Syntaxe
Validation
Matching
Bonnes pratiques
& Conclusions
Table des matières
Vandy Berten
Isabelle Boydens
Novembre 2013 - 5/96Intro – Syntaxe – – Validation – Matching – Conclusions
• De plus en plus d’administrations ou sociétés
utilisent/veulent utiliser les adresses e-mail :
– Contacts avec les citoyens/clients
– Recommandé électronique (notifications)
– V-ICT-OR veut les ajouter au Registre National
• Or :
– Les DB d’e-mail sont souvent de mauvaise qualité
– Les processus mis en place ne permettent en général
pas de maintenir un niveau correct
Problématique
Novembre 2013 - 6/96Intro – Syntaxe – – Validation – Matching – Conclusions
• Campagnes de communication:
– Jusqu’à 20% de « bounce »
– Taux de lecture confirmé faible (± 20-25%)
• Certains organismes n’osent pas utiliser leur
propres DB …
• Pourquoi ?
– Quasiment jamais de contrôle en entrée, ou minimaliste
– Aucun suivi dans le temps
– Incohérence de flux
– Cumul d’incertitudes
Mauvaise qualité
Novembre 2013 - 7/96Intro – Syntaxe – – Validation – Matching – Conclusions
• Gains directs : ROI fonction des usages et du
contexte:
– Man-power réduit si bonne qualité
– Communications officielles : diminutions des envois
papiers
– Gains potentiels à terme en millions d’euros
• Gains indirects :
– Amélioration des services rendus et de l’efficacité
– Crédibilité, législation
Qualité : pourquoi l’améliorer
Novembre 2013 - 8/96Intro – Syntaxe – – Validation – Matching – Conclusions
ROI
€0
€500.000
€1.000.000
€1.500.000
€2.000.000
€2.500.000
€3.000.000
Année 1 Année 2 Année 3 Année 4 Année 5
Coût cumulé
Gain cumulé
Pay-back
• Erreur/non lu: 24% → 8%
• 2.2M envois / an
• 350.000 envois papier
économisés / an
Novembre 2013 - 9/96Intro – Syntaxe – – Validation – Matching – Conclusions
Il existe de nombreuses techniques connues,
pas/peu/mal appliquées :
• Vérification syntaxique
• Validation par envoi d’e-mail de confirmation
• Suivi dans le temps par indicateurs de lecture
• Rétroaction en cas d’erreur à l’envoi
Qualité : comment l’améliorer
Novembre 2013 - 10/96Intro – Syntaxe – – Validation – Matching – Conclusions
Apports originaux de notre étude :
• Amélioration notable de la qualité des tests
– Syntaxe spécifique (↗ 15-20%)
– Mise en évidence d’adresses suspectes (↗5-10%)
– Amélioration des techniques de validation « batch »
• Suggestions de correction
– Erreurs syntaxiques
– Comparaison avec info annexes : nom, prénom
• Compilation de best-practices
Qualité : comment l’améliorer
Novembre 2013 - 11/96Intro – Syntaxe – – Validation – Matching – Conclusions
• Cumul d’incertitudes :
– Volatilité des usages
– Dynamique des noms de domaines
– Syntaxe non standard
• Nécessité d’un bénéfice ou d’un intérêt des mises
à jour pour les utilisateurs
• Objectifs de l’étude :
– Contrôles et outils performants
– Indicateurs de qualité en vue d’un monitoring
– Bonnes pratiques de gestion & d’amélioration continue
– Organisation adéquate
Contexte et enjeux
Novembre 2013 - 12/96Intro – Syntaxe – – Validation – Matching – Conclusions
Organisation
Data Designers
Portail
Historique des
indic. de
qualité et
events
Gestion
Documentation
Data Managers
DQ Tools
DataSuppliers(Customers)
DB
A,B,C
batch
online
Information Managers
consult
consult
Rules
analyse
Novembre 2013 - 13/96Intro – Syntaxe – – Validation – Matching – Conclusions
On-line Batch
Sur un portail, à l’enregistrement DB existante
Doit être rapide ! On a le temps, étude poussée
possible
Interroger l’utilisateur → facile Interroger l’utilisateur → plus difficile
Envoyer un e-mail + action → facile Envoyer un e-mail → plus difficile
Ne dispense pas du batch par la suite! S’applique sur des DB avec ou sans
contrôle à l’entrée
Si contrôle, se focalise sur l’évolution
(DN, usage)
On-line vs Batch
La plupart des méthodes s’appliquent aux deux
Novembre 2013 - 14/96Intro – Syntaxe – – Validation – Matching – Conclusions
• La littérature (marketing, technique et e-gov à
l’étranger)
• Des tests et expériences abondants sur des
grandes bases de données (échantillons)
• Les Data Quality Tools et des développements
propres
• 10 ans d’expérience en Data Quality (DQ Cell)
• Des contacts multiples avec le terrain, le
développement, des services opérationnels et
juridiques
Étude basée sur …
Novembre 2013 - 15/96Intro – Syntaxe – – Validation – Matching – Conclusions
Exemple typique de situation
• Coûts directs et indirects
• Importance d’un contrôle à la
source et continu !
• Nécessité d’une rétro-action
Unknown
62%
Receipt
24%
Error
14%
Novembre 2013 - 16/96Intro – Syntaxe – – Validation – Matching – Conclusions
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
1 2 3 4 5 6 7 8 9 10 11
Âge de l’adresse (années)
Validité
Dégressivité de la validité
Essentiel de la difficulté :
suivi dans le temps
Bonne qualité à l’entrée,
dégradation par la suite
Nécessite :
• Bonne organisation
• Indicateurs de qualité
• Démarche pro-active
• Suivi continu
Novembre 2013 - 17/96Intro – Syntaxe – – Validation – Matching – Conclusions
Vérification/validation : Étapes
Albert.Leroy@smals.be
Novembre 2013 - 18/96Intro – Syntaxe – – Validation – Matching – Conclusions
Vérification/validation : Étapes
Vérification syntaxique
• Présence d’un (et un seul) « @ », absence d’espace, …
• Standards non respectés : restrictions et extensions
Albert.Leroy@smals.be
Novembre 2013 - 19/96Intro – Syntaxe – – Validation – Matching – Conclusions
Vérification/validation : Étapes
Top Level Domain (TLD)
• Aujourd’hui : plutôt statique, facile à valider (+/- 280)
• Prochainement : .brussels, .vlaanderen, .中国,
.இந்தியா, . ‫آزمایشی‬
Albert.Leroy@smals.be
Novembre 2013 - 20/96Intro – Syntaxe – – Validation – Matching – Conclusions
Vérification/validation : Étapes
Nom de domaine (DN)
• Dans la pratique : a-z, 0-9, « - », « . »
• Dans le futur : accents, autres alphabets (IDN)
• Dynamique ; .be : 1300 changements/jour, monde : 300k!
Albert.Leroy@smals.be
Novembre 2013 - 21/96Intro – Syntaxe – – Validation – Matching – Conclusions
Vérification/validation : Étapes
Username
• Validation a priori (avant envoi) :
• Utilisation du protocole SMTP
• Validation a posteriori (après envoi) :
• Analyse de « bounce »
• Contrôle de lecture (image, lien, …)
Albert.Leroy@smals.be
Novembre 2013 - 22/96Intro – Syntaxe – – Validation – Matching – Conclusions
Mécanisme d’envoi d’un e-mail
me@exp.com
Serveur SMTP (MTA)
smtp.exp.com
Serveur DNS
Serveur MX (MTA)
mx.dest.com
MX:
@dest.com ?
mx.dest.com
SMTP (Simple Mail Transfer Protocol)
DNS (Domain Name System)
POP/IMAP
him@dest.com
him@dest.com
MX: Mail eXchange
MTA: Mail Transfer
Agent
Novembre 2013 - 23/96Intro – Syntaxe – – Validation – Matching – Conclusions
Envoi d’un e-mail : bounce
me@exp.com
Serveur SMTP (MTA)
smtp.exp.com
Serveur DNS
Serveur MX (MTA)
mx.dest.com
MX:
@dest.com ?
mx.dest.comhom@dest.com
him@dest.com
hom@dest.com
SMTP (Simple Mail Transfer Protocol)
DNS (Domain Name System)
POP/IMAP
MX: Mail eXchange
MTA: Mail Transfer
Agent
Novembre 2013 - 24/96Intro – Syntaxe – – Validation – Matching – Conclusions
Envoi d’un e-mail : bounce
me@exp.com
Serveur SMTP (MTA)
smtp.exp.com
Serveur DNS
Serveur MX (MTA)
mx.dest.com
MX:
@dust.com ?
Error!him@dust.com
him@dest.com
him@dust.com
SMTP (Simple Mail Transfer Protocol)
DNS (Domain Name System)
POP/IMAP
MX: Mail eXchange
MTA: Mail Transfer
Agent
seqpro.com
Syntaxe
Intro – Syntaxe – – Validation – Matching – Conclusions Novembre 2013 - 26/96
Table des matières
Introduction
Syntaxe Contexte
Les standards et la pratique
Techniques de contrôle et limites
Syntaxes spécifiques
Propositions
Outils
Validation
Matching
Bonnes pratiques &
Conclusions
Vandy Berten
Isabelle Boydens
Intro – Syntaxe – – Validation – Matching – Conclusions Novembre 2013 - 27/96
Contexte
• Syntaxe = vérification « orthographique » :
– Obligatoire : un (et un seul) arobase (@)
– Interdit : espace, virgule, point-virgule
– Points non consécutifs, …
• Ne dit pas si l’adresse/le domaine/le TLD existe !
• Analogie :
– Code postal belge : 4 chiffres
– 1234 respecte la syntaxe, mais n’est pas un CP !
– Idem avec les numéros de téléphone
• Standards : RFC 5321 et 5322
Intro – Syntaxe – – Validation – Matching – Conclusions Novembre 2013 - 28/96
Contexte
Erreurs évidentes
albert.leroy#smals.be
albert.leroy@smals,be
albert leroy@smals.be
0471/257 800
Rue Fonsy 20
www.smals.be
Erreurs ??
albêrt.leroy@简体中文.com
albert.leroy@be
albert-leroy@gmail.com
albert..leroy@smals.be
albert%leroy@blahblah.be
albert.leroy@a--b.be
------@hotmail.com
albert@ma_boite.be
Intro – Syntaxe – – Validation – Matching – Conclusions Novembre 2013 - 29/96
Contexte
• Intérêt de vérifier la syntaxe ?
– Batch : Identifier des erreurs présentes
– On-line : Détection des erreurs à un stade précoce
(avant envoi d’e-mail de confirmation)
• Dans la pratique :
– Beaucoup de portails (officiels) sans le moindre contrôle
ou minime
– Souvent : contrôles beaucoup trop stricts
• Problème des flux d’entrée multiples :
– Un point d’entrée avec contrôle, un autre sans contrôle
Intro – Syntaxe – – Validation – Matching – Conclusions Novembre 2013 - 30/96
Standards « Mail »
Standards « DNS »
• Syntaxe « classique » :
• [a-z], [0-9]
• « . » et « - » (non consécutifs, pas en début ou en fin)
• Dernière partie (TLD) : [a-z]{2,6}
• Nouveautés :
• gTLD : .brussels, .vlaanderen, …
• IDN : ñandú.cl , 简体中文.com, …
• IDN ccTLD : .中国, .இந்தியா, . ‫,آزمایشی‬ .рф, …
• Caractères normaux et accentués (case sensitive)
• .!#$%&'*+-/=?^_`{|~”
• Points non consécutifs, pas en début ou en fin
Syntaxe : que disent les standards ?
Albert.Leroy@smals.be
Intro – Syntaxe – – Validation – Matching – Conclusions Novembre 2013 - 31/96
Dans la pratique ?
• Partie « nom de domaine » :
– Respect imposé par la structure « DNS »
– Un nom de domaine non-conforme n’apparait pas dans
les tables
• Partie « username » :
– Uniquement évaluée par le serveur mail de destination
– Username attribué par l’organisation qui le gère → une
certaine liberté malgré les standards !
– Dans la pratique : beaucoup plus restrictif que la norme
– Rarement case sensitive
– Certains acceptent des extensions
Intro – Syntaxe – – Validation – Matching – Conclusions Novembre 2013 - 32/96
Syntaxe spécifique : intérêt ?
• Il est facile de trouver la syntaxe spécifique pour
la plupart des grands fournisseurs (Gmail,
Hotmail, Belgacom, Telenet, …)
• Sur certaines DB étudiées : 85% des adresses !
• Permet d’être beaucoup plus restrictif sur ce
qu’on laisse passer, sans risquer les « faux
négatifs »
Intro – Syntaxe – – Validation – Matching – Conclusions Novembre 2013 - 33/96
Syntaxe spécifique : exemples
• Hotmail-live-outlook-…, Belgacom-skynet-
…, telenet, pandora :
– « a-z » « 0-9 » « - » « _ » « . »
– Pas de points consécutifs, en début ou en fin
• Yahoo :
– « a-z » « 0-9 » « _ » « . » (pas le tiret !)
– Maximum un point
– 1er : a-z ; dernier : a-z, 0-9
– Entre 4 et 32 caractères
– Si un point : 4 caractères après
Intro – Syntaxe – – Validation – Matching – Conclusions Novembre 2013 - 34/96
Syntaxe spécifique : Gmail
• « a-z », « 0-9 », « . », « + »
• Entre 6 et 30 caractères, en
ignorants les points et ce qui suit le « + »
• Plus de 8 caractères : minimum une lettre
• Les points sont ignorés, « + » débute un
commentaire. Sont équivalents et légaux :
– albert.leroy@gmail.com
– albertleroy@gmail.com
– albert.leroy+blahblah@gmail.com
– albert..leroy@gmail.com
– .albert.leroy.@gmail.com Interdits par les standards !
Intro – Syntaxe – – Validation – Matching – Conclusions Novembre 2013 - 35/96
Comment vérifier ?
• Technique de vérification la plus répandue : les
expressions régulières
• Sorte de mini-langage de programmation,
utilisable de façon (quasi) standard par (quasi)
tous les langages
• Très puissant pour vérifier qu’une chaîne de
caractères rencontre bien certaines contraintes
• A malgré tout quelques limites
Intro – Syntaxe – – Validation – Matching – Conclusions Novembre 2013 - 36/96
Expressions régulières
^[a-z0-9._%+-]+@[a-z0-9.-]+.[a-z]{2,6}$
Une séquence d’au moins
un caractère (+) contenant
des éléments de la liste
Une séquence
d’au moins un
caractère (+)
contenant des
éléments de la
liste
Entre 2 et 6
lettres (TLD)
Le début L’arobase (@) Le point La fin
Intro – Syntaxe – – Validation – Matching – Conclusions Novembre 2013 - 37/96
Expressions régulières
• On trouve beaucoup de variantes d’expressions
régulières de vérification d’e-mail
• La plupart conviennent pour l’énorme majorité
des adresses en cours
• Certaines acceptent beaucoup trop
• D’autres refusent des adresses valides
• Parfois : totalement illisible
Intro – Syntaxe – – Validation – Matching – Conclusions Novembre 2013 - 38/96
Expression régulière : exemples
• Champ « email » en HTML :
^[a-z0-9.!#$%&’*+/=?^_`{|}~-]+@
[a-z0-9-]+(.[a-z0-9-]+)*$
– N’accepte pas les accents
– Accepte …@--.--, a@b.55
• Expression commune :
^[a-z0-9._%+-]+@[a-z0-9.-]+.[a-z]{2,4}$
– Petite liste de caractères
– N’accepte pas les TLD .museum ou .travel
– Accepte …@---...be
– Refuse albert@be
Intro – Syntaxe – – Validation – Matching – Conclusions Novembre 2013 - 39/96
Expressions régulières : exemples
• Dans une libraire Javascript répandue :
• ^((([a-z]|d|[!#$%&'*+-/=?^_`{|}~]|[u00A0-uD7FFuF900-uFDCFuFDF0-
uFFEF])+(.([a-z]|d|[!#$%&'*+-/=?^_`{|}~]|[u00A0-uD7FFuF900-uFDCFuFDF0-
uFFEF])+)*)|((x22)((((x20|x09)*(x0dx0a))?(x20|x09)+)?(([x01-x08x0bx0cx0e-
x1fx7f]|x21|[x23-x5b]|[x5d-x7e]|[u00A0-uD7FFuF900-uFDCFuFDF0-
uFFEF])|(([x01-x09x0bx0cx0d-x7f]|[u00A0-uD7FFuF900-uFDCFuFDF0-
uFFEF]))))*(((x20|x09)*(x0dx0a))?(x20|x09)+)?(x22)))@((([a-z]|d|[u00A0-
uD7FFuF900-uFDCFuFDF0-uFFEF])|(([a-z]|d|[u00A0-uD7FFuF900-uFDCFuFDF0-
uFFEF])([a-z]|d|-|.|_|~|[u00A0-uD7FFuF900-uFDCFuFDF0-uFFEF])*([a-z]|d|[u00A0-
uD7FFuF900-uFDCFuFDF0-uFFEF]))).)+(([a-z]|[u00A0-uD7FFuF900-uFDCFuFDF0-
uFFEF])|(([a-z]|[u00A0-uD7FFuF900-uFDCFuFDF0-uFFEF])([a-z]|d|-|.|_|~|[u00A0-
uD7FFuF900-uFDCFuFDF0-uFFEF])*([a-z]|[u00A0-uD7FFuF900-uFDCFuFDF0-
uFFEF]))).?$
• Accepte beaucoup de caractères (y compris
chinois, arabe, …)
• Accepte « " albert.leroy "@smals.be »
• Rejette « albert@be »
• Accepte « albert@gm..--ail.c0m »
Intro – Syntaxe – – Validation – Matching – Conclusions Novembre 2013 - 40/96
Expressions régulières spécifiques
• Pour les domaines pour lesquels on connait une
syntaxe spécifique (Hotmail, Yahoo, Gmail, …), on
peut proposer un test spécifique sur le
« username ».
• Exemple pour Hotmail :
^[a-z0-9_-](.[a-z0-9_-]+)*$
• Pour d’autres, des tests supplémentaires sont
nécessaires
Intro – Syntaxe – – Validation – Matching – Conclusions Novembre 2013 - 41/96
Expressions régulières : les limites
• Problème :
– Soit trop contraignant
– Soit trop laxiste
• Difficile de tout vérifier avec une expr. régulière
• Notre proposition : vérifier en 2 temps :
– Éliminer des adresses certainement fausses avec un test
laxiste
– Identifier des adresses suspectes avec un test très
(trop) contraignant
• On-line : demander confirmation
• Batch : ajouter dans une liste « à contrôler »
– Ce qui reste : correct (→ tests spécifiques)
Intro – Syntaxe – – Validation – Matching – Conclusions Novembre 2013 - 42/96
Proposition : Trois catégories
Adresse e-mail
Contrainte laxiste
(Condition nécessaire)
Contrainte forte
(Condition suffisante)
succès
Adresse correcte
succès
Adresse incorrecte
échec
Adresse suspecte
échec
Intro – Syntaxe – – Validation – Matching – Conclusions Novembre 2013 - 43/96
Proposition : Trois catégories
Adresse e-mail
^[^@,;:s]+@[^@,;:s+]+$
^[a-z0-9’+_.-]@[a-z0-9.-].[a-z]{2,4}$
succès
Adresse correcte
succès
Adresse incorrecte
échec
Adresse suspecte
échec
Intro – Syntaxe – – Validation – Matching – Conclusions Novembre 2013 - 44/96
Proposition : Trois catégories
Adresse e-mail
^[^@,;:s]+@
([^@,;:s+.-]+([-.][^@,;:s+.-]+)*)$
^[a-z0-9’+_-]+(.[a-z0-9’+_-]+)*@
([a-z0-9]+([-.][a-z0-9]+)*).[a-z]{2,4}$
succès
Adresse correcte
succès
Adresse incorrecte
échec
Adresse suspecte
échec
Intro – Syntaxe – – Validation – Matching – Conclusions Novembre 2013 - 45/96
Proposition : Quatre catégories
Adresse e-mail
Contrainte laxiste
Contrainte forte
succès
Contrainte spécifique au DN
Adresse correcte
succès
Adresse incorrecte
échec
Adresse suspecte
échec
Adresse incorrecte
(spécifique au DN)
échec
succès ou pas applicable
Intro – Syntaxe – – Validation – Matching – Conclusions Novembre 2013 - 46/96
Suggestions de correction
• Idée : si possible, proposer une correction
• Avantage : souvent difficile de localiser une faute
de frappe
• Erreurs classiques :
– albert.leroysmals.be
– albert.leroy@|smals.be
– albert.leroy#smals.be
– albert,leroy@smals.be
– albert.leroy @smals.be
– albert.leroy@smals
– albêrt.leroy@smals.be
– albert-leroy@gmail.com
albert.leroy@smals.be
albert.leroy@gmail.com
Intro – Syntaxe – – Validation – Matching – Conclusions Novembre 2013 - 47/96
Outils
• Librairies : http://isemail.info
• Discussion : http://www.regular-expressions.info
• HTML 5 : champ « email »
• Librairies standards dans certains langages. Java :
org.apache.commons.validator.EmailValidator
• Développement propres
• À notre connaissance :
– Jamais de tests « spécifiques »
– Toujours correct/incorrect, pas de cas suspects
Intro – Syntaxe – – Validation – Matching – Conclusions Novembre 2013 - 48/96
PoC
Intro – Syntaxe – – Validation – Matching – Conclusions Novembre 2013 - 49/96
PoC
Intro – Syntaxe – – Validation – Matching – Conclusions Novembre 2013 - 50/96
Syntaxe : l’essentiel
Plus
complexe
que ce que
l’on pense !
Tests binaires =
trop laxistes, ou
trop contraignants
Tests
spécifiques au
domaine
⇒ ↗ précision
Adresses
suspectes ⇒
limite les faux
positif/négatif
Intro – Syntaxe – – Validation – Matching – Conclusions Novembre 2013 - 51/96
Questions ?
Intro – Syntaxe – – Validation – Matching – Conclusions Novembre 2013 - 52/96
Pause !
shutterstock
Validation
Novembre 2013 - 54/96Intro – Syntaxe – – Validation – Matching – Conclusions
Table des matières
Introduction
Syntaxe
Validation Validation du nom de domaine
Validation d’adresse
Contrôle de lecture
Limites et difficultés
Outils
Matching
Bonnes pratiques
& Conclusions
Vandy Berten
Isabelle Boydens
Novembre 2013 - 55/96Intro – Syntaxe – – Validation – Matching – Conclusions
Contexte
• Une adresse syntaxiquement correcte n’implique
pas qu’elle existe !
• Une adresse qui existe n’est pas toujours
consultée
• Existence d’une adresse :
– Le nom de domaine
– L’adresse elle-même
• Contrôle de lecture :
– Insertion d’image
– Lien unique
Novembre 2013 - 56/96Intro – Syntaxe – – Validation – Matching – Conclusions
Contexte : portail on-line
• Une nouvelle adresse devrait être confirmée
(envoi d’un lien à cliquer)
• Beaucoup de portails ne le font pas → à nettoyer
en batch
• Validation initiale : nécessaire, mais ne permet
pas de maintenir la qualité dans le temps
• Forcer une revalidation fréquente peut être
contraignant et intrusif
• On peut parfois automatiser cette validation
Novembre 2013 - 57/96Intro – Syntaxe – – Validation – Matching – Conclusions
Mécanisme de validation
me@exp.com
Serveur DNS
Serveur MX (MTA)
mx.dest.com
MX: @dest.com ?
mx.dest.com
SMTP
DNS
him@dest.com
Validation adresse
Validation nom de domaine
Novembre 2013 - 58/96Intro – Syntaxe – – Validation – Matching – Conclusions
Validation : conversation SMTP
C:>telnet gmail-smtp-in.l.google.com. 25
Trying 173.194.78.26...
Connected to gmail-smtp-in.l.google.com. [...]
EHLO bxl.mapetitesociete.be
250-mx.google.com at your service, [91.xx.xx.xx][...]
MAIL FROM:<albert.leroy@bxl.mapetitesociete.be>
250 2.1.0 OK pn9si6796wjc.42 - gsmtp
RCPT TO:<leroy.mariecelestine@gmail.com>
550-5.1.1 The email account that you tried to reach
does not exist. [...]
RCPT TO:<mariecelestine.leroy@gmail.com>
250 2.1.5 OK pn9si6796wjc.42 - gsmtp
QUIT
221 2.0.0 closing connection pn9si6796wjc.42 – gsmtp
Novembre 2013 - 59/96Intro – Syntaxe – – Validation – Matching – Conclusions
Limites et difficultés (domaine)
• Validation nom de domaine : très fiable
• Si incorrect, deux cas :
– Le nom de domaine n’existe pas
– Il existe, mais pas d’e-mail associé (No MX record)
• Quelques cas rares de « time-out » → réessayer
• Faible risque de blacklisting en vérification batch
Novembre 2013 - 60/96Intro – Syntaxe – – Validation – Matching – Conclusions
Limites et difficultés (adresse)
• Validation adresse : beaucoup d’incertitudes !
• Réponse difficile à interpréter
• Si source pas clairement identifiée :
– Greylisting (explicite)
– Catch-all (implicite)
• En cas de requête massive : risque de blacklist !
• Recyclage des adresses
550 Service unavailable; Client host [xxx.xxx.xxx.xxx] blocked using dnsbl.njabl.org;
spam source
550 MAILBOX NOT FOUND 550 <john@foo.bar>... User unknown
550 5.7.2 This smells like Spam
550 <john@foo.de>. Benutzer hat zuviele Mails auf dem Server.
554 Delivery error Sorry your message to joe@foo.bar cannot be delivered. [#102]
> 20-25% depuis un PC « standard »
Novembre 2013 - 61/96Intro – Syntaxe – – Validation – Matching – Conclusions
Validation d’adresse
Tester
albert.leroy@domaine.com
Clair :
invalide
Pas clair, grey-
list, timeout,
…Clair :
valide
Adresse invalide
Adresse incertaine
Tester
xiq.kyhbzrnrh8bf3slfvsox9
@domaine.com
Valide
Invalide
Adresse incertaine
(Catch all)
Adresse valide
Novembre 2013 - 62/96Intro – Syntaxe – – Validation – Matching – Conclusions
Dégressivité par domaine
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013
Validité adresses Proportion vs total
Gmail
Hotmail
Skynet
Novembre 2013 - 63/96Intro – Syntaxe – – Validation – Matching – Conclusions
Contrôle de lecture
• Quelques techniques pour s’assurer qu’une
adresse est toujours active, mais rien de très
fiable
• Accusé de réception (Outlook & co) : pas
standard, pas inter-plateforme
• Présence de lien « unique » à cliquer
– Il faut une raison de cliquer !
• Présence d’une image « unique »
– Il faut accepter d’afficher les images
Novembre 2013 - 64/96Intro – Syntaxe – – Validation – Matching – Conclusions
Lien unique
To:albert.leroy@smals.be
www.smals.be
albert.leroy
@smals.be :
OK + date
<a href="http://mysite.com/redir?
m=albert.leroy@smals.be&a=www.smals.be">
www.smals.be</a>
www.mysite.com/redir
• Variantes : crypter/masquer le
contenu, passer via une base de
données
• Il faut une bonne raison de
cliquer !
• Indispensable à l’enregistrement
(e-mail de confirmation)
Novembre 2013 - 65/96Intro – Syntaxe – – Validation – Matching – Conclusions
Image unique
To:albert.leroy@smals.be
<img src="http://mysite.com/
albert.leroy@smals.be.gif">
mysite.com
albert.leroy
@smals.be :
OK + date
Remarque :
• Souvent un pixel blanc (invisible)
• Il faut accepter les images !
Novembre 2013 - 66/96Intro – Syntaxe – – Validation – Matching – Conclusions
Image unique
• Inconvénient : beaucoup de systèmes
désactivent les images distantes par défaut
0
50
100
150
200
250
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
>20
Délai lecture
Unknown
62%
Receipt
24%
Error
14%
Novembre 2013 - 67/96Intro – Syntaxe – – Validation – Matching – Conclusions
Outils (Existence)
• Peu d’outils du marché fiables !
• Les plus fiables :
– http://verify-email.org,
– http://tools.email-checker.com
– Limités à quelques requêtes/24h
– Version professionnelle payante
• Quelques logiciels, mais
tournent en « local »
• Développement propre
plus performant
Novembre 2013 - 68/96Intro – Syntaxe – – Validation – Matching – Conclusions
Outils : ServiceObjects
• Web service avancé de
vérification et validation
• Vérification syntaxique spécifique
• Correction d’erreurs
• Identification des serveurs « catch-all »
• Réponse avec degré de certitude
• Outil similaire moins avancé : StrikeIron
Novembre 2013 - 69/96Intro – Syntaxe – – Validation – Matching – Conclusions
Outils (Contrôle de lecture)
• www.bananatag.com : intégré à
Gmail ou Outlook. Ajoute une
image + adapte les liens
• www.spypig.com, TailMail : génère
une image à intégrer manuellement
• www.MsgTag.com : « proxy SMTP »
pour client mail. Ajoute une image
Novembre 2013 - 70/96Intro – Syntaxe – – Validation – Matching – Conclusions
PoC
Novembre 2013 - 71/96Intro – Syntaxe – – Validation – Matching – Conclusions
Novembre 2013 - 72/96Intro – Syntaxe – – Validation – Matching – Conclusions
Novembre 2013 - 73/96Intro – Syntaxe – – Validation – Matching – Conclusions
Validation : l’essentiel
Existence du
domaine :
très fiable
Contrôle de lecture :
• Lu : très fiable
• Pas d’accusé = pas
d’information
Existence de l’adresse :
• Fausse/Correcte : ± fiable
• Beaucoup d’inconnu
(catch-all, greylist, …)
Seule validation
fiable : envoi
d’un e-mail avec
action obligatoire
lerablog.org
Matching
Novembre 2013 - 75/96Intro – Syntaxe – – Validation – Matching – Conclusions
Table des matières
Introduction
Syntaxe
Validation
Matching Contexte
Matching interne (informations annexes)
Matching sur nom de domaine
Dédoublonnage
Suggestions
Difficultés
Outils
Bonnes pratiques &
Conclusions
Vandy Berten
Isabelle Boydens
Novembre 2013 - 76/96Intro – Syntaxe – – Validation – Matching – Conclusions
Contexte
• Matching : classique en Data Quality
• But : comparer des infos identiques ou similaires
• Différentes utilités :
– Matching interne : dans un « record », utiliser la
redondance pour croiser des info → suspicion d’erreurs
(nom/prénom/e-mail)
– Dédoublonnage : « records » similaires → suspicion de
doublons
– Domaine connu : similitude avec des domaines
fréquents → suspicion d’erreurs (nom de domaine)
• Ne permet pas de détecter des erreurs, mais de
les soupçonner
Novembre 2013 - 77/96Intro – Syntaxe – – Validation – Matching – Conclusions
Contexte
• Basé sur des algorithmes de similitude
(Métaphone, Soundex, Jaro, Levenshtein,…)
• On pourra suggérer des corrections :
– En on-line : à l’utilisateur à l’encodage
– En batch : aux gestionnaires
– Décision automatique difficile ou risquée
• Dans certaines DB observées : présence du
nom/prénom dans 85% des adresses !
Novembre 2013 - 78/96Intro – Syntaxe – – Validation – Matching – Conclusions
Matching interne : info annexes
Nom Prénom E-mail
Leroy Albert albert.leroy@smals.be
Nom Prénom E-mail
Leroy Albert ablert.leroy@smals.be
Nom de société E-mail
Les meilleurs asbl lesmeilluers@gmail.com
Nom Prénom E-mail
Leroy Ablert albert.leroy@smals.be
Novembre 2013 - 79/96Intro – Syntaxe – – Validation – Matching – Conclusions
Exemple réel (anonymisé)
Nom Prénom E-mail
Elbarkani Ahmine ahmine.elarkani@hotmail.com
Detimmerman Alain alain.detimemrman@gmail.com
Delsaux Adèle adeledelvaux@swing.be
Vandenberghe Arnaud arnaud.vandenbeghe@skynet.be
Desmedt Geert geertdesmet@hotmail.com
Piotrowski Alexander alexandre.piotrowski@telenet.be
Lanoy Caroline carolanoy@hotmail.fr
Michel Charles-Édouard charlesedou.michel@yahoo.fr
Hammoud Haffsa hafssa.hammoud@gmail.com
Mabrouk Tarik mabrouk.tarek@gmail.com
Wouters Idalie woutersodalie@yahoo.fr
Novembre 2013 - 80/96Intro – Syntaxe – – Validation – Matching – Conclusions
Matching interne : domaines connus
hotmail
hotmal
hotamil
hotmial
hotmaill
hotmmail
hiotmail
…
gmail
…
gmali
gemail
gmial
gmailo
gmaill
gmal
Novembre 2013 - 81/96Intro – Syntaxe – – Validation – Matching – Conclusions
Suggestion de correction
Albert Leroy
albert.leryo@smals.be
Albert Leroy
albert.leroy@smals.be
Albert Leryo
albert.leryo@smals.be
albert.leroy@gmial.com albert.leroy@gmail.com
Novembre 2013 - 82/96Intro – Syntaxe – – Validation – Matching – Conclusions
Dédoublonnage
• Les techniques classiques de dédoublonnage
peuvent être utilisées pour détecter des doublons
dans une DB
• Il faut se servir de différentes informations pour
établir un double
• En général, on établit un « classement » : double
très probable (beaucoup d’information similaire)
→ double moins probable
• Parfois beaucoup plus que deux !
Novembre 2013 - 83/96Intro – Syntaxe – – Validation – Matching – Conclusions
Dédoublonnage
Albert Leroy
albert.leroy@gmail.com
Albert Leroy
albert.leroy@hotmail.com
Albert Lenoy
albert.lenoy@gmail.com
Distance plus courte
Doublon plus probable ?
Novembre 2013 - 84/96Intro – Syntaxe – – Validation – Matching – Conclusions
Difficultés
• Difficile à paramétrer !
• On a vite beaucoup de faux positifs
• Faux positifs intentionnels :
– Translittération : Tarik vs Tarek
– Traduction : Alexander vs Alexandre
– Diminutif/surnom : Jacques vs Jacky
Novembre 2013 - 85/96Intro – Syntaxe – – Validation – Matching – Conclusions
Outils
• Le matching et dédoublonnage sont des tâches
complexes, nécessitant beaucoup de « tuning »
• Seuls des outils spécialisés de Data Quality y
arrivent correctement
• Gratuit : OpenRefine
• Propriétaire :
– IntoDQ (Trillium)
– RedPoint
– HumanInference
Pas de modules spécifiques
aux e-mails mais largement
paramétrables
Novembre 2013 - 86/96Intro – Syntaxe – – Validation – Matching – Conclusions
PoC
Novembre 2013 - 87/96Intro – Syntaxe – – Validation – Matching – Conclusions
Novembre 2013 - 88/96Intro – Syntaxe – – Validation – Matching – Conclusions
Matching : l’essentiel
But :
suspecter/identifier
des cas douteux
Matching interne :
erreur dans le
nom/prénom/e-mail
Purement empirique !
⇒ Traitement humain
souvent nécessaire
(facilité par les suspicions)
Dédoublonnage :
données similaires
Domaine connu :
erreur dans le nom
de domaine
socialstrand.com
Bonnes pratiques & Conclusions
Novembre 2013 - 90/96Intro – Syntaxe – – Validation – Matching – Conclusions
Organisation
• Organisation rigoureuse et contrôlée du système
d’information :
– Définition de services et sources authentiques validées,
en fonction des enjeux et usages
– Flux, processus et intervenants humains
• Arbitrage en fonction des enjeux
– Coûts versus moyens disponibles
– Validité versus rapidité de traitement
– Fréquence rappels versus caractère intrusif auprès du
public
• Point fondamental : prise en compte de la validité
dégressive dans le temps des adresses e-mail
Novembre 2013 - 91/96Intro – Syntaxe – – Validation – Matching – Conclusions
Bonnes pratiques : encodage/update
Authentification
forte (eID)
Encodage
Vérif./Valid./Matching SuggestionSuggestion
Envoi e-mail
confirmation
Authentification
(eID) + action
Accès ouvert
DB : date validation
suspicionerreur
confirmation
OK
Scénarios analogues à prévoir :
- Confirmation jamais cliquée
- Cas d’adresse erronée
Indicateurs de
qualité
Novembre 2013 - 92/96Intro – Syntaxe – – Validation – Matching – Conclusions
Bonnes pratiques : envoi d’un e-mail
Envoi d’un e-mail
Confirmation de
lecture
Marquer la DB
Bounce
Marquer la DB
Actions à
envisager
(suppression,
autre moyen de
contact, …)
Délai depuis la
dernière confirmation
Portail : « L’adresse … est-
elle toujours valide ? »
E-mail : « Merci de
confirmer l’adresse …»
Bloquer l’accès + envoi
d’un e-mail
Novembre 2013 - 93/96Intro – Syntaxe – – Validation – Matching – Conclusions
Stratégies de bonne gestion
• Catégorisation pour tenir compte de l’incertitude :
– Correct – Incorrect – Incertain
• Minimiser l’intervention manuelle :
– Exemples : suggestions de corrections semi-
automatiques
• Historique des événements et indicateurs de
qualité
– Datés (timestamp)
– Associés à chaque record de la DB
– Quantification continue des events et indicateurs
Novembre 2013 - 94/96Intro – Syntaxe – – Validation – Matching – Conclusions
Suivi de la validité dans le temps
• Monitoring de la base de données et stratégies de
gestion en fonction des enjeux :
– Exemples : actions en vue d’une meilleure visibilité,
suivi des améliorations liées à une action, …
• Gains importants si l’on adopte une stratégie
proactive et continue
€0
€500.000
€1.000.000
€1.500.000
€2.000.000
€2.500.000
€3.000.000
Année 1 Année 2 Année 3 Année 4 Année 5
Coût cumulé
Gain cumulé
Novembre 2013 - 95/96Intro – Syntaxe – – Validation – Matching – Conclusions
Conclusions
Complexité
de la gestion
Difficulté :
dégressivité
dans le temps
Syntaxe
spécifique :
améliore la
qualité
Pro-action !
Catégorisation
binaire : laxiste
ou restrictive
→ Suspicions
Peu de
déterminisme,
beaucoup
d’incertitude
Importance d’un suivi continu
et d’une bonne organisation
Souvent,
gains
importants
Novembre 2013 - 96/96Intro – Syntaxe – – Validation – Matching – Conclusions
Vandy Berten
02/787.57.32
vandy.berten@smals.be
Isabelle Boydens
02/787.59.92
isabelle.boydens@smals.be
More on Smals Research
Website Smals : www.smals.be
Blog : blogresearch.smalsrech.be
Twitter : twitter.com/smalsresearch
Annexes
Expressions régulières spécifiques
• Hotmail & Co (partie username) :
^[a-z0-9_-](.[a-z0-9_-]+)*$
• Yahoo :
^[a-z][a-z0-9_]*([.][a-z0-9_]{3,})?[a-z0-9]$
^[a-z0-9_.]{4,32}$
En une seule expression ?
Expressions régulières spécifiques
• Gmail :
^[a-z0-9.+]+$
• Contraintes supplémentaires :
– entre 6 et 30 caractères, sans compter les points et ce
qui suit le « + ». Expression régulière ???
– Si + de 8 caractères : au moins une lettre
• Alternative plus compacte mais incomplète :
^[a-z0-9.+]{6,}$
Références
• I. Boydens, «Strategic Issues Relating to Data Quality for
E-government: Learning from an Approach Adopted in
Belgium» In « Practical Studies in E-Government: Best
Practices from Around the World », New York, Springer, pp.
113-130 (chapitre 7), 2011.
• Y. Bontemps, I. Boydens et D. Van Dromme, «Data Quality:
tools», Bruxelles, Smals, 2007.
• I. Boydens, «Informatique, normes et temps», Bruxelles,
Bruylant, 1999.
• I. Boydens, A. Hulstaert et D. Van Dromme, «Gestion
intégrée des anomalies», Bruxelles, Smals, 2011.
Glossaire
• DNS : Domain Name System
• gTLD : generic Top Level Domain
• IDN : Internationalized Domain Name
• MTA : Mail Transfer Agent
• MX : Mail eXchange
• SMTP : Simple Mail Transfer Protocol
• TLD : Top Level Domain

Más contenido relacionado

Destacado

Video conferencias
Video conferenciasVideo conferencias
Video conferenciaseleni2613
 
Gaceta Vive Yves Rocher Campaña 1 2015
Gaceta Vive Yves Rocher Campaña 1 2015Gaceta Vive Yves Rocher Campaña 1 2015
Gaceta Vive Yves Rocher Campaña 1 2015Luis Barrera
 
Surveiller ses thématiques de recherche et choisir ses outils
Surveiller ses thématiques de recherche et choisir ses outilsSurveiller ses thématiques de recherche et choisir ses outils
Surveiller ses thématiques de recherche et choisir ses outilsService-Sidra
 
Pedagogia del oprimido
Pedagogia del oprimidoPedagogia del oprimido
Pedagogia del oprimidoEymerPadilla
 
Prepartidos Alternativos
Prepartidos AlternativosPrepartidos Alternativos
Prepartidos AlternativosCarla Escobar
 
Mystudycards2013 yourname verbs_v5_50_slides_g9
Mystudycards2013 yourname verbs_v5_50_slides_g9Mystudycards2013 yourname verbs_v5_50_slides_g9
Mystudycards2013 yourname verbs_v5_50_slides_g9umaimahzanif456
 
Memoria republicana y memoria católica. Cuestión religiosa y conmemoración pú...
Memoria republicana y memoria católica. Cuestión religiosa y conmemoración pú...Memoria republicana y memoria católica. Cuestión religiosa y conmemoración pú...
Memoria republicana y memoria católica. Cuestión religiosa y conmemoración pú...Fernando Sánchez Costa
 
Réflexions sur le C2C (peer to Peer)
Réflexions sur le C2C (peer to Peer)Réflexions sur le C2C (peer to Peer)
Réflexions sur le C2C (peer to Peer)Henri Kaufman
 
Alain renaudin 100 editos du mardi final
Alain renaudin 100 editos du mardi finalAlain renaudin 100 editos du mardi final
Alain renaudin 100 editos du mardi finalAlain Renaudin
 
Open Data:Réutilisation de données : terrain miné ou mine de données pour les...
Open Data:Réutilisation de données : terrain miné ou mine de données pour les...Open Data:Réutilisation de données : terrain miné ou mine de données pour les...
Open Data:Réutilisation de données : terrain miné ou mine de données pour les...delestre.org
 

Destacado (19)

Video conferencias
Video conferenciasVideo conferencias
Video conferencias
 
Escuela nueva
Escuela nuevaEscuela nueva
Escuela nueva
 
Gaceta Vive Yves Rocher Campaña 1 2015
Gaceta Vive Yves Rocher Campaña 1 2015Gaceta Vive Yves Rocher Campaña 1 2015
Gaceta Vive Yves Rocher Campaña 1 2015
 
ANALISIS DAFO
ANALISIS DAFOANALISIS DAFO
ANALISIS DAFO
 
Ensayo
EnsayoEnsayo
Ensayo
 
Surveiller ses thématiques de recherche et choisir ses outils
Surveiller ses thématiques de recherche et choisir ses outilsSurveiller ses thématiques de recherche et choisir ses outils
Surveiller ses thématiques de recherche et choisir ses outils
 
Pedagogia del oprimido
Pedagogia del oprimidoPedagogia del oprimido
Pedagogia del oprimido
 
Tut@r.ar
Tut@r.arTut@r.ar
Tut@r.ar
 
Prepartidos Alternativos
Prepartidos AlternativosPrepartidos Alternativos
Prepartidos Alternativos
 
11.cynthia caro diagrama de circulo de la naturaleza
11.cynthia  caro diagrama de circulo de la naturaleza11.cynthia  caro diagrama de circulo de la naturaleza
11.cynthia caro diagrama de circulo de la naturaleza
 
Mystudycards2013 yourname verbs_v5_50_slides_g9
Mystudycards2013 yourname verbs_v5_50_slides_g9Mystudycards2013 yourname verbs_v5_50_slides_g9
Mystudycards2013 yourname verbs_v5_50_slides_g9
 
1 rafa omar.existe una manera de hacer ciencia
1 rafa omar.existe una manera de hacer ciencia1 rafa omar.existe una manera de hacer ciencia
1 rafa omar.existe una manera de hacer ciencia
 
Etapas del desarrollo humano
Etapas del desarrollo humano Etapas del desarrollo humano
Etapas del desarrollo humano
 
Memoria republicana y memoria católica. Cuestión religiosa y conmemoración pú...
Memoria republicana y memoria católica. Cuestión religiosa y conmemoración pú...Memoria republicana y memoria católica. Cuestión religiosa y conmemoración pú...
Memoria republicana y memoria católica. Cuestión religiosa y conmemoración pú...
 
Book Home Consulting Janvier 2013
Book Home Consulting Janvier 2013Book Home Consulting Janvier 2013
Book Home Consulting Janvier 2013
 
Réflexions sur le C2C (peer to Peer)
Réflexions sur le C2C (peer to Peer)Réflexions sur le C2C (peer to Peer)
Réflexions sur le C2C (peer to Peer)
 
Alain renaudin 100 editos du mardi final
Alain renaudin 100 editos du mardi finalAlain renaudin 100 editos du mardi final
Alain renaudin 100 editos du mardi final
 
Ogec
OgecOgec
Ogec
 
Open Data:Réutilisation de données : terrain miné ou mine de données pour les...
Open Data:Réutilisation de données : terrain miné ou mine de données pour les...Open Data:Réutilisation de données : terrain miné ou mine de données pour les...
Open Data:Réutilisation de données : terrain miné ou mine de données pour les...
 

Similar a Email address reliability_infosession_201311_session_externe_printable

Data centric : une plate-forme orientée donnée au coeur de votre organisation
Data centric : une plate-forme orientée donnée au coeur de votre organisationData centric : une plate-forme orientée donnée au coeur de votre organisation
Data centric : une plate-forme orientée donnée au coeur de votre organisationJean-Michel Franco
 
La qualite d'une adresse
La qualite d'une adresseLa qualite d'une adresse
La qualite d'une adresseGoulven Aubree
 
Révision du plan d’architecture Web: Bien plus qu’une refonte !
Révision du plan d’architecture Web: Bien plus qu’une refonte !Révision du plan d’architecture Web: Bien plus qu’une refonte !
Révision du plan d’architecture Web: Bien plus qu’une refonte !Chantale Laberge
 
Comment mesurer et améliorer sa délivrabilité : outils, trucs et astuces
Comment mesurer et améliorer sa délivrabilité : outils, trucs et astucesComment mesurer et améliorer sa délivrabilité : outils, trucs et astuces
Comment mesurer et améliorer sa délivrabilité : outils, trucs et astucesFlorence consultant
 
At2009 Soigner Sa Schizophrenie 1.2
At2009 Soigner Sa Schizophrenie 1.2At2009 Soigner Sa Schizophrenie 1.2
At2009 Soigner Sa Schizophrenie 1.2Emmanuel Hugonnet
 
Comment gérer vos documents numériques ?
Comment gérer vos documents numériques ? Comment gérer vos documents numériques ?
Comment gérer vos documents numériques ? Charlène Ajavon
 
Emailing Délivrabilité par Message Business
Emailing Délivrabilité par Message BusinessEmailing Délivrabilité par Message Business
Emailing Délivrabilité par Message BusinessAlain Planger
 
FLUPA 2010 - Tri de cartes: Recruter des utilisateurs
FLUPA 2010 - Tri de cartes: Recruter des utilisateursFLUPA 2010 - Tri de cartes: Recruter des utilisateurs
FLUPA 2010 - Tri de cartes: Recruter des utilisateursFlupa
 
Ppt 2012 05 Technicien Informatique
Ppt 2012 05 Technicien InformatiquePpt 2012 05 Technicien Informatique
Ppt 2012 05 Technicien Informatiquemaudelabrosse
 
Petit-déjeuner "Cultiver l'art du code de qualité... Afin de livrer plus vite...
Petit-déjeuner "Cultiver l'art du code de qualité... Afin de livrer plus vite...Petit-déjeuner "Cultiver l'art du code de qualité... Afin de livrer plus vite...
Petit-déjeuner "Cultiver l'art du code de qualité... Afin de livrer plus vite...OCTO Technology
 
CESEO: Certification Expert SEO
CESEO: Certification Expert SEOCESEO: Certification Expert SEO
CESEO: Certification Expert SEOSEO CAMP
 
Banques et Assurances : optez pour des données fiables, précises et cohérentes !
Banques et Assurances : optez pour des données fiables, précises et cohérentes !Banques et Assurances : optez pour des données fiables, précises et cohérentes !
Banques et Assurances : optez pour des données fiables, précises et cohérentes !Precisely
 
Presentation1
Presentation1Presentation1
Presentation1Amelie01
 
Présentation1
Présentation1Présentation1
Présentation1Debbie1997
 
Recommender systems
Recommender systemsRecommender systems
Recommender systemsrecsysfr
 
Commerce électronique + WordPress, à l'aide!
Commerce électronique + WordPress, à l'aide!Commerce électronique + WordPress, à l'aide!
Commerce électronique + WordPress, à l'aide!Jean-Francois Arseneault
 
Synodiance > SEO - Réussir votre refonte avec GEMO - E-Commerce Paris 2014 - ...
Synodiance > SEO - Réussir votre refonte avec GEMO - E-Commerce Paris 2014 - ...Synodiance > SEO - Réussir votre refonte avec GEMO - E-Commerce Paris 2014 - ...
Synodiance > SEO - Réussir votre refonte avec GEMO - E-Commerce Paris 2014 - ...Search Foresight
 
Diginova - Session sur le machine learning avec ML.NET
Diginova - Session sur le machine learning avec ML.NETDiginova - Session sur le machine learning avec ML.NET
Diginova - Session sur le machine learning avec ML.NETJulien Chable
 

Similar a Email address reliability_infosession_201311_session_externe_printable (20)

Data centric : une plate-forme orientée donnée au coeur de votre organisation
Data centric : une plate-forme orientée donnée au coeur de votre organisationData centric : une plate-forme orientée donnée au coeur de votre organisation
Data centric : une plate-forme orientée donnée au coeur de votre organisation
 
La qualite d'une adresse
La qualite d'une adresseLa qualite d'une adresse
La qualite d'une adresse
 
Révision du plan d’architecture Web: Bien plus qu’une refonte !
Révision du plan d’architecture Web: Bien plus qu’une refonte !Révision du plan d’architecture Web: Bien plus qu’une refonte !
Révision du plan d’architecture Web: Bien plus qu’une refonte !
 
Présentation emailing
Présentation emailingPrésentation emailing
Présentation emailing
 
Comment mesurer et améliorer sa délivrabilité : outils, trucs et astuces
Comment mesurer et améliorer sa délivrabilité : outils, trucs et astucesComment mesurer et améliorer sa délivrabilité : outils, trucs et astuces
Comment mesurer et améliorer sa délivrabilité : outils, trucs et astuces
 
At2009 Soigner Sa Schizophrenie 1.2
At2009 Soigner Sa Schizophrenie 1.2At2009 Soigner Sa Schizophrenie 1.2
At2009 Soigner Sa Schizophrenie 1.2
 
Comment gérer vos documents numériques ?
Comment gérer vos documents numériques ? Comment gérer vos documents numériques ?
Comment gérer vos documents numériques ?
 
Emailing Délivrabilité par Message Business
Emailing Délivrabilité par Message BusinessEmailing Délivrabilité par Message Business
Emailing Délivrabilité par Message Business
 
FLUPA 2010 - Tri de cartes: Recruter des utilisateurs
FLUPA 2010 - Tri de cartes: Recruter des utilisateursFLUPA 2010 - Tri de cartes: Recruter des utilisateurs
FLUPA 2010 - Tri de cartes: Recruter des utilisateurs
 
Ppt 2012 05 Technicien Informatique
Ppt 2012 05 Technicien InformatiquePpt 2012 05 Technicien Informatique
Ppt 2012 05 Technicien Informatique
 
Petit-déjeuner "Cultiver l'art du code de qualité... Afin de livrer plus vite...
Petit-déjeuner "Cultiver l'art du code de qualité... Afin de livrer plus vite...Petit-déjeuner "Cultiver l'art du code de qualité... Afin de livrer plus vite...
Petit-déjeuner "Cultiver l'art du code de qualité... Afin de livrer plus vite...
 
Nicolas_DINASQUET
Nicolas_DINASQUETNicolas_DINASQUET
Nicolas_DINASQUET
 
CESEO: Certification Expert SEO
CESEO: Certification Expert SEOCESEO: Certification Expert SEO
CESEO: Certification Expert SEO
 
Banques et Assurances : optez pour des données fiables, précises et cohérentes !
Banques et Assurances : optez pour des données fiables, précises et cohérentes !Banques et Assurances : optez pour des données fiables, précises et cohérentes !
Banques et Assurances : optez pour des données fiables, précises et cohérentes !
 
Presentation1
Presentation1Presentation1
Presentation1
 
Présentation1
Présentation1Présentation1
Présentation1
 
Recommender systems
Recommender systemsRecommender systems
Recommender systems
 
Commerce électronique + WordPress, à l'aide!
Commerce électronique + WordPress, à l'aide!Commerce électronique + WordPress, à l'aide!
Commerce électronique + WordPress, à l'aide!
 
Synodiance > SEO - Réussir votre refonte avec GEMO - E-Commerce Paris 2014 - ...
Synodiance > SEO - Réussir votre refonte avec GEMO - E-Commerce Paris 2014 - ...Synodiance > SEO - Réussir votre refonte avec GEMO - E-Commerce Paris 2014 - ...
Synodiance > SEO - Réussir votre refonte avec GEMO - E-Commerce Paris 2014 - ...
 
Diginova - Session sur le machine learning avec ML.NET
Diginova - Session sur le machine learning avec ML.NETDiginova - Session sur le machine learning avec ML.NET
Diginova - Session sur le machine learning avec ML.NET
 

Más de Smals

Wat zijn chatbots en waarvoor gebruiken we ze
Wat zijn chatbots en waarvoor gebruiken we zeWat zijn chatbots en waarvoor gebruiken we ze
Wat zijn chatbots en waarvoor gebruiken we zeSmals
 
Wat is augmented reality en waarvoor gebruiken we het nl
Wat is augmented reality en waarvoor gebruiken we het nlWat is augmented reality en waarvoor gebruiken we het nl
Wat is augmented reality en waarvoor gebruiken we het nlSmals
 
Named entity recognition hoe werkt het wat kunnen we er mee doen nl
Named entity recognition hoe werkt het wat kunnen we er mee doen nlNamed entity recognition hoe werkt het wat kunnen we er mee doen nl
Named entity recognition hoe werkt het wat kunnen we er mee doen nlSmals
 
Natural language generation nederlands
Natural language generation nederlandsNatural language generation nederlands
Natural language generation nederlandsSmals
 
Wat is ai en wat kan het nl
Wat is ai en wat kan het nlWat is ai en wat kan het nl
Wat is ai en wat kan het nlSmals
 
Realite augmentee
Realite augmenteeRealite augmentee
Realite augmenteeSmals
 
Internet des objets
Internet des objetsInternet des objets
Internet des objetsSmals
 
Chatbots comment ca marche a quoi ca sert
Chatbots comment ca marche a quoi ca sertChatbots comment ca marche a quoi ca sert
Chatbots comment ca marche a quoi ca sertSmals
 
Analyse predictive comment ca marche a quoi ca sert
Analyse predictive comment ca marche a quoi ca sertAnalyse predictive comment ca marche a quoi ca sert
Analyse predictive comment ca marche a quoi ca sertSmals
 
Traduction vocale quasi instantanee introduction
Traduction vocale quasi instantanee introductionTraduction vocale quasi instantanee introduction
Traduction vocale quasi instantanee introductionSmals
 
Automatisation des processus robotises introduction
Automatisation des processus robotises introductionAutomatisation des processus robotises introduction
Automatisation des processus robotises introductionSmals
 
Interfaces conversationnelle introduction
Interfaces conversationnelle introductionInterfaces conversationnelle introduction
Interfaces conversationnelle introductionSmals
 
Reconnaissance d'entites nommees introduction
Reconnaissance d'entites nommees introductionReconnaissance d'entites nommees introduction
Reconnaissance d'entites nommees introductionSmals
 
Generation automatique de textes
Generation automatique de textesGeneration automatique de textes
Generation automatique de textesSmals
 
Intelligence artificielle etroite introduction
Intelligence artificielle etroite introductionIntelligence artificielle etroite introduction
Intelligence artificielle etroite introductionSmals
 
Named entity recognition hoe werkt het wat kunnen we er mee doen
Named entity recognition hoe werkt het wat kunnen we er mee doenNamed entity recognition hoe werkt het wat kunnen we er mee doen
Named entity recognition hoe werkt het wat kunnen we er mee doenSmals
 
Real time voice translation handig maar hoe ver staat het
Real time voice translation   handig  maar hoe ver staat hetReal time voice translation   handig  maar hoe ver staat het
Real time voice translation handig maar hoe ver staat hetSmals
 
Wat is predictive analytics en waarvoor kun je het gebruiken
Wat is predictive analytics en waarvoor kun je het gebruikenWat is predictive analytics en waarvoor kun je het gebruiken
Wat is predictive analytics en waarvoor kun je het gebruikenSmals
 
Wat is robotic process automation en wat kun je er mee doen
Wat is robotic process automation en wat kun je er mee doenWat is robotic process automation en wat kun je er mee doen
Wat is robotic process automation en wat kun je er mee doenSmals
 
Exemples europeens comme source d inspiration
Exemples europeens comme source d inspirationExemples europeens comme source d inspiration
Exemples europeens comme source d inspirationSmals
 

Más de Smals (20)

Wat zijn chatbots en waarvoor gebruiken we ze
Wat zijn chatbots en waarvoor gebruiken we zeWat zijn chatbots en waarvoor gebruiken we ze
Wat zijn chatbots en waarvoor gebruiken we ze
 
Wat is augmented reality en waarvoor gebruiken we het nl
Wat is augmented reality en waarvoor gebruiken we het nlWat is augmented reality en waarvoor gebruiken we het nl
Wat is augmented reality en waarvoor gebruiken we het nl
 
Named entity recognition hoe werkt het wat kunnen we er mee doen nl
Named entity recognition hoe werkt het wat kunnen we er mee doen nlNamed entity recognition hoe werkt het wat kunnen we er mee doen nl
Named entity recognition hoe werkt het wat kunnen we er mee doen nl
 
Natural language generation nederlands
Natural language generation nederlandsNatural language generation nederlands
Natural language generation nederlands
 
Wat is ai en wat kan het nl
Wat is ai en wat kan het nlWat is ai en wat kan het nl
Wat is ai en wat kan het nl
 
Realite augmentee
Realite augmenteeRealite augmentee
Realite augmentee
 
Internet des objets
Internet des objetsInternet des objets
Internet des objets
 
Chatbots comment ca marche a quoi ca sert
Chatbots comment ca marche a quoi ca sertChatbots comment ca marche a quoi ca sert
Chatbots comment ca marche a quoi ca sert
 
Analyse predictive comment ca marche a quoi ca sert
Analyse predictive comment ca marche a quoi ca sertAnalyse predictive comment ca marche a quoi ca sert
Analyse predictive comment ca marche a quoi ca sert
 
Traduction vocale quasi instantanee introduction
Traduction vocale quasi instantanee introductionTraduction vocale quasi instantanee introduction
Traduction vocale quasi instantanee introduction
 
Automatisation des processus robotises introduction
Automatisation des processus robotises introductionAutomatisation des processus robotises introduction
Automatisation des processus robotises introduction
 
Interfaces conversationnelle introduction
Interfaces conversationnelle introductionInterfaces conversationnelle introduction
Interfaces conversationnelle introduction
 
Reconnaissance d'entites nommees introduction
Reconnaissance d'entites nommees introductionReconnaissance d'entites nommees introduction
Reconnaissance d'entites nommees introduction
 
Generation automatique de textes
Generation automatique de textesGeneration automatique de textes
Generation automatique de textes
 
Intelligence artificielle etroite introduction
Intelligence artificielle etroite introductionIntelligence artificielle etroite introduction
Intelligence artificielle etroite introduction
 
Named entity recognition hoe werkt het wat kunnen we er mee doen
Named entity recognition hoe werkt het wat kunnen we er mee doenNamed entity recognition hoe werkt het wat kunnen we er mee doen
Named entity recognition hoe werkt het wat kunnen we er mee doen
 
Real time voice translation handig maar hoe ver staat het
Real time voice translation   handig  maar hoe ver staat hetReal time voice translation   handig  maar hoe ver staat het
Real time voice translation handig maar hoe ver staat het
 
Wat is predictive analytics en waarvoor kun je het gebruiken
Wat is predictive analytics en waarvoor kun je het gebruikenWat is predictive analytics en waarvoor kun je het gebruiken
Wat is predictive analytics en waarvoor kun je het gebruiken
 
Wat is robotic process automation en wat kun je er mee doen
Wat is robotic process automation en wat kun je er mee doenWat is robotic process automation en wat kun je er mee doen
Wat is robotic process automation en wat kun je er mee doen
 
Exemples europeens comme source d inspiration
Exemples europeens comme source d inspirationExemples europeens comme source d inspiration
Exemples europeens comme source d inspiration
 

Email address reliability_infosession_201311_session_externe_printable

  • 1. Vandy BERTEN Isabelle BOYDENS Section Recherche E-mail Address Reliability
  • 2. Table des matières Introduction Contexte Difficultés et incertitudes Protocoles et mécanismes Syntaxe Contraintes syntaxiques générales et spécifiques Méthodes traditionnelles Propositions Validation Existence d’une adresse Contrôle de consultation Matching Présomptions d’erreurs Dédoublonnage Bonnes pratiques & Conclusions Vandy Berten Isabelle Boydens
  • 4. Novembre 2013 - 4/96Intro – Syntaxe – – Validation – Matching – Conclusions Introduction Contexte & enjeux Organisation On-line vs Batch Exemples Difficultés et incertitudes Protocoles et mécanismes Syntaxe Validation Matching Bonnes pratiques & Conclusions Table des matières Vandy Berten Isabelle Boydens
  • 5. Novembre 2013 - 5/96Intro – Syntaxe – – Validation – Matching – Conclusions • De plus en plus d’administrations ou sociétés utilisent/veulent utiliser les adresses e-mail : – Contacts avec les citoyens/clients – Recommandé électronique (notifications) – V-ICT-OR veut les ajouter au Registre National • Or : – Les DB d’e-mail sont souvent de mauvaise qualité – Les processus mis en place ne permettent en général pas de maintenir un niveau correct Problématique
  • 6. Novembre 2013 - 6/96Intro – Syntaxe – – Validation – Matching – Conclusions • Campagnes de communication: – Jusqu’à 20% de « bounce » – Taux de lecture confirmé faible (± 20-25%) • Certains organismes n’osent pas utiliser leur propres DB … • Pourquoi ? – Quasiment jamais de contrôle en entrée, ou minimaliste – Aucun suivi dans le temps – Incohérence de flux – Cumul d’incertitudes Mauvaise qualité
  • 7. Novembre 2013 - 7/96Intro – Syntaxe – – Validation – Matching – Conclusions • Gains directs : ROI fonction des usages et du contexte: – Man-power réduit si bonne qualité – Communications officielles : diminutions des envois papiers – Gains potentiels à terme en millions d’euros • Gains indirects : – Amélioration des services rendus et de l’efficacité – Crédibilité, législation Qualité : pourquoi l’améliorer
  • 8. Novembre 2013 - 8/96Intro – Syntaxe – – Validation – Matching – Conclusions ROI €0 €500.000 €1.000.000 €1.500.000 €2.000.000 €2.500.000 €3.000.000 Année 1 Année 2 Année 3 Année 4 Année 5 Coût cumulé Gain cumulé Pay-back • Erreur/non lu: 24% → 8% • 2.2M envois / an • 350.000 envois papier économisés / an
  • 9. Novembre 2013 - 9/96Intro – Syntaxe – – Validation – Matching – Conclusions Il existe de nombreuses techniques connues, pas/peu/mal appliquées : • Vérification syntaxique • Validation par envoi d’e-mail de confirmation • Suivi dans le temps par indicateurs de lecture • Rétroaction en cas d’erreur à l’envoi Qualité : comment l’améliorer
  • 10. Novembre 2013 - 10/96Intro – Syntaxe – – Validation – Matching – Conclusions Apports originaux de notre étude : • Amélioration notable de la qualité des tests – Syntaxe spécifique (↗ 15-20%) – Mise en évidence d’adresses suspectes (↗5-10%) – Amélioration des techniques de validation « batch » • Suggestions de correction – Erreurs syntaxiques – Comparaison avec info annexes : nom, prénom • Compilation de best-practices Qualité : comment l’améliorer
  • 11. Novembre 2013 - 11/96Intro – Syntaxe – – Validation – Matching – Conclusions • Cumul d’incertitudes : – Volatilité des usages – Dynamique des noms de domaines – Syntaxe non standard • Nécessité d’un bénéfice ou d’un intérêt des mises à jour pour les utilisateurs • Objectifs de l’étude : – Contrôles et outils performants – Indicateurs de qualité en vue d’un monitoring – Bonnes pratiques de gestion & d’amélioration continue – Organisation adéquate Contexte et enjeux
  • 12. Novembre 2013 - 12/96Intro – Syntaxe – – Validation – Matching – Conclusions Organisation Data Designers Portail Historique des indic. de qualité et events Gestion Documentation Data Managers DQ Tools DataSuppliers(Customers) DB A,B,C batch online Information Managers consult consult Rules analyse
  • 13. Novembre 2013 - 13/96Intro – Syntaxe – – Validation – Matching – Conclusions On-line Batch Sur un portail, à l’enregistrement DB existante Doit être rapide ! On a le temps, étude poussée possible Interroger l’utilisateur → facile Interroger l’utilisateur → plus difficile Envoyer un e-mail + action → facile Envoyer un e-mail → plus difficile Ne dispense pas du batch par la suite! S’applique sur des DB avec ou sans contrôle à l’entrée Si contrôle, se focalise sur l’évolution (DN, usage) On-line vs Batch La plupart des méthodes s’appliquent aux deux
  • 14. Novembre 2013 - 14/96Intro – Syntaxe – – Validation – Matching – Conclusions • La littérature (marketing, technique et e-gov à l’étranger) • Des tests et expériences abondants sur des grandes bases de données (échantillons) • Les Data Quality Tools et des développements propres • 10 ans d’expérience en Data Quality (DQ Cell) • Des contacts multiples avec le terrain, le développement, des services opérationnels et juridiques Étude basée sur …
  • 15. Novembre 2013 - 15/96Intro – Syntaxe – – Validation – Matching – Conclusions Exemple typique de situation • Coûts directs et indirects • Importance d’un contrôle à la source et continu ! • Nécessité d’une rétro-action Unknown 62% Receipt 24% Error 14%
  • 16. Novembre 2013 - 16/96Intro – Syntaxe – – Validation – Matching – Conclusions 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% 1 2 3 4 5 6 7 8 9 10 11 Âge de l’adresse (années) Validité Dégressivité de la validité Essentiel de la difficulté : suivi dans le temps Bonne qualité à l’entrée, dégradation par la suite Nécessite : • Bonne organisation • Indicateurs de qualité • Démarche pro-active • Suivi continu
  • 17. Novembre 2013 - 17/96Intro – Syntaxe – – Validation – Matching – Conclusions Vérification/validation : Étapes Albert.Leroy@smals.be
  • 18. Novembre 2013 - 18/96Intro – Syntaxe – – Validation – Matching – Conclusions Vérification/validation : Étapes Vérification syntaxique • Présence d’un (et un seul) « @ », absence d’espace, … • Standards non respectés : restrictions et extensions Albert.Leroy@smals.be
  • 19. Novembre 2013 - 19/96Intro – Syntaxe – – Validation – Matching – Conclusions Vérification/validation : Étapes Top Level Domain (TLD) • Aujourd’hui : plutôt statique, facile à valider (+/- 280) • Prochainement : .brussels, .vlaanderen, .中国, .இந்தியா, . ‫آزمایشی‬ Albert.Leroy@smals.be
  • 20. Novembre 2013 - 20/96Intro – Syntaxe – – Validation – Matching – Conclusions Vérification/validation : Étapes Nom de domaine (DN) • Dans la pratique : a-z, 0-9, « - », « . » • Dans le futur : accents, autres alphabets (IDN) • Dynamique ; .be : 1300 changements/jour, monde : 300k! Albert.Leroy@smals.be
  • 21. Novembre 2013 - 21/96Intro – Syntaxe – – Validation – Matching – Conclusions Vérification/validation : Étapes Username • Validation a priori (avant envoi) : • Utilisation du protocole SMTP • Validation a posteriori (après envoi) : • Analyse de « bounce » • Contrôle de lecture (image, lien, …) Albert.Leroy@smals.be
  • 22. Novembre 2013 - 22/96Intro – Syntaxe – – Validation – Matching – Conclusions Mécanisme d’envoi d’un e-mail me@exp.com Serveur SMTP (MTA) smtp.exp.com Serveur DNS Serveur MX (MTA) mx.dest.com MX: @dest.com ? mx.dest.com SMTP (Simple Mail Transfer Protocol) DNS (Domain Name System) POP/IMAP him@dest.com him@dest.com MX: Mail eXchange MTA: Mail Transfer Agent
  • 23. Novembre 2013 - 23/96Intro – Syntaxe – – Validation – Matching – Conclusions Envoi d’un e-mail : bounce me@exp.com Serveur SMTP (MTA) smtp.exp.com Serveur DNS Serveur MX (MTA) mx.dest.com MX: @dest.com ? mx.dest.comhom@dest.com him@dest.com hom@dest.com SMTP (Simple Mail Transfer Protocol) DNS (Domain Name System) POP/IMAP MX: Mail eXchange MTA: Mail Transfer Agent
  • 24. Novembre 2013 - 24/96Intro – Syntaxe – – Validation – Matching – Conclusions Envoi d’un e-mail : bounce me@exp.com Serveur SMTP (MTA) smtp.exp.com Serveur DNS Serveur MX (MTA) mx.dest.com MX: @dust.com ? Error!him@dust.com him@dest.com him@dust.com SMTP (Simple Mail Transfer Protocol) DNS (Domain Name System) POP/IMAP MX: Mail eXchange MTA: Mail Transfer Agent
  • 26. Intro – Syntaxe – – Validation – Matching – Conclusions Novembre 2013 - 26/96 Table des matières Introduction Syntaxe Contexte Les standards et la pratique Techniques de contrôle et limites Syntaxes spécifiques Propositions Outils Validation Matching Bonnes pratiques & Conclusions Vandy Berten Isabelle Boydens
  • 27. Intro – Syntaxe – – Validation – Matching – Conclusions Novembre 2013 - 27/96 Contexte • Syntaxe = vérification « orthographique » : – Obligatoire : un (et un seul) arobase (@) – Interdit : espace, virgule, point-virgule – Points non consécutifs, … • Ne dit pas si l’adresse/le domaine/le TLD existe ! • Analogie : – Code postal belge : 4 chiffres – 1234 respecte la syntaxe, mais n’est pas un CP ! – Idem avec les numéros de téléphone • Standards : RFC 5321 et 5322
  • 28. Intro – Syntaxe – – Validation – Matching – Conclusions Novembre 2013 - 28/96 Contexte Erreurs évidentes albert.leroy#smals.be albert.leroy@smals,be albert leroy@smals.be 0471/257 800 Rue Fonsy 20 www.smals.be Erreurs ?? albêrt.leroy@简体中文.com albert.leroy@be albert-leroy@gmail.com albert..leroy@smals.be albert%leroy@blahblah.be albert.leroy@a--b.be ------@hotmail.com albert@ma_boite.be
  • 29. Intro – Syntaxe – – Validation – Matching – Conclusions Novembre 2013 - 29/96 Contexte • Intérêt de vérifier la syntaxe ? – Batch : Identifier des erreurs présentes – On-line : Détection des erreurs à un stade précoce (avant envoi d’e-mail de confirmation) • Dans la pratique : – Beaucoup de portails (officiels) sans le moindre contrôle ou minime – Souvent : contrôles beaucoup trop stricts • Problème des flux d’entrée multiples : – Un point d’entrée avec contrôle, un autre sans contrôle
  • 30. Intro – Syntaxe – – Validation – Matching – Conclusions Novembre 2013 - 30/96 Standards « Mail » Standards « DNS » • Syntaxe « classique » : • [a-z], [0-9] • « . » et « - » (non consécutifs, pas en début ou en fin) • Dernière partie (TLD) : [a-z]{2,6} • Nouveautés : • gTLD : .brussels, .vlaanderen, … • IDN : ñandú.cl , 简体中文.com, … • IDN ccTLD : .中国, .இந்தியா, . ‫,آزمایشی‬ .рф, … • Caractères normaux et accentués (case sensitive) • .!#$%&'*+-/=?^_`{|~” • Points non consécutifs, pas en début ou en fin Syntaxe : que disent les standards ? Albert.Leroy@smals.be
  • 31. Intro – Syntaxe – – Validation – Matching – Conclusions Novembre 2013 - 31/96 Dans la pratique ? • Partie « nom de domaine » : – Respect imposé par la structure « DNS » – Un nom de domaine non-conforme n’apparait pas dans les tables • Partie « username » : – Uniquement évaluée par le serveur mail de destination – Username attribué par l’organisation qui le gère → une certaine liberté malgré les standards ! – Dans la pratique : beaucoup plus restrictif que la norme – Rarement case sensitive – Certains acceptent des extensions
  • 32. Intro – Syntaxe – – Validation – Matching – Conclusions Novembre 2013 - 32/96 Syntaxe spécifique : intérêt ? • Il est facile de trouver la syntaxe spécifique pour la plupart des grands fournisseurs (Gmail, Hotmail, Belgacom, Telenet, …) • Sur certaines DB étudiées : 85% des adresses ! • Permet d’être beaucoup plus restrictif sur ce qu’on laisse passer, sans risquer les « faux négatifs »
  • 33. Intro – Syntaxe – – Validation – Matching – Conclusions Novembre 2013 - 33/96 Syntaxe spécifique : exemples • Hotmail-live-outlook-…, Belgacom-skynet- …, telenet, pandora : – « a-z » « 0-9 » « - » « _ » « . » – Pas de points consécutifs, en début ou en fin • Yahoo : – « a-z » « 0-9 » « _ » « . » (pas le tiret !) – Maximum un point – 1er : a-z ; dernier : a-z, 0-9 – Entre 4 et 32 caractères – Si un point : 4 caractères après
  • 34. Intro – Syntaxe – – Validation – Matching – Conclusions Novembre 2013 - 34/96 Syntaxe spécifique : Gmail • « a-z », « 0-9 », « . », « + » • Entre 6 et 30 caractères, en ignorants les points et ce qui suit le « + » • Plus de 8 caractères : minimum une lettre • Les points sont ignorés, « + » débute un commentaire. Sont équivalents et légaux : – albert.leroy@gmail.com – albertleroy@gmail.com – albert.leroy+blahblah@gmail.com – albert..leroy@gmail.com – .albert.leroy.@gmail.com Interdits par les standards !
  • 35. Intro – Syntaxe – – Validation – Matching – Conclusions Novembre 2013 - 35/96 Comment vérifier ? • Technique de vérification la plus répandue : les expressions régulières • Sorte de mini-langage de programmation, utilisable de façon (quasi) standard par (quasi) tous les langages • Très puissant pour vérifier qu’une chaîne de caractères rencontre bien certaines contraintes • A malgré tout quelques limites
  • 36. Intro – Syntaxe – – Validation – Matching – Conclusions Novembre 2013 - 36/96 Expressions régulières ^[a-z0-9._%+-]+@[a-z0-9.-]+.[a-z]{2,6}$ Une séquence d’au moins un caractère (+) contenant des éléments de la liste Une séquence d’au moins un caractère (+) contenant des éléments de la liste Entre 2 et 6 lettres (TLD) Le début L’arobase (@) Le point La fin
  • 37. Intro – Syntaxe – – Validation – Matching – Conclusions Novembre 2013 - 37/96 Expressions régulières • On trouve beaucoup de variantes d’expressions régulières de vérification d’e-mail • La plupart conviennent pour l’énorme majorité des adresses en cours • Certaines acceptent beaucoup trop • D’autres refusent des adresses valides • Parfois : totalement illisible
  • 38. Intro – Syntaxe – – Validation – Matching – Conclusions Novembre 2013 - 38/96 Expression régulière : exemples • Champ « email » en HTML : ^[a-z0-9.!#$%&’*+/=?^_`{|}~-]+@ [a-z0-9-]+(.[a-z0-9-]+)*$ – N’accepte pas les accents – Accepte …@--.--, a@b.55 • Expression commune : ^[a-z0-9._%+-]+@[a-z0-9.-]+.[a-z]{2,4}$ – Petite liste de caractères – N’accepte pas les TLD .museum ou .travel – Accepte …@---...be – Refuse albert@be
  • 39. Intro – Syntaxe – – Validation – Matching – Conclusions Novembre 2013 - 39/96 Expressions régulières : exemples • Dans une libraire Javascript répandue : • ^((([a-z]|d|[!#$%&'*+-/=?^_`{|}~]|[u00A0-uD7FFuF900-uFDCFuFDF0- uFFEF])+(.([a-z]|d|[!#$%&'*+-/=?^_`{|}~]|[u00A0-uD7FFuF900-uFDCFuFDF0- uFFEF])+)*)|((x22)((((x20|x09)*(x0dx0a))?(x20|x09)+)?(([x01-x08x0bx0cx0e- x1fx7f]|x21|[x23-x5b]|[x5d-x7e]|[u00A0-uD7FFuF900-uFDCFuFDF0- uFFEF])|(([x01-x09x0bx0cx0d-x7f]|[u00A0-uD7FFuF900-uFDCFuFDF0- uFFEF]))))*(((x20|x09)*(x0dx0a))?(x20|x09)+)?(x22)))@((([a-z]|d|[u00A0- uD7FFuF900-uFDCFuFDF0-uFFEF])|(([a-z]|d|[u00A0-uD7FFuF900-uFDCFuFDF0- uFFEF])([a-z]|d|-|.|_|~|[u00A0-uD7FFuF900-uFDCFuFDF0-uFFEF])*([a-z]|d|[u00A0- uD7FFuF900-uFDCFuFDF0-uFFEF]))).)+(([a-z]|[u00A0-uD7FFuF900-uFDCFuFDF0- uFFEF])|(([a-z]|[u00A0-uD7FFuF900-uFDCFuFDF0-uFFEF])([a-z]|d|-|.|_|~|[u00A0- uD7FFuF900-uFDCFuFDF0-uFFEF])*([a-z]|[u00A0-uD7FFuF900-uFDCFuFDF0- uFFEF]))).?$ • Accepte beaucoup de caractères (y compris chinois, arabe, …) • Accepte « " albert.leroy "@smals.be » • Rejette « albert@be » • Accepte « albert@gm..--ail.c0m »
  • 40. Intro – Syntaxe – – Validation – Matching – Conclusions Novembre 2013 - 40/96 Expressions régulières spécifiques • Pour les domaines pour lesquels on connait une syntaxe spécifique (Hotmail, Yahoo, Gmail, …), on peut proposer un test spécifique sur le « username ». • Exemple pour Hotmail : ^[a-z0-9_-](.[a-z0-9_-]+)*$ • Pour d’autres, des tests supplémentaires sont nécessaires
  • 41. Intro – Syntaxe – – Validation – Matching – Conclusions Novembre 2013 - 41/96 Expressions régulières : les limites • Problème : – Soit trop contraignant – Soit trop laxiste • Difficile de tout vérifier avec une expr. régulière • Notre proposition : vérifier en 2 temps : – Éliminer des adresses certainement fausses avec un test laxiste – Identifier des adresses suspectes avec un test très (trop) contraignant • On-line : demander confirmation • Batch : ajouter dans une liste « à contrôler » – Ce qui reste : correct (→ tests spécifiques)
  • 42. Intro – Syntaxe – – Validation – Matching – Conclusions Novembre 2013 - 42/96 Proposition : Trois catégories Adresse e-mail Contrainte laxiste (Condition nécessaire) Contrainte forte (Condition suffisante) succès Adresse correcte succès Adresse incorrecte échec Adresse suspecte échec
  • 43. Intro – Syntaxe – – Validation – Matching – Conclusions Novembre 2013 - 43/96 Proposition : Trois catégories Adresse e-mail ^[^@,;:s]+@[^@,;:s+]+$ ^[a-z0-9’+_.-]@[a-z0-9.-].[a-z]{2,4}$ succès Adresse correcte succès Adresse incorrecte échec Adresse suspecte échec
  • 44. Intro – Syntaxe – – Validation – Matching – Conclusions Novembre 2013 - 44/96 Proposition : Trois catégories Adresse e-mail ^[^@,;:s]+@ ([^@,;:s+.-]+([-.][^@,;:s+.-]+)*)$ ^[a-z0-9’+_-]+(.[a-z0-9’+_-]+)*@ ([a-z0-9]+([-.][a-z0-9]+)*).[a-z]{2,4}$ succès Adresse correcte succès Adresse incorrecte échec Adresse suspecte échec
  • 45. Intro – Syntaxe – – Validation – Matching – Conclusions Novembre 2013 - 45/96 Proposition : Quatre catégories Adresse e-mail Contrainte laxiste Contrainte forte succès Contrainte spécifique au DN Adresse correcte succès Adresse incorrecte échec Adresse suspecte échec Adresse incorrecte (spécifique au DN) échec succès ou pas applicable
  • 46. Intro – Syntaxe – – Validation – Matching – Conclusions Novembre 2013 - 46/96 Suggestions de correction • Idée : si possible, proposer une correction • Avantage : souvent difficile de localiser une faute de frappe • Erreurs classiques : – albert.leroysmals.be – albert.leroy@|smals.be – albert.leroy#smals.be – albert,leroy@smals.be – albert.leroy @smals.be – albert.leroy@smals – albêrt.leroy@smals.be – albert-leroy@gmail.com albert.leroy@smals.be albert.leroy@gmail.com
  • 47. Intro – Syntaxe – – Validation – Matching – Conclusions Novembre 2013 - 47/96 Outils • Librairies : http://isemail.info • Discussion : http://www.regular-expressions.info • HTML 5 : champ « email » • Librairies standards dans certains langages. Java : org.apache.commons.validator.EmailValidator • Développement propres • À notre connaissance : – Jamais de tests « spécifiques » – Toujours correct/incorrect, pas de cas suspects
  • 48. Intro – Syntaxe – – Validation – Matching – Conclusions Novembre 2013 - 48/96 PoC
  • 49. Intro – Syntaxe – – Validation – Matching – Conclusions Novembre 2013 - 49/96 PoC
  • 50. Intro – Syntaxe – – Validation – Matching – Conclusions Novembre 2013 - 50/96 Syntaxe : l’essentiel Plus complexe que ce que l’on pense ! Tests binaires = trop laxistes, ou trop contraignants Tests spécifiques au domaine ⇒ ↗ précision Adresses suspectes ⇒ limite les faux positif/négatif
  • 51. Intro – Syntaxe – – Validation – Matching – Conclusions Novembre 2013 - 51/96 Questions ?
  • 52. Intro – Syntaxe – – Validation – Matching – Conclusions Novembre 2013 - 52/96 Pause !
  • 54. Novembre 2013 - 54/96Intro – Syntaxe – – Validation – Matching – Conclusions Table des matières Introduction Syntaxe Validation Validation du nom de domaine Validation d’adresse Contrôle de lecture Limites et difficultés Outils Matching Bonnes pratiques & Conclusions Vandy Berten Isabelle Boydens
  • 55. Novembre 2013 - 55/96Intro – Syntaxe – – Validation – Matching – Conclusions Contexte • Une adresse syntaxiquement correcte n’implique pas qu’elle existe ! • Une adresse qui existe n’est pas toujours consultée • Existence d’une adresse : – Le nom de domaine – L’adresse elle-même • Contrôle de lecture : – Insertion d’image – Lien unique
  • 56. Novembre 2013 - 56/96Intro – Syntaxe – – Validation – Matching – Conclusions Contexte : portail on-line • Une nouvelle adresse devrait être confirmée (envoi d’un lien à cliquer) • Beaucoup de portails ne le font pas → à nettoyer en batch • Validation initiale : nécessaire, mais ne permet pas de maintenir la qualité dans le temps • Forcer une revalidation fréquente peut être contraignant et intrusif • On peut parfois automatiser cette validation
  • 57. Novembre 2013 - 57/96Intro – Syntaxe – – Validation – Matching – Conclusions Mécanisme de validation me@exp.com Serveur DNS Serveur MX (MTA) mx.dest.com MX: @dest.com ? mx.dest.com SMTP DNS him@dest.com Validation adresse Validation nom de domaine
  • 58. Novembre 2013 - 58/96Intro – Syntaxe – – Validation – Matching – Conclusions Validation : conversation SMTP C:>telnet gmail-smtp-in.l.google.com. 25 Trying 173.194.78.26... Connected to gmail-smtp-in.l.google.com. [...] EHLO bxl.mapetitesociete.be 250-mx.google.com at your service, [91.xx.xx.xx][...] MAIL FROM:<albert.leroy@bxl.mapetitesociete.be> 250 2.1.0 OK pn9si6796wjc.42 - gsmtp RCPT TO:<leroy.mariecelestine@gmail.com> 550-5.1.1 The email account that you tried to reach does not exist. [...] RCPT TO:<mariecelestine.leroy@gmail.com> 250 2.1.5 OK pn9si6796wjc.42 - gsmtp QUIT 221 2.0.0 closing connection pn9si6796wjc.42 – gsmtp
  • 59. Novembre 2013 - 59/96Intro – Syntaxe – – Validation – Matching – Conclusions Limites et difficultés (domaine) • Validation nom de domaine : très fiable • Si incorrect, deux cas : – Le nom de domaine n’existe pas – Il existe, mais pas d’e-mail associé (No MX record) • Quelques cas rares de « time-out » → réessayer • Faible risque de blacklisting en vérification batch
  • 60. Novembre 2013 - 60/96Intro – Syntaxe – – Validation – Matching – Conclusions Limites et difficultés (adresse) • Validation adresse : beaucoup d’incertitudes ! • Réponse difficile à interpréter • Si source pas clairement identifiée : – Greylisting (explicite) – Catch-all (implicite) • En cas de requête massive : risque de blacklist ! • Recyclage des adresses 550 Service unavailable; Client host [xxx.xxx.xxx.xxx] blocked using dnsbl.njabl.org; spam source 550 MAILBOX NOT FOUND 550 <john@foo.bar>... User unknown 550 5.7.2 This smells like Spam 550 <john@foo.de>. Benutzer hat zuviele Mails auf dem Server. 554 Delivery error Sorry your message to joe@foo.bar cannot be delivered. [#102] > 20-25% depuis un PC « standard »
  • 61. Novembre 2013 - 61/96Intro – Syntaxe – – Validation – Matching – Conclusions Validation d’adresse Tester albert.leroy@domaine.com Clair : invalide Pas clair, grey- list, timeout, …Clair : valide Adresse invalide Adresse incertaine Tester xiq.kyhbzrnrh8bf3slfvsox9 @domaine.com Valide Invalide Adresse incertaine (Catch all) Adresse valide
  • 62. Novembre 2013 - 62/96Intro – Syntaxe – – Validation – Matching – Conclusions Dégressivité par domaine 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 Validité adresses Proportion vs total Gmail Hotmail Skynet
  • 63. Novembre 2013 - 63/96Intro – Syntaxe – – Validation – Matching – Conclusions Contrôle de lecture • Quelques techniques pour s’assurer qu’une adresse est toujours active, mais rien de très fiable • Accusé de réception (Outlook & co) : pas standard, pas inter-plateforme • Présence de lien « unique » à cliquer – Il faut une raison de cliquer ! • Présence d’une image « unique » – Il faut accepter d’afficher les images
  • 64. Novembre 2013 - 64/96Intro – Syntaxe – – Validation – Matching – Conclusions Lien unique To:albert.leroy@smals.be www.smals.be albert.leroy @smals.be : OK + date <a href="http://mysite.com/redir? m=albert.leroy@smals.be&a=www.smals.be"> www.smals.be</a> www.mysite.com/redir • Variantes : crypter/masquer le contenu, passer via une base de données • Il faut une bonne raison de cliquer ! • Indispensable à l’enregistrement (e-mail de confirmation)
  • 65. Novembre 2013 - 65/96Intro – Syntaxe – – Validation – Matching – Conclusions Image unique To:albert.leroy@smals.be <img src="http://mysite.com/ albert.leroy@smals.be.gif"> mysite.com albert.leroy @smals.be : OK + date Remarque : • Souvent un pixel blanc (invisible) • Il faut accepter les images !
  • 66. Novembre 2013 - 66/96Intro – Syntaxe – – Validation – Matching – Conclusions Image unique • Inconvénient : beaucoup de systèmes désactivent les images distantes par défaut 0 50 100 150 200 250 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 >20 Délai lecture Unknown 62% Receipt 24% Error 14%
  • 67. Novembre 2013 - 67/96Intro – Syntaxe – – Validation – Matching – Conclusions Outils (Existence) • Peu d’outils du marché fiables ! • Les plus fiables : – http://verify-email.org, – http://tools.email-checker.com – Limités à quelques requêtes/24h – Version professionnelle payante • Quelques logiciels, mais tournent en « local » • Développement propre plus performant
  • 68. Novembre 2013 - 68/96Intro – Syntaxe – – Validation – Matching – Conclusions Outils : ServiceObjects • Web service avancé de vérification et validation • Vérification syntaxique spécifique • Correction d’erreurs • Identification des serveurs « catch-all » • Réponse avec degré de certitude • Outil similaire moins avancé : StrikeIron
  • 69. Novembre 2013 - 69/96Intro – Syntaxe – – Validation – Matching – Conclusions Outils (Contrôle de lecture) • www.bananatag.com : intégré à Gmail ou Outlook. Ajoute une image + adapte les liens • www.spypig.com, TailMail : génère une image à intégrer manuellement • www.MsgTag.com : « proxy SMTP » pour client mail. Ajoute une image
  • 70. Novembre 2013 - 70/96Intro – Syntaxe – – Validation – Matching – Conclusions PoC
  • 71. Novembre 2013 - 71/96Intro – Syntaxe – – Validation – Matching – Conclusions
  • 72. Novembre 2013 - 72/96Intro – Syntaxe – – Validation – Matching – Conclusions
  • 73. Novembre 2013 - 73/96Intro – Syntaxe – – Validation – Matching – Conclusions Validation : l’essentiel Existence du domaine : très fiable Contrôle de lecture : • Lu : très fiable • Pas d’accusé = pas d’information Existence de l’adresse : • Fausse/Correcte : ± fiable • Beaucoup d’inconnu (catch-all, greylist, …) Seule validation fiable : envoi d’un e-mail avec action obligatoire
  • 75. Novembre 2013 - 75/96Intro – Syntaxe – – Validation – Matching – Conclusions Table des matières Introduction Syntaxe Validation Matching Contexte Matching interne (informations annexes) Matching sur nom de domaine Dédoublonnage Suggestions Difficultés Outils Bonnes pratiques & Conclusions Vandy Berten Isabelle Boydens
  • 76. Novembre 2013 - 76/96Intro – Syntaxe – – Validation – Matching – Conclusions Contexte • Matching : classique en Data Quality • But : comparer des infos identiques ou similaires • Différentes utilités : – Matching interne : dans un « record », utiliser la redondance pour croiser des info → suspicion d’erreurs (nom/prénom/e-mail) – Dédoublonnage : « records » similaires → suspicion de doublons – Domaine connu : similitude avec des domaines fréquents → suspicion d’erreurs (nom de domaine) • Ne permet pas de détecter des erreurs, mais de les soupçonner
  • 77. Novembre 2013 - 77/96Intro – Syntaxe – – Validation – Matching – Conclusions Contexte • Basé sur des algorithmes de similitude (Métaphone, Soundex, Jaro, Levenshtein,…) • On pourra suggérer des corrections : – En on-line : à l’utilisateur à l’encodage – En batch : aux gestionnaires – Décision automatique difficile ou risquée • Dans certaines DB observées : présence du nom/prénom dans 85% des adresses !
  • 78. Novembre 2013 - 78/96Intro – Syntaxe – – Validation – Matching – Conclusions Matching interne : info annexes Nom Prénom E-mail Leroy Albert albert.leroy@smals.be Nom Prénom E-mail Leroy Albert ablert.leroy@smals.be Nom de société E-mail Les meilleurs asbl lesmeilluers@gmail.com Nom Prénom E-mail Leroy Ablert albert.leroy@smals.be
  • 79. Novembre 2013 - 79/96Intro – Syntaxe – – Validation – Matching – Conclusions Exemple réel (anonymisé) Nom Prénom E-mail Elbarkani Ahmine ahmine.elarkani@hotmail.com Detimmerman Alain alain.detimemrman@gmail.com Delsaux Adèle adeledelvaux@swing.be Vandenberghe Arnaud arnaud.vandenbeghe@skynet.be Desmedt Geert geertdesmet@hotmail.com Piotrowski Alexander alexandre.piotrowski@telenet.be Lanoy Caroline carolanoy@hotmail.fr Michel Charles-Édouard charlesedou.michel@yahoo.fr Hammoud Haffsa hafssa.hammoud@gmail.com Mabrouk Tarik mabrouk.tarek@gmail.com Wouters Idalie woutersodalie@yahoo.fr
  • 80. Novembre 2013 - 80/96Intro – Syntaxe – – Validation – Matching – Conclusions Matching interne : domaines connus hotmail hotmal hotamil hotmial hotmaill hotmmail hiotmail … gmail … gmali gemail gmial gmailo gmaill gmal
  • 81. Novembre 2013 - 81/96Intro – Syntaxe – – Validation – Matching – Conclusions Suggestion de correction Albert Leroy albert.leryo@smals.be Albert Leroy albert.leroy@smals.be Albert Leryo albert.leryo@smals.be albert.leroy@gmial.com albert.leroy@gmail.com
  • 82. Novembre 2013 - 82/96Intro – Syntaxe – – Validation – Matching – Conclusions Dédoublonnage • Les techniques classiques de dédoublonnage peuvent être utilisées pour détecter des doublons dans une DB • Il faut se servir de différentes informations pour établir un double • En général, on établit un « classement » : double très probable (beaucoup d’information similaire) → double moins probable • Parfois beaucoup plus que deux !
  • 83. Novembre 2013 - 83/96Intro – Syntaxe – – Validation – Matching – Conclusions Dédoublonnage Albert Leroy albert.leroy@gmail.com Albert Leroy albert.leroy@hotmail.com Albert Lenoy albert.lenoy@gmail.com Distance plus courte Doublon plus probable ?
  • 84. Novembre 2013 - 84/96Intro – Syntaxe – – Validation – Matching – Conclusions Difficultés • Difficile à paramétrer ! • On a vite beaucoup de faux positifs • Faux positifs intentionnels : – Translittération : Tarik vs Tarek – Traduction : Alexander vs Alexandre – Diminutif/surnom : Jacques vs Jacky
  • 85. Novembre 2013 - 85/96Intro – Syntaxe – – Validation – Matching – Conclusions Outils • Le matching et dédoublonnage sont des tâches complexes, nécessitant beaucoup de « tuning » • Seuls des outils spécialisés de Data Quality y arrivent correctement • Gratuit : OpenRefine • Propriétaire : – IntoDQ (Trillium) – RedPoint – HumanInference Pas de modules spécifiques aux e-mails mais largement paramétrables
  • 86. Novembre 2013 - 86/96Intro – Syntaxe – – Validation – Matching – Conclusions PoC
  • 87. Novembre 2013 - 87/96Intro – Syntaxe – – Validation – Matching – Conclusions
  • 88. Novembre 2013 - 88/96Intro – Syntaxe – – Validation – Matching – Conclusions Matching : l’essentiel But : suspecter/identifier des cas douteux Matching interne : erreur dans le nom/prénom/e-mail Purement empirique ! ⇒ Traitement humain souvent nécessaire (facilité par les suspicions) Dédoublonnage : données similaires Domaine connu : erreur dans le nom de domaine
  • 90. Novembre 2013 - 90/96Intro – Syntaxe – – Validation – Matching – Conclusions Organisation • Organisation rigoureuse et contrôlée du système d’information : – Définition de services et sources authentiques validées, en fonction des enjeux et usages – Flux, processus et intervenants humains • Arbitrage en fonction des enjeux – Coûts versus moyens disponibles – Validité versus rapidité de traitement – Fréquence rappels versus caractère intrusif auprès du public • Point fondamental : prise en compte de la validité dégressive dans le temps des adresses e-mail
  • 91. Novembre 2013 - 91/96Intro – Syntaxe – – Validation – Matching – Conclusions Bonnes pratiques : encodage/update Authentification forte (eID) Encodage Vérif./Valid./Matching SuggestionSuggestion Envoi e-mail confirmation Authentification (eID) + action Accès ouvert DB : date validation suspicionerreur confirmation OK Scénarios analogues à prévoir : - Confirmation jamais cliquée - Cas d’adresse erronée Indicateurs de qualité
  • 92. Novembre 2013 - 92/96Intro – Syntaxe – – Validation – Matching – Conclusions Bonnes pratiques : envoi d’un e-mail Envoi d’un e-mail Confirmation de lecture Marquer la DB Bounce Marquer la DB Actions à envisager (suppression, autre moyen de contact, …) Délai depuis la dernière confirmation Portail : « L’adresse … est- elle toujours valide ? » E-mail : « Merci de confirmer l’adresse …» Bloquer l’accès + envoi d’un e-mail
  • 93. Novembre 2013 - 93/96Intro – Syntaxe – – Validation – Matching – Conclusions Stratégies de bonne gestion • Catégorisation pour tenir compte de l’incertitude : – Correct – Incorrect – Incertain • Minimiser l’intervention manuelle : – Exemples : suggestions de corrections semi- automatiques • Historique des événements et indicateurs de qualité – Datés (timestamp) – Associés à chaque record de la DB – Quantification continue des events et indicateurs
  • 94. Novembre 2013 - 94/96Intro – Syntaxe – – Validation – Matching – Conclusions Suivi de la validité dans le temps • Monitoring de la base de données et stratégies de gestion en fonction des enjeux : – Exemples : actions en vue d’une meilleure visibilité, suivi des améliorations liées à une action, … • Gains importants si l’on adopte une stratégie proactive et continue €0 €500.000 €1.000.000 €1.500.000 €2.000.000 €2.500.000 €3.000.000 Année 1 Année 2 Année 3 Année 4 Année 5 Coût cumulé Gain cumulé
  • 95. Novembre 2013 - 95/96Intro – Syntaxe – – Validation – Matching – Conclusions Conclusions Complexité de la gestion Difficulté : dégressivité dans le temps Syntaxe spécifique : améliore la qualité Pro-action ! Catégorisation binaire : laxiste ou restrictive → Suspicions Peu de déterminisme, beaucoup d’incertitude Importance d’un suivi continu et d’une bonne organisation Souvent, gains importants
  • 96. Novembre 2013 - 96/96Intro – Syntaxe – – Validation – Matching – Conclusions Vandy Berten 02/787.57.32 vandy.berten@smals.be Isabelle Boydens 02/787.59.92 isabelle.boydens@smals.be More on Smals Research Website Smals : www.smals.be Blog : blogresearch.smalsrech.be Twitter : twitter.com/smalsresearch
  • 98. Expressions régulières spécifiques • Hotmail & Co (partie username) : ^[a-z0-9_-](.[a-z0-9_-]+)*$ • Yahoo : ^[a-z][a-z0-9_]*([.][a-z0-9_]{3,})?[a-z0-9]$ ^[a-z0-9_.]{4,32}$ En une seule expression ?
  • 99. Expressions régulières spécifiques • Gmail : ^[a-z0-9.+]+$ • Contraintes supplémentaires : – entre 6 et 30 caractères, sans compter les points et ce qui suit le « + ». Expression régulière ??? – Si + de 8 caractères : au moins une lettre • Alternative plus compacte mais incomplète : ^[a-z0-9.+]{6,}$
  • 100. Références • I. Boydens, «Strategic Issues Relating to Data Quality for E-government: Learning from an Approach Adopted in Belgium» In « Practical Studies in E-Government: Best Practices from Around the World », New York, Springer, pp. 113-130 (chapitre 7), 2011. • Y. Bontemps, I. Boydens et D. Van Dromme, «Data Quality: tools», Bruxelles, Smals, 2007. • I. Boydens, «Informatique, normes et temps», Bruxelles, Bruylant, 1999. • I. Boydens, A. Hulstaert et D. Van Dromme, «Gestion intégrée des anomalies», Bruxelles, Smals, 2011.
  • 101. Glossaire • DNS : Domain Name System • gTLD : generic Top Level Domain • IDN : Internationalized Domain Name • MTA : Mail Transfer Agent • MX : Mail eXchange • SMTP : Simple Mail Transfer Protocol • TLD : Top Level Domain