#SPFestDC Migrate your custom solutions to the modern stack
#Collab365 L'importance des métadonnées pour votre entreprise
1. Online Conference
June 17th and 18th 2015
WWW.COLLAB365.EVENTS
L’importance des métadonnées pour
votre entreprise
2. WWW.COLLAB365.EVENTS
Vincent BIRET
Email : vbiret@outlook.com
Twitter : @baywet
Blog : bit.ly/vincentbiret
LinkedIn :ca.linkedin.com/in/vbiret
SharePoint MVP
Products Team Tech Lead
Montreal
4. WWW.COLLAB365.EVENTS
Pourquoi s’intéresser aux métadonnées?
• Améliore la navigation
• Améliore la trouvabilité
– (fait de trouver ce qu’on cherche)
• Améliore la découvrabilité
– (fait de trouver ce qu’on ne cherche pas)
• Améliore l’expérience utilisateur
• Permet la mise en place de gouvernance
• Economie/gain important pour la compagnie
Objectifs
9. WWW.COLLAB365.EVENTS
• Faciliter la recherche/découverte d'information
– décrire le contenu et les relations entre les fichiers d'un site,
– classer le contenu suivant un public cible,
– mieux référencer un site ou une page sur Internet.
• Faciliter l'interopérabilité
– partager et échanger des informations.
• Faciliter la gestion et l'archivage
– informer sur le cycle de vie des documents,
– gérer des collections de ressources,
– gérer des archives électroniques.
• Gérer et protéger les droits
– les droits de propriété intellectuelle,
– les droits d'accès à des pages web (restrictions de consultation).
Les métadonnées se définissent par leur fonction
10. WWW.COLLAB365.EVENTS
• Métadonnées bibliographiques, permettant d'accéder au document (auteur,
titre, date de création, date de modification,...)
• Métadonnées administratives, pour la conservation des ressources, et les
métadonnées juridiques, qui concernent la gestion d’un document (comme
sa durée d'utilité administrative) ou son régime de droit
• Métadonnées techniques, indiquant le format, les techniques de
production, le support...
• Métadonnées de description, pour en comprendre le contenu
Les types de métadonnées
11. WWW.COLLAB365.EVENTS
Dublin CoreLes éléments du Dublin Core
Titre Le nom donné à la ressource
Créateur L’entité principalement responsable de la création du contenu de la ressource
Sujet Le sujet du contenu de la ressource (vocabulaires contrôlés et schémas formels de classification encouragés)
Description Une description du contenu de la ressource (ex. résumé, table des matières, texte libre…)
Éditeur L’entité responsable de la diffusion de la ressource, tels un département universitaire, une entreprise
Contributeur Une entité qui a contribué à la création du contenu de la ressource
Date Une date associée avec un événement dans le cycle de vie de la ressource (format : voir ISO 8601)
Type Nature ou genre (ex. catégories, fonctions, genre généraux… vocabulaire contrôlé recommandé, voir liste Dublin Core)
Format
La matérialisation physique ou digitale de la ressource (il est recommandé de choisir la valeur du format dans une liste de
vocabulaire contrôlé – voir par exemple la liste MIME)
Identifiant Une référence non ambiguë à la ressource dans un contexte donné (exemples : URI, URL, DOI, ISBN)
Source Une référence à une ressource à partir de laquelle la ressource actuelle a été dérivée
Langue La langue du contenu intellectuel de la ressource
Relation Une référence à une autre ressource qui a un rapport avec cette ressource
Couverture La portée ou la couverture spatio-temporelle de la ressource (position géographique, période de temps, juridiction)
Droits Information sur les droits sur et au sujet de la ressource (propriété intellectuelle – IPR, Copyright,…)
13. WWW.COLLAB365.EVENTS
• Un vocabulaire contrôlé est un lexique dont le but est de rendre
possible l'organisation des connaissances afin d'optimiser la
recherche d'information
• Les schémas de classification (taxonomie, thésaurus, ontologie)
utilisent un vocabulaire contrôlé.
Vocabulaire contrôlé
14. WWW.COLLAB365.EVENTS
Taxonomie
• Relation de subsomption, dite «est-un»
• Transitivité:
– si C est un sous-type de B et B un sous-type de A alors C est
un sous-type de A.
• intention / extension:
– à des intentions incluses i1 ⊂ i2 correspondent des
extensions incluses e1 ⊃ e2
Ensemble {voiture} ⊂ Ens {véhicule}
Déf (voiture) ⊃ Déf (véhicule)
Véhicules
Véhicule
terrestre
Voiture
Camion
Autobus
Véhicule
aérien
Avion
Mongolfière
Fusée
Véhicule
maritime
Canot
Paquebot
15. WWW.COLLAB365.EVENTS
• Elargissement de la taxonomie
• Hiérarchie + autres propriétés
Thésaurus
Concept ou Terme préférentiel Automobile
Terme(s) générique(s) [TG] Véhicule
Terme(s) spécifique(s) [TS]
Domaines véhicule - transport [MT 3330]
Variante(s) régionale(s)
Équivalent(s) anglais car
Terme(s) associé(s) [TA] métier : transport [MT 6005]
technique automobile [MT 3510]
16. WWW.COLLAB365.EVENTS
• Les relations ontologiques partitives :
– Partie-tout (automobile, carrosserie, châssis, roues, moteur)
– composant-composé (fer, acier)
– contenu-contenant (paquet de cigarettes, cartouche)
– membre-collection ( footballeur, équipe).
• Les relations associatives
– Relations d’expérience (onde, télédétection)
– relations séquentielles de cause-effet (détonateur, explosion)
– agent-action-résultat (dessinateur, dessiner, dessin)
– producteur-produit (déchetterie, produits recyclés)
– outil-outil (vis, tournevis)
– procédé-processus (unité de fabrication initiale, unité de fabrication finale.)
– relation topologique situe un objet par rapport à un autre (molaire, prémolaire).
Ontologie
18. WWW.COLLAB365.EVENTS
• « Folksonomie », de "folk" (gens) et "taxonomies"
désigne l’indexation par des mots clés (tags) de façon
spontanée, sans classement prédéfini.
• C’est un processus d'indexation collaborative (appelée
aussi « social tagging »)
Folksonomie
20. WWW.COLLAB365.EVENTS
• Dénomination = expression linguistique
• Concept (notion) = signification
• Terme = Dénomination + Concept
• Le terme doit être contextualisé pour déduire un concept
• Ex table
Table de concertation?
Table de discussion?
Table ronde?
Table des matières?
Table à café?
Table basse?
Concepts
21. WWW.COLLAB365.EVENTS
• Les principaux types d’entités:
– noms de personnes,
– de lieux,
– d’organisations,
– de produits
– dates,
– unités monétaires
Entités nommées
22. WWW.COLLAB365.EVENTS
Schémas de classification
Schéma de
classification
Taxonomie Thésaurus Ontologie Folksonomie Classification à
facettes
Organisation
Organisation
hiérarchique
simple
Relations
hiérarchiques
(hyponymie,
hyperonymie),
associatives,
d'équivalence
Représentation de
concepts avec
types, propriétés
et relations
Tags librement
attribués par des
utilisateurs
Système permettant
de décrire une
ressource selon
plusieurs angles
(facettes)
Type de
relations
« est-un » « est-un »
« sorte de »
« relatif à »
« synonyme »
« équivalent »
« contient »
« est localisé»
« utilise »
« produit »
« … »
« prix »
« produit »
« genre »
Contexte Bibliothèque Web 3.0 Web 2.0
Exemple Dewey Rameau Cyc, Wordnet Flickr, YouTube Amazon
25. WWW.COLLAB365.EVENTS
• Une structure de dossiers est une forme de métadonnées
• Très simple à mettre en place
• Complexe à modifier
• Tips
– Ne pas utiliser à moins de devoir appliquer de la sécurité
Dossiers
26. WWW.COLLAB365.EVENTS
• Avantages:
– Recherche
– Filtrage
– Contrôle poussé
– Consistance
• Inconvénients:
– Long à mettre en place
• Tips
– Servez vous des requêtes souvent effectuées pour améliorer votre taxonomie!
– Déléguez la gestion de certaines branches
– Pour les taxonomies non finalisées, préférez la folksonomie
Taxonomie
27. WWW.COLLAB365.EVENTS
• Avantages:
– Plus faciles et flexibles pour usagers
– Prend en compte les mots clefs des documents
• Inconvénients:
– Plus difficiles à gérer
– Pas de contexte
Enterprise keywords
28. WWW.COLLAB365.EVENTS
Folksonomie
• « like » de contenu
• Tagging (selon les propres termes de
l’usager)
• Notes
• Profil utilisateur
• Navigation filtrée
• Raffinement de recherche
• Sujets à suivre et champions de
sujets
• Déprécié sur SharePoint online!!!
29. WWW.COLLAB365.EVENTS
Jeux de documents
• « Tel document est lié à tel autre document »
• Créer un modèle de jeux de documents
• Propriétés communes ou distinctes (au choix)
• Tips:
– Peut appliquer de la sécurité (pas sa fonction primaire)
– Ne pas hésiter à faire des types de contenu en héritant
30. WWW.COLLAB365.EVENTS
• Information sur la nature du contenu (CT)
• Ajoute des propriétés (colonnes)
• Permet filtrage, raffinement, recherche….
• Permet formulaires de saisie variables (CT)
Colonnes et types de contenu
31. WWW.COLLAB365.EVENTS
• Accélère la navigation
• Prépare les usagers à l’utilisation de facettes
• Facile à mettre en place
• Peut facilement remplacer structure de dossiers
Navigation par taxonomie
32. WWW.COLLAB365.EVENTS
• Système d’édition de pages rapide
• Permet de lier du contenu web
• Avantages:
– Très facile et rapide à mettre en place
• Inconvénients:
– Pas de fonctionnalités de publication avancées
Wikis
33. WWW.COLLAB365.EVENTS
• Par défaut SharePoint inclue peu de métadonnées web
• Publishing + 2013 permet de founir plus de données
– Description
– Mots clefs
– Site map
– Auteur
– Meilleur titre
– …
Métadonnées dans les pages web
34. WWW.COLLAB365.EVENTS
• Facilitent la recherche
• Sur la gauche dans les résultats de recherche
• S’alimentent de métadonnées
• Possible d’en ajouter, personnaliser…
• Très efficace pour « trier » les données en grand
volume
Facettes
35. WWW.COLLAB365.EVENTS
• Organiser le contenu en fonction de la
taxonomie
– Drop off library
• Appliquer des règles de gouvernance fct taxo
Document center
36. WWW.COLLAB365.EVENTS
• Possibilité de construire Navigation + url via
taxonomie
• Pratique pour le SEO
• Pratique pour la sémantique de votre portail
– Structuré en fonction de votre thesaurus
Site metadata Navigation
42. WWW.COLLAB365.EVENTS
Les usagers ne font jamais leurs devoirs et ne
remplissent jamais les métadonnées
Solutions:
Indexer leur salaire sur le taux de remplissage des métadonnées
Wall of shame du moins bon en métadonnées
Automatiser cette portion!
Oui mais voilà
44. WWW.COLLAB365.EVENTS
• Avant tout modèle mathématique
– Points, vecteurs et par transitivité « routes »
• Ensuite modèle de données
– Idée que toutes les données sont liées ensembles
• Microsoft propose un graph pour les entreprises
– Acteurs, signaux, objets
– Le schema de ces éléments contient des métadonnées et est extensible
Le Graph
47. WWW.COLLAB365.EVENTS
• Avoir quelque chose de pro-actif
• Ne plus avoir à chercher le contenu
– Voir même proposer du contenu qu’on n’aurait pas vu avant
• Si on doit chercher quand même, que ce soit beaucoup plus
efficace
• Faire gagner temps et efficacité
C’est quoi l’idée?
49. WWW.COLLAB365.EVENTS
• On a amélioré la navigation
• On a amélioré la trouvabilité
• On a amélioré la découvrabilité
• On a amélioré l’expérience usager
• Tout le monde gagne du temps
• La compagnie sauve de l’argent
Conclusion
Du préfixe grec « meta », indiquant l’auto-référence et « données », les métadonnées sont des données décrivant les données elles-mêmes (informations, documents, images…).
Ça peut être aussi varié que la licence associé ou bien les coordonnées GPS des likes…
nom d'un groupe de travail qui s'est réuni en 1995 dans la ville de Dublin, Ohio pour définir un tronc commun d'éléments utilisable par le gouvernement américain
le Dublin Core est un format descriptif à la fois simple et générique, comprenant 15 éléments différents
Autres nomenclatures existent (ISO…)
Exemple voiture : synonimes char, mot utilisé voiture, parent, véhicules
Origine des taxonomies: Carl von Linné (XVIIème siècle) a développé un système de classification hiérarchique pour décrire les organismes vivants
Une ontologie correspond à un langage formel c’est-à-dire une grammaire qui définit les concepts d'un domaine, leurs propriétés et leurs relations
Le terme “ontologie” nous vient de la philosophie : l’ontologie (du grec ontos – participe passé du verbe être) est l’étude de l’être en tant qu’être, les propriétés générales de ce qui existe
L’information peut être un mot, un commentaire, un hashtag, un like, une nomination…
Origine : La "colon classification" (Shiyali Ramamrita Ranganathan, 1933) avec 5 catégories fondamentales de description ou facettes permettant de caractériser n’importe quel document ou requête d’interrogation:Personnalité, Matière, Energie, Espace, TempsEx: Le thème fabrication de gants de laine à Bradford au 19e siècle est décrit par Personnalité = gants / Matière = laine / Energie = fabrication / Lieu = Bradford / Temps = 19e
Concept est la représentation d’une idée
Les entités nommées sont des éléments du langage qui font référence à une entité unique et concrète, appartenant à un domaine spécifique (ie. humain, économique, géographique, etc.)
SharePoint apporte la taxonomie, un peu de folksonomie et un peu de classification à facettes.
Objectif: savoir ce que sharepoint fait nativement et fournit
https://support.office.com/en-ie/article/Introduction-to-managed-metadata-a180fa28-6405-4679-9ec3-81d2028c4efc
http://absolute-sharepoint.com/2014/09/microsoft-killing-features-office-365-sharepoint-online.html
http://www.chrisweldon.net/blog/2012/12/18/sharepoint-2013-tagging-social-tags/
L’arrivée de yammer a un peu tué le social de SharePoint dans SharePoint online. Cette fonctionnalité se reposait là-dessus, elle est donc dépréciée
http://blogs.technet.com/b/tothesharepoint/archive/2013/10/24/search-engine-optimization-seo-in-sharepoint-server-2013.aspx
Super white paper à ce sujet
La recherche n’est pas efficace, on prend des métriques. On essaie de structurer les idées, d’où construction d’un thésaurus.
Une fois qu’on a ça il faut mettre à jour les données. Ce qui va nous permettre de mieux structurer la navigation et trouver des choses sans les chercher.
La structuration va aussi nous permettre de définir un plan de gouvernance qui va nous aider à archiver les données obselètes et ainsi améliorer la pertinence des résultats