30. 3 / Les moteurs : Quelques exemples Moteur de recherche scientifique http://www.scholar.google.fr Google Scholar Le moteur de demain ? http:// www.oamos.com Oamos catégorisation http://www.exalead.fr/search Exalead Indexation des tweets http://www.topsy.com Topsy Exemples de moteurs utilisant cette technologie Adresse URL Moteurs de recherche
68. 7 / Lutter contre le plagiat et pour le respect de la propriété intellectuelle
69.
70.
71.
72. Merci de votre attention [email_address] [email_address] [email_address]
Notas del editor
Accès au Méthodoc via Cursus et via Portail documentaire Présenter les quatre manières de naviguer dans Methodoc qui sont disponibles sur la page d’accueil : Par disciplines (-> guides disciplinaires disponibles dans la majeure partie des disciplines) Dans le cours Methodoc proprement dit (dans les 5 parties qui le composent) Par mot-clé (nuage de tags) Dans les guides « comment faire » peu nombreux encore, mais bientôt riches et foisonnants. Diaporama du CM Disponible.
But de la diapo : inviter les étudiants à ne pas confondre le web et Internet Le cours C2i est celui de Michel Legault qui est obligatoire au 1er semestre de L1 Prévoir un schéma explicatif LANGAGE DE BALISAGE d’HYPERTEXTE : voir affichage – code source Internet: au départ système de communication de l’armée développé pendant la guerre froide. Mise en place d’un système sans « centre » mais avec des nœuds, tous égaux, reliés les uns aux autres. Réseau militaire sans aucune optique documentaire HTML: Avant 2003 : Il fallait connaître le langage HTML pour faire des pages web A partir de 2003 / 2004 : des éditeurs de pages web simplifient la mise en ligne de sites web, blogs, etc.
HTML : protocole d’échange Pour voir la page en HTML : Affichage / code source de la page
Ex application web : Twitter (microbloging)
Traduction de l’anglais : « trouver de l’information pertinente sur Internet ressemble à vouloir se servir un verre à une bouche d’incendie » (Rétablir les crédits image) 70% du contenu généré par des individus : institutions minoritaires
Courbe de création de noms de domaines « Active » : nom de domaines de sites effectivement mis à jour Noter fléchissement de la courbe à relier à l’explosion des blogs. Lorsque vers 2003-2004, création des CMS « Containt Management System » qui rendent superflue la connaissance du langage HTML et n’obligent plus à l’hébergement sur un serveur avec un nom de domaine. On peut éditer sur une plate-forme déjà connue : Blogger, Word Press Fracture numérique : 1ere étape: avant 2000 tout le monde n’étais pas connecté à Internet 2eme étape : de plus en plus de monde connecté à Internet, mais manque de méthode pour y recherche de l’information
Note : certains catalogues comme le SUDOC ont « émergé » pendant un temps, puisque les pages de ce catalogue étaient référencés dans Google Scholar. Les références bibliographiques de certaines bases de données (Science Direct) le sont également (Dans Google Scholar) Bien rappeler qu’à mesure que le web visible croît, le web invisible croît dans des proportions équivalentes. Au milieu des années 2000 on estimait que le web invisible était 500 fois supérieur au web visible Exemples web invisible : Intranet ENT etu R2 et Intranet ENT personnels R2
Non fraicheur de l’infromation parfois : les moteurs ne passent pas chaque jour et mettent des pages en cache À propos de la fiabilité : rappeler la polémique autour du « Culte de l’amateur » (livre d’Andrew Keen paru en 2007) cf. article du Devoir : http://www.ledevoir.com/culture/livres/242224/essais-le-livre-noir-d-internet Ex de recherche sur Danton : des sites pas très sérieux! Fragmentation : un bibliothèque gigantesque, mais avec tous les livres dispersés , ouverts à n’importe quelle page, des livres, des articles, des images, du son…
Des sites peu sérieux arrivent parfois en têtes des résultats
Seul face aux outils : une bibliothèque avec un fichier homogène avec une information normée Seul face aux outils : Google présente des résultats de pages hétérogènes d’une manière qui les homogénéise Seul face aux documents : dans une bibliothèque, le professionnel peut aider à la recherche. Seul face à l’information : par rapport à l’offre d’une BU, la fiabilité des documents web est un problème. Seul face aux liens commerciaux : tout Internet semble gratuit (malgré abonnement mensuel) mais rien n’est gratuit pour les annonceurs Relative absence de médiation –un créneau à occuper pour les bibliothécaires. Traces : historique des recherches, logs, cookies, spywares, mais aussi profils, pages personnelles, réseaux sociaux, etc.
Différents outils : portails, annuaires, etc.
1. Analyser l’information Comparer : par exemple, l’article de wikipedia avec celui de l’Universalis ou bien deux versions successives d’un même article de wikipedia Une fois sur wikipedia, montrer pour Bush VOIR LA SOURCE – ou pour Pédophilie « cet article ne cite pas suffisamment ses sources » Recouper : par exemple, tel contenu avec tel rédacteur ayant des intérêts économiques dans le domaine considéré Critiquer : un bon exemple (présent dans le livret du tuteur : http://www.ogm.org/pages/ogm.php?cat=05. Quand on va sur cette page, puis sur la page d’accueil, on voit que les responsables du site sont des vendeurs de semences OGM ou bien des acteurs ayant des intérêts économiques dans la vente d’OGM (Ognis, oleosem, seproma, uipp) 2. Conserver les données Mieux vaut une bibliothèque de signets (diigo par exemple) ou un outil de gestion de références (Zotero) que le bookmark du navigateur dont les capacités sont limitées.
La typologie des outils du web est vue en cours de C2i, on peut passer vite sur la question. L’usage des métamoteurs tend à se raréfier, ne pas y insister.
Annuaires thématiques: Signets de la BNF : sélection de sites Internet et pages web, fraîcheur de l’information par des mises à jour régulières
Les robots parcourent les sites de liens en liens du web visible et indexent en texte intégral
Formule de Google : critère principal : pagerank, plus une page est citée par d’autres pages web, plus elle est jugée intéressant par Google = > Popularité Critère non académique, universitaire, ni scientifique
Ex: recherche simple: Femmes d’alger dans leur appartement =>60 200 résultats recherche simple en expression exacte « Femmes d’alger dans leur appartement » => 15 00 résultats Recherche avancée : expression exacte ; langue: français; format : PDF (documents plus ou moins formalisés) Recherche avancée : mot: delacroix ; domaine : erudit.org Eviter la polysémie Ex: Boulanger # général boulanger
Accès Google scholar : dans Google, choisir plus et encore plus
Site en français/ Interface intuitive Présenter la navigation par facettes possible avec Exalead Navigation par type de site Par type de support Par type de fichier Par terme associé (navigation sémantique) : fonction absente de la recherche avancée de Google, sauf avec la roue magique : ex affaire dreyfus Par langue Par pays Ce type de navigation est amené à devenir un standard aussi dans les sites des bibliothèques Ex: la règle du jeu Limitation dès l’affichage de la recherche Termes associés : proposition de Jean Renoir
En perte de vitesse face à l’omniprésence de Google Recherche sur 10 moteurs et sites (ici encadrés en rouge) Les premiers résultats (ici encadrés en vert) sont des liens commerciaux Les étoiles à côté du résultat (ici encadrées en rouge) indique son indice de pertinence
Modèle économique de Google basé sur la publicité Liens commerciaux en haut et à droit car zones les plus cliquées Liens en haut sont les plus chers Publicité personnalisée : liés aux formulaires complétés en ligne Publicité ciblée ou contextuelle : par rapport aux mots clefs saisis Publicité comportementale : liée aux mots clefs saisis et aux traces laissées (cookies des sites déjà visités)
Achat de mots clés aux enchères = effets pervers Les sites « non alarmistes » arrivent dans els 1er résultats Ex: Oil spill = marée noire => par BP « émeutes banlieues » => en 2005 ramenait vers le site UMP « perquisition » => en 2010 (pendant l’affaire Bettencourt) ramenait vers le site UMP
Actuellement : en France 91,2 %
Aller sur + et encore +
Youtube, Picasa,
Yahoo à donné à la Chine les adresses IP d’opposants chinois par intérêt économique Site de la FNAC suggère à un client ce que d’autres clients intéressés par ce produit ont également consulté ou acheté sur le site
1. Les fournisseurs d’accès (directive Data retention de mars 2006) au nom de la lutte contre le terrorisme 2. Les moteurs de recherche (Google archive le parcours des internautes sur ses sites ou ses sites partenaires pour leur envoyer de la publicité contextuelle. D’après une enquête récente (http://www.lemondeinformatique.fr/actualites/lire-les-francais-se-sentent-en-securite-sur-internet-a-tort-31743.html) (menée par l’Agence Media GroupeM et publiée le 23 septembre, 38% des internautes songent à effacer les cookies de leur disque dur, cette tendance croît avec les internautes très actifs) 3. Les réseaux sociaux (Facebook et Twitter notamment) Sur le marché de la recommandation sur lequel mise un certain nombre de partenaires de Facebook, voir le billet d’Olivier Ertzscheid du 4 octobre 2010 <http://affordance.typepad.com/mon_weblog/2010/10/prescription-et-recommandation-des-pairs-et-des-tiers.html> 4. L’internaute , en quelque sorte, qui se fiche lui-même sur Facebook mais avec une possibilité de se re-documenter (réinventer son identité)
Source : Yves Eudes, Y-a-t-il une vie privée sur Internet ? Le Monde, vendredi 28 mai 2010 Laurence Girard, L’exploitation des informations privées à des fins commerciales aiguise les appétits , Le Monde, 28 mai 2010
France : 5ème demandeuse de données personnelles sur les usagers (846 par mois) mais censure très peu de contenu (10 demandes par an) Allemagne : demande peu de données personnelles, mais censure davantage (188 requêtes dont 94% ont été acceptées) La censure peut-être au service de la loi. Allemagne : lutte contre les sites nazis Certains pays censurent même jusqu’à leurs demandes de censure : nombre de demandes de données personnelles et de censure par le gouvernement chinois à Google : top-secret. Bloggeurs incarcérés : notamment Hossein Derakhshan qui est incarcéré depuis 2 ans et encourt la peine de mort <http://www.ginisty.com/Internet-sans-Frontieres-appelle-au-renforcement-de-la-mobilisation-pour-defendre-le-pere-de-la-blogosphere-iranienne_a483.html>
Prescription à partir de l’historique des requêtes : on vous propose des articles qui ressemblent à ceux dont vous avez consulté les notices descriptives Prescription à partir de la statistique : on vous propose des articles qui sont le plus fréquemment achetés (block-busters) Pour l’instant, les deux types de prescription sont contigus
Définition : l’ identité numérique est la collection de traces (écrits, vidéos, messages, achats etc.) laissée consciemment ou non durant notre navigation sur le réseau. Ces traces, réarrangées par les moteurs de recherche et les sites de réseaux sociaux dessinent notre réputation numérique . Exemple Marc L. Des journalistes on choisi un nom au hasard, et ont réuni toutes els informations disséminées sur le réseau Flickr / Facebook / Archives Google ( presse locale, sites web) / Youtube
autres éléments : 1 agresseur retrouvé parce qu’il s’est vanté de son agression sur Facebook, une fille en arrêt-maladie pour dépression qui publie sur facebook des photos de fiesta, une fille postulant pour un emploi de cadre qui posé les seins nus pour une cause humanitaire…
Etapes pour paramétrer son compte Facebook et contrôler l’accès aux informations du compte et aux informations publiées: 1/ Compte 2/ Paramètres de confidentialité 3/ Afficher les paramètres
Pour créer des alertes Google : Plus / Encore plu : Alertes Bien choisir ses mots clés Abonnement et désabonnement rapide au service Ne génère aucune publicité
Montrer SAVM, ou CERHIO, ou médiathèque Ouverture de compte très simple: nécessite une adresse mail valide Ajout de flux rapide et facile Sur un site, localiser la liste des flus disponibles, copier l’url et ajouter à l’agrégateur
EX Martin Lyther King.org – truth about King – forum discussion : White power Cliquer sur « Thuth about king » à droite Cliquer tout en bas de la page sur « Join MLK Discussion » forum ». On tombe sur le site « White pride, world wide » : Site raciste. Slogan d’un ancien membre du ku klux klan