Se ha denunciado esta presentación.
Utilizamos tu perfil de LinkedIn y tus datos de actividad para personalizar los anuncios y mostrarte publicidad más relevante. Puedes cambiar tus preferencias de publicidad en cualquier momento.

Extraire et trier des données en ligne 2015

5.492 visualizaciones

Publicado el

Suite à la fermeture de Yahoo! Pipes, nous allons voir comment réaliser de la récupération de données avec des outils gratuits ou accessibles...

Publicado en: Internet
  • Sé el primero en comentar

Extraire et trier des données en ligne 2015

  1. 1. Extraire et trier des données en ligne Erwan Tanguy Stratégie et veille 06 62 15 11 02 erwan@ouestlab.fr http://ouestlab.fr/
  2. 2. Web scraping ? Le web scraping est une technique d'extraction du contenu de sites Web, via un script ou un programme, dans le but de le transformer pour permettre son utilisation dans un autre contexte. Attention, il peut y avoir une utilisation légale ou illégale du web scraping. Nous nous intéresserons qu’à la première. 2
  3. 3. Web scraping ? Pour quoi faire ?  Transférer des données d’un site vers un autre site ou vers un document (type tableau Excel) ;  Transformer des données pour y ajouter une valeur avant de la partager sur des réseaux sociaux ;  Récupérer des informations provenant de la concurrence pour pouvoir les analyser ;  Illégal : récupérer des données, les publier à son compte, les vendre ;  … 3
  4. 4. Pour faire de la veille ? La veille est un élément stratégique important et souvent négligé. Elle aide à prendre des décisions, permet d’évoluer et de rester à l’écoute. Ce n’est en aucun cas de l’espionnage ! La veille numérique travaille à partir des données disponible légalement sur internet. La veille, associée à des techniques de web scraping, va pouvoir récupérer des données et les rendre lisibles, accessibles, pour un public large ou pour des personnes précises. Ces données, provenant généralement de sites web, pourront être récupérées au sein d’un document dynamique (un spreadsheet sur Google Drive par exemple) ou compilées sur un flux RSS dans le but d’alimenter une newsletter… 4
  5. 5. Des outils de web scraping Pour récupérer des données :  Google spreadsheet ;  Import.io ;  Kimono ;  Feed43 ; Pour trier, transformer ou compiler les données :  Feed Rinse ;  RSS Mixer ;  Dlvr.it… Pour pousser les données :  IFTTT ;  Dlvr.it ;  Zapier… Pour partager les données :  Les suites d’outils Google (Drive, Group…) ;  Excel ;  Des intranets ou des sites privés…  Des sites ou des réseaux sociaux ouverts… 5
  6. 6. Import.io 6
  7. 7. Import.io Dans la liste des outils gratuits permettant de réaliser une récupération de données, vous pouvez utiliser Import.io qui propose un espace en ligne et une application. 7
  8. 8. Partons d’un exemple Sur une page de vente immobilière du site pap.fr, je voudrais suivre les nouvelles vente de maisons, d’appartements ou autres au fur et à mesure. URL : http://www.pap.fr/annonce/vent e-immobiliere-rennes-35-g43618 8
  9. 9. Partons d’un exemple 9 Sur cette page, je ne souhaite récupérer que les informations de zones précises liées à ma recherche : une liste de vente.
  10. 10. Import.io Cet outil est relativement simple à utiliser puisqu’il nécessite juste de zoner les parties de la page avec laquelle nous souhaitons réaliser un flux. Le flux obtenu pourra être récupérer en tableau soit dans Excel soit dans un spreadsheet sur Drive (avec la possibilité de le rendre dynamique). 10
  11. 11. Import.io Plusieurs méthodes d’extraction des données sont possibles via l’application gratuite :  Magic propose automatiquement de récupérer les données qui semblent être les plus évidentes  Extractor & Classic Extractor vous permet de cibler les éléments de la page et de les organiser dans un tableau  Authenticated Extrator vous permet d’extraire des données sur un site qui nécessite une authentification (attention, cela peut être illégale si vous transmettez ces données) 11
  12. 12. Import.io > Extractor 12
  13. 13. Import.io > Extractor 13
  14. 14. Import.io > Extractor 14
  15. 15. Import.io > Extractor 15
  16. 16. Import.io > Extractor 16
  17. 17. Import.io > Extractor 17
  18. 18. Import.io > Extractor 18
  19. 19. Import.io > Extractor 19
  20. 20. Import.io > Extractor 20
  21. 21. Import.io > Extractor Dans cette partie de l’application, vous allez pouvoir ajouter les liens des paginations suivantes pour récupérer la suite des données. 21
  22. 22. Import.io > Crawler La puissance de Import.io se cache dans l’outil « Crawler » qui va permettre d’aller beaucoup plus loin dans l’extraction de données : Vous allez pouvoir, à partir de quelques pages du même modèle, scanner (crawler) un site entier ! 22
  23. 23. Import.io > Crawler 23
  24. 24. Import.io > Crawler 24
  25. 25. Import.io > Crawler 25
  26. 26. Import.io > Crawler 26
  27. 27. Import.io > Crawler 27
  28. 28. Import.io > Crawler 28
  29. 29. Import.io > Crawler 29
  30. 30. Import.io > Crawler 30
  31. 31. Import.io > Crawler 31
  32. 32. Import.io > Crawler 32
  33. 33. kimonolabs 33 Un autre outil pour la récupération de données.
  34. 34. kimonolabs Kimonomabs propose une plateforme en ligne et un bookmarklet pour déclencher la récupération des données sur une page. Les formats de sorties sont en json, csv ou rss. Assez simple donc ensuite de les importer en dynamique sur un spreadsheet par exemple. Comme pour import.io, l’outil étant simple, il reste limité. Pour notre exemple, il est impossible de récupérer les images des annonces. 34
  35. 35. kimonolabs À partir du bookmarklet, vous allez pouvoir définir, propriété par propriété, les différents éléments de votre tableaux. Si vous souhaitez récupérer un flux RSS par la suite, je vous conseille de suivre les noms « title » et « description » pour définir les données principales, cela simplifiera sa création. Une fois terminé, il ne vous reste plus qu’à enregistrer votre API et la consulter ou l’intégrer à une plateforme ou un logiciel. 35
  36. 36. Sociallymap 36
  37. 37. Sociallymap 37
  38. 38. Sociallymap > les entités • Sociallymap permet de gérer l’automatisation des publications vers vos réseaux sociaux. • Cette application en ligne est modulaire. Les premiers modules – les entités - vous permettent de vous connecter à :  Twitter  Facebook (compte et page)  Linkedin (compte et page)  Instagram • Vous avez aussi la possibilité de récupérer des flux RSS et de stocker du contenu. 38
  39. 39. Sociallymap > les opérateurs Les autres modules – les opérateurs – vous permettent de gérer les contenus et leurs diffusion :  Les filtres  Le délai  Le régulateur  Le timer  Le module de rajout  Le module photo  Le modérateur Ces modules vont réguler la publication de vos flux pour éviter un engorgement qui serait néfaste à leur visibilité. 39
  40. 40. Sociallymap > ouvrir un tableau de bord Pour commencer, nous devons ajouter un tableau de bord qui nous permettra d’avoir, sur une carte, l’ensemble des automatisations d’une ville, par exemple. Il suffit de glisser et déposer les modules des entités et des opérateurs sur le tableaux de bord pour les utiliser. 40 Les modules Le tableaude bord
  41. 41. Sociallymap > Glisser un module 41
  42. 42. Sociallymap > exemple Prenons comme exemple le flux des concerts de la ville de Rouen sur Dreamville pour Facebook (http://goo.gl/kkaukS). Nous insérons le module flux RSS sur un tableau de bord. Nous le renommons et ajoutons l’URL du flux avant de valider. 42
  43. 43. Sociallymap > exemple 43
  44. 44. Sociallymap > exemple 44
  45. 45. Sociallymap > exemple 45
  46. 46. Sociallymap > exemple 46
  47. 47. Sociallymap 47 2 modules « timer » pour varier les temps de publications en fonctions des jours
  48. 48. Sociallymap > remarques 48 La citerne va envoyer vos contenus toutes les 5 minutes, ce qui peut vite devenir agaçant pour les internautes qui vous suivent. Attention : il ne faut pas placer un régulateur avant un timer, vous risquez de ne pas voir vos publications. Lire aussi http://blog.sociallymap.com/astu ce-ne-jamais-placer-un- regulateur-devant-un-timer/ et http://blog.sociallymap.com/astu ce-placer-un-regulateur-entre- une-citerne-et-un-profil-social/ pour le placement des modules.
  49. 49. Sociallymap 49 Exemple de tableau sur des envois vers une page Facebook
  50. 50. IFTTT 50
  51. 51. IFTTT IFTTT est un service en ligne et gratuit qui permet d’automatiser des tâches plus ou moins complexes. Dans la liste des « Channels », il y a aujourd’hui plus de 220 applications qui peuvent de connecter à IFTTT : Réseaux sociaux, Mobile (Android, iOS…), Google (Gmail, Drive…), Microsoft (OneDrive, Office 365…), Objets connectés… 51
  52. 52. IFTTT > exemple avec un flux À partir d’un flux RSS, nous allons automatiser une tâche pour récupérer tous les nouveaux items dans un tableau sur Google Drive. Flux : http://lemonde.feedsportal.com /c/205/f/672609/index.rss Avec un filtre sur le mot « web » et ainsi ne récupérer que les items ayant ce mot… 52
  53. 53. IFTTT > exemple avec un flux 53
  54. 54. IFTTT 54
  55. 55. IFTTT 55
  56. 56. Et aussi 56
  57. 57. Et aussi RSS Mixer Simple outil de compilation de flux, il vous permettra de générer un flux unique à partir d’un ensemble de flux RSS. Feed Rinse À la fois compilateur de flux et filtre, il vous permettra dans un ou plusieurs flux de filtrer autour de mots clés les contenus. 57
  58. 58. Voir en ligne  La page sur pap.fr : http://goo.gl/62sOtz  La présentation sur slideshare (téléchargeable en PDF) : http://goo.gl/XoFzmx  http://app.sociallymap.com  http://www.feedrinse.com  http://www.rssmixer.com/  Tableau des données sur import.io : http://goo.gl/WsRo7u  Flux RSS du kimonolabs : http://goo.gl/hRdqcX 58
  59. 59. 59 Votre interlocuteur Domaines d’expertise :  Formation,  Réseaux sociaux,  Référencement naturel,  Définition de stratégie de contenu,  Analyse des statistiques,  Veille numérique,  Réalisation de sites web (WordPress). Des questions ? 06 62 15 11 02 erwan@ouestlab.fr http://ouestlab.fr/ Erwan Tanguy

×