Mise en place d'une solution de détection des pirates et des malwares dans le...
Annexe1 éTude Comparative Sur Les Moteurs De Recherche
1. Élaboré par : Mohamed BEN BOUZID Projet de fin d'étude pour l'obtention du Diplôme National d'Ingénieur en Informatique Annexe 1 : Étude comparative sur les moteurs de recherche Open Source Société d'accueil : L'Agence Nationale de la Sécurité Informatique (ANSI) Encadré par : Mme Hela KAFFEL BEN AYED (FST) M. Sami MABROUK (ANSI) Année universitaire 2008/2009
2. Étude comparative sur les Moteurs de recherche Open Source DATAPARKSEARCH SOLR NUTCH Date première version 27 Novembre 2003 17 Janvier 2006 Juin 2003 Date dernière version 25 Avril.2009 15 Septembre 2008 23 Mars 2009 Version actuelle 4.52 1.3.0 1.0 Système d'exploitation FreeBSD, Linux, Solaris Windows, Linux, Mac, BSD, Unix Windows, Linux, Mac, BSD, Unix Langage de programmation C Java Java Communauté Réduite: Forums, Mailing List, Blogs, Pages Wiki Active : Forums, Mailing List, patch Très active:Forums, Mailing List, patch, Tutoriels, Astuces, consultants indépendants offrant une assistance spécialisée. Licence GNU GPL - Version 2 Apache License 2.0 Apache License 2.0 Site offciel http://www.dataparksearch.org/ http://lucene.apache.org/solr/ http://lucene.apache.org/nutch/ Exploration Oui Non Oui Indexation Oui Oui, utilisant les bibliothèques de Lucene Oui, utilisant les bibliothèques de Lucene Recherche Oui Oui, utilisant les bibliothèques de Lucene Oui, utilisant les bibliothèques de Lucene Interface Graphique Non Seulement d'administration Oui Fichiers supportés Texte, HTML, XML, Audio, Vidéo, Images/GIF, PDF, Flash, Word, Excel, RTF, PowerPoint Pas de crawler Texte, HTML, XML, JavaScript, OpenOfice.org ODF & Star Office, Microsoft Power Point & Word, Adobe PDF, RSS, RTF, MP3, ZIP, Flash Personnalisable Avec divers templates Avec divers templates Code compréhensible Extensible Non Non Nutch-Wax, Hadoopi, solr, etc Distribué Non Oui Hadoopi
3. Étude comparative sur les Moteurs de recherche Open Source (suite) DATAPARKSEARCH SOLR NUTCH plugin Non Non LanguageIdentifierPlugin XMLParser Plugin, DocumentationTemplate GeoPosition , German JapaneseAnalyzer, index-extra, protocol-smb Autres caractéristiques ● Indexation multilangues des sites ● Recherche de tous les mots proches ● Support des synonymes, acronymes, abréviation ● Liste d'interdictions de mots. ● Indexation et recherche en même temps sur la même base de données (Multithread) ● Résultat par importance, pertinence, popularité ou par date. ● Correction d'orthographe. ● Recherche par abréviation . ● Support des caractères spéciaux. ● Support du Chinois, japonais, etc. ● Nécéssite un SGBD. (MySQL, PostGreeSQL ou Oracle) ● Hit Highlighting (coloration du mot recherché) ● Communication via HTTP, JSON, XML, PHP, Ruby et Python. ● Simple à mettre en place: pas de Tomcat. ● Interface d'administration (en HTML). ● Possibilité de réplication de serveurs. ● Extensible avec de nouveaux plugins. ● Caching (mémorisation en cache de toutes recherches). ● Recherche filtrée et par catégorie (faceted search) ● Optimisé pour une recherche web très volumineuse. ● Configuration personnalisable et flexible. ● Statistiques complètes sur l'utilisation du cache, mises à jour, requêtes, etc. ● Communauté très active. ● Code source compréhensible. ● Robuste et complet ● Extensible avec plusieurs plugins ● Possibilité d'intégrer Solr avec Nutch. ● Support de Base de données très volumineuse. ● Nécessite le générateur de servlette Tomcat. ● Possibilité de réplication de serveurs. Site offciel http://www.dataparksearch.org/ http://lucene.apache.org/solr/ http://lucene.apache.org/nutch/