À propos de Nutch
Nutch est un moteur de recherche Open Source. Il permet d'indexer des sites Web, des intranets et des systèmes de fichiers. Il supporte plusieurs formats de fichiers (HTML, PDF, MS Office, OpenOffice et plusieurs autres) et permet l'analyse de plus d'une quinzaine de langues.
Le projet Apache Hadoop permet l'indexation d'un nombre illimité de documents grâce à son déploiement en grappe sur plusieurs serveurs. Hadoop a été testé avec succès sur une grappe de 4000 serveurs simultanément avec environs 16 petabyte d'espace dique.
Mentionnons que les projets Hadoop et Nutch sont financés par Yahoo! Inc. et jouissent d'une communauté très active qui les développe à un rythme accéléré.
Étant donné que Nutch est un logiciel libre, ses algorithmes de recherche peuvent être facilement modifiés. Ce qui permettrait d’adapter, aisément, la gestion de la pertinence des résultats de recherche. Nutch propose aussi plusieurs plugiciels (plugins) permettant, entre autres, d'effectuer des recherches par facettes et de suggérer des variantes aux requêtes.
Doculibre a implanté Nutch et Hadoop pour supporté les moteurs de recherche des 400 sites Web de ministères et organismes du gouvernement du Québec.
Visiter le site Web de Nutch.
Visiter le site Web de Hadoop.