English
www.doculibre.com > Accueil > Nutch
 

À propos de Nutch

Nutch est un moteur de recherche Open Source entièrement programmé en Java. Il permet d'indexer des sites Web, des intranets et des systèmes de fichiers. Il supporte plusieurs formats de fichiers (HTML, PDF, MS Office, OpenOffice et plusieurs autres) et permet l'analyse de plus d'une quinzaine de langues.

Le projet Apache Hadoop permet l'indexation d'un nombre illimité de documents grace à son déploiement en grappe sur plusieurs serveurs. Hadoop a été testé avec succès sur une grappe de 2 000 serveurs simultanément, et des préparatifs sont actuellement en cours en vue d'un test sur une grappe de 10 000 serveurs.

Mentionnons que les projets Hadoop et Nutch sont financés par Yahoo! et jouissent d'une communauté très active qui développe à un rythme accéléré.


Les algorithmes de recherche de Nutch étant ouverts, il est donc aisé d'obtenir une explication de la pertinance des résultats de recherche et de la modifier au besoin. Nutch propose aussi plusieurs plugiciels (plugins) permettant d'effectuer, entre autres, des recherches par facettes, de suggérer des variantes aux requêtes, etc.

La structure modulaire de Nutch rend possible la création et l'adaptation des plugiciels afin d'en modifier le comportement. Nutch établit par défaut la pertinence d'une page en fonction de son contenu, mais aussi des liens qui pointent vers celle-ci. 


Visiter le site Web de Nutch.
Visiter le site Web de Hadoop.

Québec
418.353.3390
  3181 ch. Sainte-Foy,
Suite 220
Sainte-Foy, Québec
Canada
G1X 1R3
Montréal
514.655.5185
  6937 1re avenue,
Montréal, Québec
Canada
H1Y 3B3
Ottawa
613.316.7188
  294 Singleton Way,
Ottawa, Ontario
Canada
K1E 2B3
  info@doculibre.com