 |
 |
 |
www.doculibre.com
> Accueil
> Nutch |
| |
 |
À propos de Nutch
Nutch est un moteur de recherche Open Source
entièrement programmé en
Java. Il permet d'indexer des sites Web, des intranets et
des systèmes de fichiers. Il supporte plusieurs formats de fichiers
(HTML, PDF, MS Office,
OpenOffice et plusieurs autres) et permet l'analyse de plus d'une
quinzaine de langues.
Le projet Apache Hadoop permet l'indexation d'un nombre illimité de
documents grace à son déploiement en grappe sur plusieurs
serveurs. Hadoop a été testé avec succès sur une grappe de 2
000 serveurs simultanément, et des préparatifs sont actuellement en
cours en vue d'un test sur une grappe de 10 000 serveurs.
Mentionnons que les projets Hadoop et Nutch sont financés par Yahoo! et jouissent d'une communauté très active qui
développe à un rythme accéléré.
Les algorithmes de recherche de Nutch étant ouverts, il est donc aisé
d'obtenir une explication de la pertinance des résultats de recherche
et de la modifier au besoin. Nutch propose aussi plusieurs plugiciels
(plugins) permettant d'effectuer, entre autres, des recherches par
facettes, de suggérer des variantes aux requêtes, etc.
La structure modulaire de Nutch rend possible la
création et l'adaptation des plugiciels afin d'en modifier le
comportement. Nutch établit par défaut la pertinence d'une page en
fonction de son contenu, mais aussi des liens qui pointent vers celle-ci.
Visiter le site Web de Nutch.
Visiter le site Web de Hadoop.
|
|
|
|
 |
 |
Québec |
 |
 |
418.353.3390
|
 |
| |
3181 ch. Sainte-Foy,
Suite 220
Sainte-Foy, Québec Canada
G1X 1R3 |
 |
 |
Montréal |
 |
 |
514.655.5185
|
 |
| |
6937 1re avenue,
Montréal, Québec Canada H1Y 3B3 |
 |
 |
Ottawa |
 |
 |
613.316.7188
|
 |
| |
294 Singleton Way,
Ottawa, Ontario Canada
K1E 2B3 |
 |
| |
 |
info@doculibre.com |
|