Extracteur de contenu : Tika
Apache Tika™ est un projet de l'Apache Software Foundation. Il offre un ensemble d'outils pour la détection et l'extraction des métadonnées et du contenu structuré à partir de différents formats de documents.
Parmi les formats de documents supportés par Tika on retrouve:
- Document HTML, XML et ses formats dérivés;
- Documents Microsoft Office;
- Différents formats d'images, de vidéos et audio;
- Différents formats d'archives (zip, jar, ...);
- Format de courriel mbox;
- etc.
[Source : http://tika.apache.org ]