Одна из лучших комбинаций сканеров и индексаторов, которую вы когда-либо найдете для Java, - это Nutch , который сейчас является проектом Apache (см. Wiki ) и, следовательно, с открытым исходным кодом.
Особенности:
- Параллельная выборка, синтаксический анализ и индексация и / или распределение
- Плагины: простой текст, HTML, XML, ZIP, OpenDocument(OpenOffice.org), Microsoft Office (Word, Excel, Powerpoint), PDF, JavaScript, RSS, RTF, MP3 (теги ID3)
- Онтология
- Кластеризация
- MapReduce
- Распределенная файловая система (через Hadoop)
- База данных графов ссылок
- NTLM-аутентификация (Windows / Exchange / и т. Д.)