Я широко использовал Nutch, когда создавал индекс проекта с открытым исходным кодом для своего запуска Krugle. Это трудно настроить, будучи довольно монолитным дизайном. Существует архитектура плагинов, но взаимодействие между плагинами и системой сложно и хрупко.
В результате этого опыта и необходимости чего-то более гибкого я запустил проект Bixo - набор инструментов для веб-майнинга. http://openbixo.org.
Правильно ли это для вас, зависит от веса таких факторов, как:
- Сколько вам нужно гибкости (+)
- Насколько зрелым оно должно быть (-)
- Нужна ли вам способность масштабировать (+)
- Если вам удобно с Java / Hadoop (+)