В конкретном случае поисковой системы я рекомендую вам проверить Solr или Lucene.Для 5-7 сайтов Hadoop, вероятно, будет излишним.Возможна инкрементная индексация, а также добавление определенных метаданных к каждой из доступных для поиска вещей.
Я могу представить, что эти сайты публикуют большую часть своего контента также в RSS-каналах, которые вы можете использовать для обновления своих индексов быстрее, чемВы бы, непрерывно ползая их.
Сама поисковая система предоставляет все виды интересных способов максимально быстрого доступа к вашим результатам для последующей обработки или немедленного отображения вашим пользователям.
Для распараллеливания в пакетах JSR-166y есть отличная поддержка(java.util.concurrent), которые позволяют распараллеливание без головной боли, если вы придерживаетесь одного из предложенных шаблонов.Они работают очень хорошо.
Просто некоторые мысли.