Я не знаю, как добиться именно того, что вы хотите, но Hadoop не делает то, что вы хотите.
Hadoop предоставляет инфраструктуру для обработки больших объемов данных (например, анализа файлов журнала) в распределенной среде (кластер), но машины в кластере обычно связаны с высокоскоростными линиями связи (могут быть даже на одной стойке сервера ).
Так что я могу ответить на последнюю часть вашего вопроса и сказать вам, что hadoop не подходит для вашего типа проблемы. Возможно, вы все равно захотите узнать, что дает вам hadoop, чтобы вы могли использовать его в другом сценарии.
Возможно, вы также захотите проверить serverfault , чтобы найти ответ на свою проблему, так как кажется, что вы ищете более системного администратора, похожего на ответ, чем программирующего.
Вот хорошие материалы, чтобы узнать о hadoop