Я немного больше узнаю о hadoop и его приложениях, и я понимаю, что он ориентирован на массивные наборы данных и большие файлы. Допустим, у меня было приложение, в котором я обрабатывал относительно небольшое количество файлов (скажем, 100 КБ), что не так уж много для чего-то вроде hadoop / hdfs. Однако для запуска на одной машине требуется некоторое количество времени, поэтому я хотел бы распределить процесс.
Проблема может быть разбита на проблему уменьшения стиля карты (например, каждый из файлов может быть обработан независимо, а затем я могу агрегировать результаты). Я открыт для использования инфраструктуры, такой как Amazon EC2, но я не очень уверен в том, какие технологии нужно исследовать для фактического агрегирования результатов процесса. Похоже, хэдуп здесь может быть немного излишним.
Кто-нибудь может дать рекомендации по этому типу проблемы?