Я понимаю возможности Spark / Hadoop для работы с большими данными, но меня просят использовать их для набора процессов, которые, похоже, не совсем вписываются в это, и мне нужна проверка работоспособности.
Процессы параллельны на высоком уровне, но содержат по своей сути последовательные независимые подпроцессы, которые нельзя распараллелить. Пример этого - X параллельных процессов, которые запускаются. Каждый из них использует свою конфигурацию для запуска набора несколько независимых подпроцессов:
- Скачать набор XML (последовательно)
- Проверка каждого XML (последовательно)
- Слегка обработать каждый XML (последовательно)
- Загрузка в хранилище данных (последовательно)
Обработка содержит некоторое преобразование, но не так много в терминах больших данных. Эта обработка может быть полезной только в один шаг, но она все равно должна выполняться последовательно для одного потока.
Для меня это не совсем большой объем данных. На самом деле, кажется, что это может быть полное неправильное использование этой платформы. Единственным преимуществом в этом случае может быть консолидация нескольких платформ для целей поддержки, но в целом экосистема spark / hadoop не дает никакой выгоды для такого рода бизнес-процессов, верно?
Или я сумасшедший?