Question

Я понимаю возможности Spark / Hadoop для работы с большими данными, но меня просят использовать их для набора процессов, которые, похоже, не совсем вписываются в это, и мне нужна проверка работоспособности.

Процессы параллельны на высоком уровне, но содержат по своей сути последовательные независимые подпроцессы, которые нельзя распараллелить. Пример этого - X параллельных процессов, которые запускаются. Каждый из них использует свою конфигурацию для запуска набора несколько независимых подпроцессов:

Скачать набор XML (последовательно)
Проверка каждого XML (последовательно)
Слегка обработать каждый XML (последовательно)
Загрузка в хранилище данных (последовательно)

Обработка содержит некоторое преобразование, но не так много в терминах больших данных. Эта обработка может быть полезной только в один шаг, но она все равно должна выполняться последовательно для одного потока.

Для меня это не совсем большой объем данных. На самом деле, кажется, что это может быть полное неправильное использование этой платформы. Единственным преимуществом в этом случае может быть консолидация нескольких платформ для целей поддержки, но в целом экосистема spark / hadoop не дает никакой выгоды для такого рода бизнес-процессов, верно?

Или я сумасшедший?

Ilya Brodezki · Answer 1 · 05 июля 2018

Мне кажется, ваш вопрос действительно зависит от:

масштаб данных
если вы действительно не можете сделать это параллельно (загрузка и проверка xml звучит как нечто параллельное, но вы знаете лучше, чем я
если весь процесс должен выполняться каждый раз или его части должны выполняться один раз.

Я имею в виду следующее: если большая часть процесса является последовательной (и ее нужно запускать для каждой работы с искрой, а не один раз), и узкое место находится там, то это звучит так, как будто вы правы, и время запуска + сложность У Spark есть веские причины не использовать его. Но если вас попросят использовать Spark, возможно, для этого есть веская причина.

Apache Spark для бизнес-процесса?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Apache Spark для бизнес-процесса?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы