Как повысить производительность, разрабатывая ETL с помощью Apache-Spark - PullRequest
0 голосов
/ 26 марта 2019

Я разрабатываю ETL с помощью Apache-Spark.Я создаю в общей сложности 10 выходных CSV и у меня есть более 20 входных таблиц.

Все эти 10, поделиться некоторыми входными таблицами.

Если это возможно, я хотел бызнать, как лучше всего разработать мой ETL.

На данный момент я генерирую и пишу каждую таблицу, но я хочу знать, например, если я сначала сгенерирую их все, а затем напишу,производительность была бы лучше.

Заранее спасибо.

...