Я разрабатываю ETL с помощью Apache-Spark.Я создаю в общей сложности 10 выходных CSV и у меня есть более 20 входных таблиц.
Все эти 10, поделиться некоторыми входными таблицами.
Если это возможно, я хотел бызнать, как лучше всего разработать мой ETL.
На данный момент я генерирую и пишу каждую таблицу, но я хочу знать, например, если я сначала сгенерирую их все, а затем напишу,производительность была бы лучше.
Заранее спасибо.