Проблемы с производительностью при записи данных в снежинку с помощью spark df - PullRequest
0 голосов
/ 03 мая 2018

Я пытаюсь прочитать данные из системы AWS RDS и записать их в Snowflake с помощью SPARK. Мое задание SPARK устанавливает JDBC-соединение с RDS и перетаскивает данные в фрейм данных, а с другой стороны, в тот же фрейм данных, который я записываю в снежинку, используя коннектор снежинки.

Постановка проблемы: Когда я пытаюсь записать данные, даже 30 ГБ данных требуют много времени для записи.

Решение, которое я пробовал :
1) перед записью переделите фрейм данных.
2) кэширование кадра данных.
3) перед записью посчитать df, чтобы сократить время сканирования при записи.

...