Экспорт большого количества данных из Hive с использованием PySpark - PullRequest
0 голосов
/ 26 апреля 2020

Я новичок в PySpark, и мне интересно, как лучше всего экспортировать большой объем данных из Hive с помощью PySpark?

У меня есть запрос SQL, который извлекает огромное количество данных \ результатов и я хочу экспортировать их на другую машину для дальнейшей обработки.

Как сделать это самым быстрым способом?

Я знаю, что могу использовать «сбор», но, поскольку это огромный объем данных, мне очень быстро не хватит памяти .. .

...