Я новичок в PySpark, и мне интересно, как лучше всего экспортировать большой объем данных из Hive с помощью PySpark?
У меня есть запрос SQL, который извлекает огромное количество данных \ результатов и я хочу экспортировать их на другую машину для дальнейшей обработки.
Как сделать это самым быстрым способом?
Я знаю, что могу использовать «сбор», но, поскольку это огромный объем данных, мне очень быстро не хватит памяти .. .