Разделение данных на равное количество записей для каждой группы в кадре искровых данных - PullRequest
0 голосов
/ 05 февраля 2019

У нас есть данные за 1 месяц, и каждый день имеет данные размером, который находится в диапазоне от 10 до 100 ГБ.Мы будем записывать этот набор данных разделенным способом.Здесь, в нашем случае, у нас есть параметр DATE, с помощью которого мы будем разбивать данные во фрейме данных (partition ("DATE")).И мы также применяем перераспределение к этому фрейму данных для создания одного или нескольких файлов.Если мы переделим на 1, это создаст 1 файл для каждого раздела.Если мы установим 5, это создаст 5 файлов разделов и это хорошо.

Но то, что мы здесь пытаемся, мы хотим убедиться, что каждая группа (секционированные данные даты) создана с файлами одинакового размера (с помощью нескольких записей или размеров файлов).

Мы использовали опцию фрейма искровых данных "maxRecordsPerFile" и установили 10 миллионов записей.И это работает, как ожидалось.за 10 дней данных, если я делаю это за один раз, это поглощает время выполнения, так как собирает все 10 дней данных и пытается выполнить какое-то распространение.

Если я этого не сделаюустановите этот параметр, и если я не установлю перераспределение в 1, то это действие будет завершено через 5 минут, но если я просто установлю раздел («DATE») и параметр maxRecrodsPerFile, это займет почти час.

С нетерпением ждем помощи в этом!

~ Krish

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...