У нас есть данные за 1 месяц, и каждый день имеет данные размером, который находится в диапазоне от 10 до 100 ГБ.Мы будем записывать этот набор данных разделенным способом.Здесь, в нашем случае, у нас есть параметр DATE, с помощью которого мы будем разбивать данные во фрейме данных (partition ("DATE")).И мы также применяем перераспределение к этому фрейму данных для создания одного или нескольких файлов.Если мы переделим на 1, это создаст 1 файл для каждого раздела.Если мы установим 5, это создаст 5 файлов разделов и это хорошо.
Но то, что мы здесь пытаемся, мы хотим убедиться, что каждая группа (секционированные данные даты) создана с файлами одинакового размера (с помощью нескольких записей или размеров файлов).
Мы использовали опцию фрейма искровых данных "maxRecordsPerFile" и установили 10 миллионов записей.И это работает, как ожидалось.за 10 дней данных, если я делаю это за один раз, это поглощает время выполнения, так как собирает все 10 дней данных и пытается выполнить какое-то распространение.
Если я этого не сделаюустановите этот параметр, и если я не установлю перераспределение в 1, то это действие будет завершено через 5 минут, но если я просто установлю раздел («DATE») и параметр maxRecrodsPerFile, это займет почти час.
С нетерпением ждем помощи в этом!
~ Krish