Я постоянно использую запрос на вставку таблицы перезаписи таблицы имя_раздела (partition_column) для записи данных в мою таблицу, но проблема здесь заключается в количестве сгенерированных файлов.
, поэтому я начал использовать spark. sql .shuffle.partitions свойство для фиксирования количества файлов.
Теперь проблема в том, что в каком-то разделе меньше данных, а в некоторых разделах очень много данных. Когда это происходит, когда я выбираю свой случайный порядок воспроизведения. разделы в соответствии с моими большими данными разделов, создаются ненужные небольшие файлы, и если я выбираю случайные разделы в соответствии с разделами с низким объемом данных, задание начинает сбой из-за проблем с памятью.
Есть ли хороший способ решить эту проблему?