Я пытаюсь запросить hdfs, в которых много файлов деталей (avro).Недавно мы внесли изменения, чтобы уменьшить параллелизм, и, таким образом, размер файлов деталей увеличился, размер каждого из этих файлов деталей находится в диапазоне от 750 МБ до 2 ГБ (мы используем потоковую потоковую запись для записи даты в hdfs с 10-минутными интервалами,поэтому размер этих файлов зависит от объема данных, которые мы обрабатываем из апстрима).Количество файлов деталей будет около 500. Мне было интересно, будет ли размер этих файлов деталей / количество файлов деталей играть какую-либо роль в производительности spark SQL?
Я могу предоставить больше информации, если потребуется.