Я хочу написать Spark Dataframe в формате Parquet.snappy в HDFS.В настоящее время он создает по умолчанию 200 файлов деталей, даже если количество записей в таблице меньше.
Доступна ли любая формула, которая дает приблизительное количество файлов деталей, которые должны быть записаны в HDFS, чтобы чтение могло быть быстрее.
В идеале размер файла детали должен составлять 50-200 МБ.Мне известны функции перераспределения и объединения, которые уменьшают / увеличивают количество файлов деталей.Я ищу номер, на который необходимо перераспределить кадр данных.