Опция "maxRecordsPerFile", похоже, не работает, когда я использую распакованный список файлов для чтения файлов паркета, в spark.
Напротив, если я использую определенное имя каталога или имя файла (вместо файлаlist), опция «maxRecordsPerFile» работает, как и ожидалось.
Пожалуйста, посмотрите код ниже, который я использовал:
file_path_list = ['file1','file2','file3']
read_df = spark.read.parquet(*file_path_list)
read_df.write.mode("overwrite").option("maxRecordsPerFile",num_records).option("header", "true").parquet(destination_file_path)
Есть что-нибудь, что я здесь делаю неправильно?